Vision in english
Natura nusquam magis est tota quam in minimis

Plinus

Notre Vision : pour une Biologie Symplectique



Modèles et Techniques

La Science évolue au travers d'une association intime entre la création de concepts et de techniques (voir en anglais A Western Imbroglio) ainsi qu'un dialogue constant entre les découvertes et leurs applications. Le futur de la génomique est donc impossible à séparer du futur des techniques associées, parmi lesquelles le développement de l'informatique et de la mathématique des nombres entiers vont jouer le premier rôle :




Découvertes Théorèmes

Prédictions

























Techniques




 



Applications


Donné

Faits




















Hypothèses (explicites)

















Approche
Pilotée par l'hypothèse



Heuristique (implicite)

















Pilotée par les données


Construit 
Déduction













Pilotée par le contexte




Induction

Abduction


















La méthode usuelle dont la Science procède est la méthode hypothético-déductive, qui fait usage d'un modèle du Réel pour le mettre en regard des résultats et du comportement d'expériences. Bien que cette façon de voir soit très efficace pour planter le décor, tout en produisant un arrière-plan conceptuel fort pour expliquer les progrès de la science, seule, elle ne conduit pas à la découverte. La découverte ne peut être décidée à l'avance. La recherche pilotée par la découverte doit donc combiner cette approche standard (Gréco-Latine) avec les approches pilotées par les Données (souvent privilégiées par le monde Anglo-Américain) ou par le Contexte (privilégiées par le monde Chinois).

Un élément essentiel de l'aller-et-retour entre le Modèle et le Réel sera de reconstruire un ensemble "réaliste" qui incorporera la totalité de la connaissance à un moment donné dans un système explicitement mis en action. C'est là l'objectif central de la Biologie Synthétique qui commence à constituer son programme de recherche au début du XXIe siècle.

Une métaphore : la barque de Delphes (commentaires en anglais)

Une présentation de la nature de la biologie symplectique a été exposée à la conférence Le Logique et le Biologique, le 22 avril 2000

Notre travail vise à considérer la biologie du "post-séquençage" comme biologie symplectique (συν : ensemble, πλεκτειν, tisser), où les liens entre objets constituent le cœur des découvertes à venir.

Parmi les questions posées par l'Oracle de Delphes, la Pythie, se trouvait une question fondamentale directement reliée à la nature des artefacts produits et utilisés par les organismes vivants – une énigme, comme le sont toujours les questions des Oracles. Si l'on considère une barque faite de planches bien ajustées, nous pouvons nous demander ce qui fait que la barque est barque. Cette question est plus qu'un jeu de l'esprit, comme on le voit bien lorsque le temps passe, puisque les planches pourrissent une à une et doivent être remplacées. Il vient même un moment où aucune des planches originelles ne reste plus.

La barque ressemble fort à la barque originelle, et pourtant en termes de matière elle un changé. Est-ce encore la même barque ? Son propriétaire dira certainement que "oui, c'est ma barque". Pourtant rien de ce qui constituait sa matière ne s'y retrouve. Et si l'on devait analyser les composants de la barque, ses planches, on n'apprendrait pas beaucoup. On peut le comprendre aisément en mettant la barque en pièces : elle se réduit à un tas de planches – et ce ne sont pas les mêmes que celles qui étaient là au début ! La nature physique de ces objets a certainement un certain rôle – une barque faite de planches de chêne diffère d'une barque faite de planches de pin – mais c'est assez anecdotique. (Il est très important de se rappeler cela lorsqu'on pense aux possibilités d'existence de la vie autre part dans l'univers – il n'y un absolument aucune raison pour qu'elle soit constituée des mêmes molécules que sur la Terre, mais les principes formels à l'œuvre seront probablement maintenus.) Ce qui est important dans la matière des planches, en dehors de leur relative stabilité dans le temps, est qu'elle leur permet d'être mises en forme, de manière à ce qu'elles puissent s'ajuster. La barque n'est pas la matière dont elle est faite, mais quelque chose d'autre, bien plus intéressante, qui organise la matière des planches : la barque est les relations entre les planches. De la même manière, l'étude de la vie ne devrait jamais être restreinte à ses objets, mais s'intéresser à leurs relations. C'est pourquoi un génome ne peut être considéré comme une collection de gènes. Il est beaucoup plus que cela.

Etudier les relations est essentiellement ce que Georges Cuvier faisait – et ce que font toujours les paléontologues – quand il prenait quelques ossements d'un animal éteint depuis longtemps, ou même parfois une simple dent, et proposait la reconstruction de la créature entière. Cette importance des relations n'est pas une propriété banale, notons le en passant, mais un fait qui a des implications considérables en théorie et en pratique, et nous y reviendrons longuement lorsque nous analyserons quelques aspects des théories de l'information biologique, au chapitre suivant (en anglais pour l'instant). L'importance fondamentale des relations, qui représentent une interprétation particulière de la forme, a été remarquée il y a 2 500 ans par Empédocle et bien des philosophes présocratiques. Saint Thomas d'Aquin y fait aussi allusion quand il analyse le statut philosophique du concept de création : “si l'on écarte le mouvement, seules subsistent différentes relations.” Les relations au sein d'un Tout organisé nous disent non seulement beaucoup à propos des événements passés qui leur ont permis de fonctionner ensemble, mais prédisent aussi certains aspects du futur, puisque la place des parties manquantes est prédéfinie par le Tout (cf l'arbre et l'anneau, en anglais).

Renouveau du Darwinisme

Lorsque Darwin écrivait L'Origine des Espèces le concept de gène n'existait pas encore. L'idée que l'évolution des espèces se faisait par transformation progressive avait bien été développée par Lamarck, mais au sein du paradigme pré-atomiste des quatre éléments (Feu, Air, Eau et Terre : il parlait du "Feu intérieur"). Darwin remit au goût du jour les théories sélectives déjà imaginées par Empédocle, ajoutant à la variation couplée à la sélection, la puissance biologique de l'amplification via la multiplication des individus, comme cela avait été récemment mis en scène par Malthus.

Le triplet qu'on peut faire remonter à Empédocle, Maupertuis, Malthus et Darwin

Variation / Sélection / Amplification

Evolution

Fonction

Structure

Séquence

remarque que tout système matériel qui y est soumis évolue, créant des fonctions, qui, pour exister, capturent (ou recrutent) des structures pré-existantes (d'où l'aspect "bricolage" du développement de la vie). La génétique, puis la génomique ont ajouté à ce schéma évolutif, la nature algorithmique des séquences d'ADN. Une conséquence de cette évolution est que la structure ne dit pas la fonction, en général. Ainsi, pour comprendre ce qu'est la vie au moyen du texte des génome, il nous faudra toujours ajouter de la connaissance biologique (y compris le mode de vie des organismes considérés) à notre connaissance des génomes. Comprendre la vie sera d'abord en comprendre les fonctions. On remarquera ici que le concept de fonction, très utile pour véhiculer le savoir biologique, est souvent l'objet de critiques profondes, plus ou moins fondées, de la part de philosophes préoccupés de la position de la Biologie au sein de la Science. La position la plus classique est la position "étiologique" qui retient pour définir une fonction l'histoire de sa naissance et de son développement, sous la forme d'une chaîne causale. Il est probable que "fonction" comprend d'autres aspects qui mériteront d'être peu à peu éclaircis. Les biologistes se comportent en utilisant le concept, sous forme floue mais efficace, comme le faisait Dirac avec sa célèbre fonction "delta" avant sa formalisation par Laurent Schwartz et toute une école de mathématiciens, en une théorie cohérente, la théorie des "distributions".

Un nouveau paradigme : la génétique des génomes

Jusqu'au moment où la première séquence d'un génome a été déchiffrée, la vie n'était vraiment étudiée que sous la forme de pièces et de morceaux : organismes, organes, cellules, gènes, transcrits, protéines, métabolites... Cette attitude analytique, souvent nommée "réductionniste" par dérision ou par simple hostilité, était celle de l'horloger démontant une horloge : le tas de pièces ne fait pas marcher l'horloge (et ne permet pas souvent de la comprendre). Les premières analyses du texte génomique ont montré que l'ordre des gènes dans les génomes n'est pas aléatoire (voir ces références comme premiers exemples - A, B - de distribution non-aléatoire de séquences dans l'ADN bactérien). Il n'est donc plus possible d'étudier les gènes ou les protéines isolément si l'on veut comprendre les processus à l'œuvre dans la vie. Nous avons désormais besoin de techniques à grande échelle, où l'on analyse simultanément le devenir de nombreuses cellules, gènes, transcrits, protéines ou métabolites. Ensuite, il devient nécessaire d'intégrer ces données en une image cohérente qui nous donne une explication de ce que nous observons. C'est l'objectif de la génomique (l'expression largement utilisée de "post-génomique" est un oxymore inutile, qui signifie en fait "post-séquençage").

Puisque les génomes, et non les gènes, sont les objets qui importent, il nous faut les étudier en tant que totalités, et comparer les génomes entre eux, et pas simplement les gènes avec les gènes ou les protéines avec les protéines. Nous avons aujourd'hui le catalogue des métabolites de base (quelques centaines sont nécessaires pour faire fonctionner une cellule : ce n'est pas beaucoup plus que les atomes de la table de Mendeleiev), et des fonctions de base. De plus, l'une des prédictions principales de la génétique de génomes est que beaucoup de processus sont algorithmiques (voir plus loin), donc capables de créer des produits nouveaux (métabolites, gènes, fonctions...) au fur et à mesure que le temps passe. La vie s'ouvre sur l'avenir, et n'est pas auto-limitée. Cette façon de voir est complémentaire de celle de cellules perçues comme des ordinateurs faisant des ordinateurs, ce qui pose des questions intéressantes sur la présence d'une "image de la machine" quelque part dans la cellule .

La génomique intègre l'étude des organismes dans leurs conditions normales d'existence :

in vivo

elle requiert la découverte de tous les composants qui les constituent, et doit étudier leur structure et leur dynamique :

in vitro

enfin, elle doit maintenant mettre en œuvre des expériences au moyen d'ordinateurs pour étudier le génome comme un texte chiffré écrit dans un langage inconnu :

in silico

C'est le commencement d'un cycle où la connaissance biologique est intégrée à l'analyse du texte génomique, nous permettant de faire des prédictions, qu'il faut tester in vivo par génétique inverse (où par exemple des gènes modifiés remplacent les gènes originels in situ) et in vitro par la caractérisation des produits des gènes et de leurs interactions.

Première prédiction : on trouve une image de la cellule dans le chromosome

Il n'y a aujourd'hui aucun doute que les gènes ne sont pas répartis aléatoirement dans le chromosome d'une bactérie comme E. coli. Et cela est visiblement lié à la fonction des protéines spécifiées par les gènes et par l'architecture de la cellule. Cette observation est, à première vue, un mystère : comment comprendre, en effet, le lien qui doit exister entre un texte symbolique, le texte du gène, son produit et une architecture ? Si une correspondance existe, alors il doit exister un lien physique entre ces différent aspects du Réel. Il doit exister, quelque part entre le gène, son produit et la place où il doit se trouver dans la cellule, un processus d'adressage. Et, si nous tenons à la simplicité du rasoir d'Ockham — ne pas multiplier les hypothèses — nous devons invoquer des principes physico-chimiques simples. Procédons donc à la manière des philosophes présocratiques lorsqu'ils exploraient les contraintes nécessaires agissant sur le monde — avec le risque évident de la trop grande généralité et du manque de précision, mais avec l'espoir de tracer de nouvelles voies pour notre exploration. Raisonnons par symétrie comme principe de base (non en termes de formes bien entendu, mais dans la nature des lois physiques en cause.)

Analysons d'abord le devenir du produit d'un seul gène, une protéine, synthétisée sur un ribosome. Deux situations peuvent se présenter. Soit elle n'interagit pas avec elle-même, et l'absence de contraintes spécifiques (c'est là la signification profonde de l'entropie) va la mener également dans toutes les directions, en tous lieux de la cellule. Soit elle a de l'affinité pour elle-même (le cas de la répulsion, théoriquement possible, est rare chez les objets biologiques, au moins à l'échelle moléculaire, sinon à l'échelle cellulaire). Une région de sa surface, A, va interagir avec une région B d'une seconde molécule de la même protéine. Cela constitue un dimère. Mais ce dimère possède dans la première sous-unité une région B libre, tandis que la seconde sous-unité a une région A libre. C'est bien entendu la situation générale, mais il existe des situations autres, où A et B sont en contact et forment un dimère avec une symétrie semblable (à trois dimensions !) à celle de la figure du Yin et du Yang. Dans le cas général cependant, alors que le ribosome synthétise un troisième exemplaire de la protéine, cette dernière aura la même tendance que les précédentes à s'associer au complexe qu'elles forment. Mais cette association n'est pas aléatoire : elle se produit principalement aux régions particulières des protéines formant une région A, en face d'une région B, dans l'orientation appropriée. Ce processus va se poursuivre tant que de nouvelles protéines sont synthétisées. Dans le cas le plus général, cela conduit à une structure en hélice. Ce simple raisonnement montre que l'hélice est la première des formes biologiques. Elle est donc la forme la plus fréquente et la plus banale. Jusqu'ici, il n'y a rien de très surprenant, mais la reconnaissance de l'existence d'une forme essentielle, dissymétrique par construction, à la base de toutes les formes vivantes (et nous retrouvons ici le mot de Pasteur: "La dissymétrie, c'est la vie!").

Une autre conséquence remarquable de cette propriété est que les formes helicoïdales permettent à la cellule de mesurer les longueurs avec une grande précision ! C'est ce qui se produit durant la formation de la queue de certains virus (un appendice qui leur sert à injecter leur génome dans la cellule hôte). L'astuce découverte par l'évolution est d'utiliser un couple d'hélices de pas différent, une hélice formant un tube au sein duquel la seconde s'insère. Ces pas, bien entendu ne sont en général pas commensurables (mais ils le deviennent toujours après une certaine longueur, en raison des déformations causées par les fluctuations thermiques subies par toutes les structures biologiques). Commençant au même point, les hélices commencent par s'écarter l'une de l'autre. Mais après un certain nombre de tours, déterminé par la différence des pas, les extrémités des deux hélices sont à nouveau au voisinage l'une de l'autre sur le même rayon du cercle de base. Cela crée un contexte où la construction peut s'achever. Par la suite, un processus continuant la construction du virus (la construction de sa tête), déclenche la dépolymérisation de l'hélice échafaudage intérieure, faite de sous-unités identiques, qui sont relarguées dans le milieu, laissant une queue creuse de longueur bien définie. Ce processus, qui utilise l'adéquation du repliement de deux hélices, est certainement très général. Il dérive directement de l'usage de la forme ubiquiste qu'est l'hélice, transformant les contraintes de la nécessité physique en moyens élaborés permettant de créer de nouvelles propriétés (abstraites) des formes, comme celles de mesurer des longueurs. De la même façon, le temps peut être aussi mesuré par plusieurs sortes de processus, souvent très simples. Comme les acides nucléiques (ARN et ADN) font aussi des hélices, ils contraignent très fortement les systèmes qui interagissent avec eux, permettant, à nouveau, un ajustement de leurs positions relatives, et c'est peut-être le mécanisme qui permet à l'enzyme (la télomérase) qui gère les extrémités des chromosomes linéaires, les télomères, de conserver leur longueur quand ils ont été raccourcis par une succession d'événements de réplication.

L'évolution est exploration, et, au fur et à mesure que les protéines s'agrègent en structures helicoïdales, elle vont explorer toutes sortes de pas, à partir de toutes sortes de cercles de base, laissant en leur intérieur un trou plus ou moins large, au fur et à mesure que les gènes qui les spécifient varient par mutations. Parmi les pas possibles se trouve le pas "nul" (c'est-à-dire, où toutes les sous-unités restent dans un même plan au lieu de former une hélice). Cela conduit donc à des structures cycliques. Les propriétés de toutes ces structures ont été étudiées depuis l'Antiquité. Elles comprennent, en particulier, les polyèdres réguliers chers à Platon, qui les décrit dans le Timée. Et, de fait, ces polyèdres existent bien dans de nombreuses structures biologiques. Elles forment, par exemple, bien des capsides virales. Maintenant, une construction de ce type (un virus icosaédrique, par exemple), possède une propriété simple, qu'on reconnaît aisément en suivant la ligne de raisonnement que nous avons suivie jusqu'à présent (nous ne l'avions appliquée qu'à des sous-unités isolées) : s'il n'interagit pas avec quelque chose de particulier, il va naturellement tendre à explorer toute la cellule. A un certain moment il va, donc, rencontrer la membrane cellulaire. C'est ce qui lui permettra de trouver le moyen de s'en échapper.

L'accroissement le plus élevé de l'entropie d'un complexe moléculaire dans l'eau se produit quand le rapport surface / volume est le plus élevé. C'est le cas en particulier des feuillets plans, et au contraire ce rapport est minimal dans les structures sphériques. En conséquence, quand un plan en rencontre un autre, il peut perdre une couche de molécules d'eau et rester là où il est, commençant un empilement de feuillets plans. Parmi toutes ces structures il en existe une qui a une propriété remarquable, c'est l'hexagone. Des hexagones réguliers vont former un pavage plan s'ils interagissent, une structure semblable à celles qu'ont découvertes les abeilles dans leurs ruches. Bien des structures géométriques peuvent conduire à des structures planes, mais les hexagones réguliers n'ont que deux façons d'interagir : soit ils s'empilent, et forment des tubes, soit ils forment des plans. Bien des structures membranaires sont faites de feuillets plans, et en particulier de morceaux de pavage hexagonal. Imaginons ce qui arrive à un fragment de plan hexagonal, fait de sous-unités synthétisées sur un ribosome, associé à l'ARN messager correspondant. Ce fragment va spontanément s'écarter du lieu de sa biosynthèse, ou bien en suivant les mouvements de fluides à l'intérieur de la cellule, ou bien en suivant des gradients électrostatiques, ou encore toute autre forme de mouvement de diffusion. En gros, it va tendre à s'échapper de la place où il est. Cela signifie qu'il va se déplacer jusqu'à ce qu'il atteigne un obstacle. Et le premier obstacle qu'il va rencontrer a aussi la propriété d'être, localement, un plan, donc préadapté à interagir avec un morceau de pavage plan, il s'agit d'une des structures membranaires de la cellule ! Ce morceau de plan va-t-il rebondir, et retourner à l'intérieur de la cellule ? Dans la plupart des cas, certainement pas. Dans l'eau, un morceau de plan impose que les molécules d'eau à son voisinage aient un nombre limité de positions et d'états accessibles. Sa présence, en solution, est donc extrêmement contraignante en termes d'entropie. Si, au cours de sa diffusion dans le milieu, il rencontre une surface plane, les molécules d'eau présentes à l'interface seront éliminées dans la solution, où elles peuvent disposer d'un grand nombre de positions et d'états nouveaux. L'empilement de ces structures, au moment où elles perdent une couche moléculaire d''eau à leur surface va donc être extrêmement favorisé par le second principe de la thermodynamique.

On peut donc attendre que toutes les structures hexagonales, ou toute autre structure plus compliquée faisant des pavages plans, va rapidement conduire à un empilement sous la membrane de la cellule. Cela va arriver sans qu'il y ait la moindre nécessité de charges électrostatiques particulières (il peut néanmoins exister un un petit effet électrostatique, qui va diriger plus rapidement le fragment de plan vers la surface), ou d'interactions spécifiques avec les lipides de la membrane, pour expliquer cette remarquable propriété architecturale. Ce qui constitue le principe de l'interaction est seulement le fait que les plans s'empilent facilement, simplement du fait qu'ils sont plans. De fait, quand on le compare à d'autres structures géométriques, le plan produit le rapport le plus élevé, de loin, entre sa surface et le volume de l'objet qu'il constitue, et cela conduit à la contribution la plus élevée à l'entropie au moment où il s'empile sur un autre plan. On peut facilement concevoir, dans ces conditions, que ce principe physique très simple— qui n'utilise que la propension naturelle des choses, le shi des Chinois, d'aller dans la direction d'un accroissement de l'entropie — puisse avoir la propriété d'agir comme un principe de guidage dans la construction de l'architecture cellulaire. Il est encore trop tôt pour être sûr de la qualité de cette prédiction. Mais les premiers résultats que nous avons obtenus en étudiant la structure du génome de E. coli suggèrent que la répartition des gènes qui codent des protéines formant des pavages hexagonaux montre quelque régularité le long du chromosome.

En résumé : un trait caractéristique des organismes vivants est la présence ubiquiste des membranes. De fait, une stratégie générale de l'évolution a été soit de compartimenter la cellule au moyen d'une seule envelope parfois très complexe, faite d'une bicouche lipidique associée à des structures plus ou moins compliquées, ou de multiplier membranes et peaux. A nouveau, cette structure correspond a posteriori à une façon efficace d'utiliser la tendance naturelle des choses d'accroître leur entropie, pour la raison suivante. L'eau liquide est un fluide hautement organisé, qui contient comme principe intrinsèque la tendance naturelle pour les molécules d'eau d'occuper toutes les positions et tous les états énergétiques possibles. Cela conduit systématiquement à la séparation des molécules qui sont en contact avec les molécules d'eau, à moins qu'elles apportent des interactions énergétiquement favorables. En conséquence, l'accroissement de l'entropie est une force majeure pour la construction de bien des structures biologiques : ce paramètre physique est au cœur de la formation universelle des hélices, il dirige le repliement des protéines et la formation des capsides virales, il organise les membranes en bicouches et crée les structures biologiques les plus complexes. Il semble déjà certain qu'au fur et à mesure que de nouveaux textes génomiques seront déchiffrés, correspondant à des cellules d'architectures variées (ou soumises à des contraintes fortes, comme celle du froid, par exemple), les processus concrets à l'œuvre dans la construction des structures cellulaires, associés aux mécanismes de l'évolution qui ont conduit à l'état présent, seront de mieux en mieux compris. En particulier, alors qu'il est encore difficile en ce début d'un nouveau siècle de comprendre la structure compliquée des cellules eucaryotes (caractérisées par la multiplication des structures membranaires : noyau, reticulum endoplasmique, vacuoles, grande variété d'organites,...) nous allons progressivement comprendre comment cette organisation est reliée à celle du génome, et en particulier à la nature discontinue des gènes, qui sont fragmentés en introns et exons. On peut déjà penser que l'empilement de structures planes y aura un rôle important : si les couches du reticulum endoplasmique sont synthétisées au voisinage du noyau, on peut imaginer que cette synthèse met en action une sorte de tapis roulant, qui transporte le long de la cellule la machinerie de traduction associée aux ARN messagers et à leurs produits.

Si ces contraintes physiques sont à l'œuvre, elles doivent être visibles dans le texte génomique. De fait, elles indiquent une compartimentation du produit des génes, qui doivent donc être synthétisés de façon coordonnée à la fois dans le temps et dans l'espace. Pour les gènes exprimés à un niveau très bas, ou rarement, ce n'est probablement pas très important (mais nous avons cependant découvert une répartition originale des gènes essentiels, même peu exprimés), puisque le temps de diffusion doit suffire à permettre au produits des gènes d'explorer bien des situations, ce qui n'est pas le cas pour les gènes exprimés à haut niveau, ou fréquemment. Il doit donc exister une sorte de corrélation entre le voisinage des gènes dans le chromosome, et celui de leurs produits dans la cellule. Nous avons remarqué qu'il existe un biais important dans la composition en base du brin direct et du brin complémentaire dans beaucoup de génomes bactériens. Et cela est vrai bien que l'ADN puisse être soumis à des contraintes très différentes d'un organisme à l'autre (comme on peut le constater en analysant le nombre des répétitions présentes dans les génomes) varie énormément d'une espèce à l'autre. Cela indique que, au contraire de ce qui est souvent affirmé, les génomes sont plutôt des entités rigides, qui ne permettent pas beaucoup de latitude dans les changements de l'ordre des gènes (à moins que le changement soit symétrique par rapport aux origines de réplication). Il existe bien sûr des transferts horizontaux des gènes— et nos travaux ont été les premiers à en montrer l'ampleur de façon convaincante— mais le transfert des gènes n'a pas lieu de façon aléatoire. L'ADN étranger se place en des endroits bien particuliers (c'est le cas du terminus de la réplication chez les bactéries).

Si la molécule d'ADN du génome de E. coli était repliée aléatoirement, la théorie standard des polymères nous dit qu'elle occuperait une sphère d'un diamètre d'environ 10 micromètres à la concentration saline normale de la cellule : dix fois plus que le diamètre de la cellule. Des structures superorganisées de l'ADN doivent donc être invoquées pour expliquer l'empaquetage de l'ADN dans la cellule. Elles comprennent le surenroulement, l'organisation en domaines, et l'attachement à des sites spécifiques. Ces contraintes physiques se reflètent-elles dans la séquence du génome ? Des études préliminaires avec le génome de la levure suggèrent bien que des structures de ce type existent chez cet organisme. Notons ici que l'aptitude à empaqueter l'ADN dans un petit compartiment représente une forte pression de sélection qui rend compte de l'existence d'une structure comme le noyau : cela limite considérablement le nombre des états possibles accessibles à la molécule et permet l'organisation de son comportement. Cela signifie que le nombre des degrés de liberté offerts à l'ADN augmente quand la taille du compartiment qu'il occupe augmente (la cellule ou the noyau). En conséquence, il apparaît une tendance spontanée (dans le sens de l'augmentation de l'entropie !) durant la réplication de l'ADN, d'occuper le nouvel espace offert par la croissance cellulaire, créant un processus naturel pour la ségrégation de l'ADN dans les cellules filles.

Le problème principal posé par le repliement de longs polymères comme l'ADN ou l'ARN est en effet qu'ils ont un nombre immense d'états possibles. Si leur diffusion était libre, ce serait incompatible avec toute organisation de l'architecture de la cellule. En fait, un ensemble de longs polymères en mouvement formerait rapidement un enchevêtrement inextricable de structures nouées, même si elles diffusaient au sein d'un réseau organisé (comme le réseau des ribosomes). Il y a une solution, cependant. La présence de points d'ancrage fournit un moyen très efficace de considérablement réduire le nombre des états accessibles aux conformations du polymère. Un simple point d'ancrage, comme l'imaginent tous les modèles de la transcription, réduirait déjà considérablement le nombre des états explorés. Mais comme on le voit avec une longue chevelure non peignée, cela ne suffirait pas à réduire suffisamment le nombre des états que les transcrits pourraient encore explorer, mais cela limiterait la formation de nœuds. Il est bien établi que deux points d'ancrage au lieu d'un seul limiterait considérablement l'exploration des états possibles et le réduirait à un nombre tout à fait raisonnable. Comment pourrait-ce être réalisé dans la cellule ?

Une première réponse vient de l'observation des images en microscopie électronique de la traduction en cours. On observe que, le long d'une molécule d'ARN messager, les ribosomes sont répartis dans un ordre très régulier. Or l'organisation physique de la cellule n'a aucune raison de suivre le flux de l'information génétique, qui va de l'ADN à l'ARN à la protéine. C'est une vue purement conceptuelle qui, bien qu'elle soit malheureusement répandue dans la majorité des manuels, a le défaut de ne pas être réaliste. Au contraire, il est plus que probable que les ribosomes, organisés en un réseau se mouvant lentement, contrôle la nature de l'expression des gènes. L'ARN naissant venant de l'ADN est tiré par un premier ribosome qui recherche la région de démarrage de la traduction (site de liaison du ribosome et codon de démarrage) et commence à traduire, puis par le suivant, comme dans un tréfiloir. Si l'on remarque que la majeure partie de l'inertie et de l'énergie de la cellule est dans la machinerie de traduction (il est coûteux de synthétiser un ARN messager (mARN), une molécule de mARN est traduite au moins vingt fois, et beaucoup d'énergie est utilisée pour charger les acides aminés sur les tARN et allonger la chaîne polypeptidique dans le ribosome, avec déplacement simultané du fil du mARN), c'est la structure du réseau des ribosomes qui organise la mécanique de l'expression des gènes. Le couplage traduction / transcription fait bouger l'ADN et porte à sa surface de nouveaux gènes prêts à être transcrits. L'ARN messager passe d'un ribosome au suivant, contrôlant la synthèse de la protéine qu'il spécifie à chaque ribosome. Notons en passant que ce processus assure que la répartition des protéines dans la cellule ne suit pas un processus de diffusion à trois dimensions (ce qui serait très lent) mais une simple diffusion linéaire de l'ARN messager au travers du réseau des ribosomes. Enfin, dès qu'un signal approprié atteint le ribosome en même temps que le messager à traduire, cela déclenche la dégradation du mARN à partir de son extrémité 5' au moyen d'un processus de dégradation (toujours inconnu), mettant ainsi fin à son expression.

Un version raffinée de ce modèle, curieusement jamais explorée de façon explicite, ne fait pas l'hypothèse que les molécules du mARN naissant entrent dans les ribosomes et commencent à être traduits à partir de leur extrémité 5'. Au contraire, elle suppose que l'extrémité 5'-triphosphate du messager se replie, et reste associée à l'ARN polymérase jusqu'à ce qu'un signal spécifique, qui peut être situé très loin dans le messager, lui indique qu'il doit s'en détacher (et ainsi achever la transcription). Le processus d'antiterminaison a été étudié avec soin dans le cas de la protéine N d'antiterminaison du bactériophage lambda. Ce processus est parfaitement compatible avec un processus de balayage de la séquence qui permettrait à l'extrémité 5' de l'ARN d'explorer les séquences en aval (en 3'). Le couplage strict ("stringent control") de la synthèse des ARN stables par la traduction est lié au processus d'allongement de la traduction. Cependant, on ne comprend pas encore comment ces processus opèrent, malgré plus de trente ans de travaux. Il est certainement très difficile encore de voir dans une cellule vivante s'opérer le processus de transcription, mais il sera intéressant d'analyser les corrélations 5'-3' dans la séquence nucléotidique des opérons. Cette hypothèse nous ramène donc à l'étude in silico du texte génomique, montrant, une fois encore, que pour comprendre les génomes il est nécessaire de faire de constants allers-et-retours entre l'étude physico-chimique de l'expression génétique, et l'étude formelle du texte génomique. En résumé, on peut attendre deux destins différents pour les transcrits : soit ils formeraient des boucles, leur extrémité 5' balayant le message jusqu'à l'extrémité 3' jusqu'à ce qu'ils rencontrent unsignal de terminaison, soit l'extrémtité 5' se replie en une structure compliquée (c'est le cas des "riboswitches" par exemple) et forme un complexe ARN-protéine, associé à des protéines spécifiques, écartant de l'ARN polymérase le complexe de transcription. C'est le cas de l'ARN ribosomique, qui s'associe aux protéines ribosomiques.

L'étude du biais d'usage des codons dans les génomes bactériens suggère la présence d'une forte pression de sélection, qui ne peut être comprise si l'on ne pense que les produits des gènes correspondants sont synthétisés par des ribosomes à proximité les uns des autres. Le réseau des ribosomes organise le cytoplasme cellulaire, fournissant ainsi la majeure partie des forces mécaniques requises pour coupler traduction et transcription à la construction de la cellule. Une conséquence de cette interprétation est que la position des gènes dans le chromosome n'est pas aléatoire. Il doit exister un certain nombre de points d'ancrage qui permettent aux transcrits naissants de coupler la transcription avec la traduction, et de faciliter la transcription des gènes qui sont présents dans leur voisinage immediat. Il est bien possible que plusieurs molécules d'ARN polymérase, attelées ensemble comme des animaux de trait par un facteur de couplage approprié, transcrivent simultanément plusieurs ARN messagers correspondant aux produits qui font partie d'un même complexe. En conséquence, les protéines multimériques peuvent être traduites soit à partir d'un seul transcrit (dans un opéron), soit par plusieurs transcrits synthétisés en parallèle. Cela signifie que des fonctions physiquement apparentées doivent comprendre des protéines qui sont synthétisées sur des ribosomes qui sont au voisinage les uns des autres. Une analyse fine du biais d'usage des codons montre de fait que la traduction organise la répartition des gènes dans le chromosome.

Cela pose une question importante pour la génomique : est-il possible de trouver, juste connaissant le texte génomique, si les produits des gènes vont former un complexe de protéines ? C'est bien entendu, si l'on considère la séquence seule, encore plus improbable que le fait que la séquence des acides aminés d'une protéine puisse en prédire exactement le repliement, en l'absence de la connaissance de repliements bien identifiés. La RNase pancréatique doit bien sûr se replier correctement, parce que la sélection l'a isolée de façon à ce qu'elle ait ce comportement (elle est sécrétée dans la bile), mais cela n'aurait jamais dû être accepté, comme cela a été le cas, comme le paradigme du repliement des protéines. La comparaison avec le modèle de protéines de structure connue est une aide considérable à la prédiction des structures, parce que cela prend en compte les forces sélectives qui ont, au cours de l'évolution, conduit au repliement actuel identifié dans le modèles. Cette approche est souvent utilisée mais il convient de l'étendre à l'étude des complexes de protéines, en prenant en compte dans le modèle les contacts entre sous-unités. En fait, le futur de la biologie structurale ne se trouve nullement dans le collection des structures 3D de toutes les protéines d'un génome, comme on le propose souvent, mais dans l'identification des complexes de protéines, autre exemple de l'approche par étude des "voisinages" que nous avons favorisée comme prélude à la découverte.

Trouvons-nous la trace de cette organisation dans le chromosome? Elle est illustrée, dans le cas des bactéries pathogènes, par ces îlots de pathogénicité, où des gènes reliés aux fonctions de virulence sont regroupés. Et Agnieszka Sekowska et Eduardo Rocha ont démontré que les gènes impliqués dans le métabolism du soufre sont regroupés en îlots, ce qui sugggère une super-organisation du produits des gènes correspondants, probablement en raison du fait que le soufre étant un atome très réactif, le produit des gènes qui en assurent la manipulation doit être compartimenté dans la cellule pour le protéger de l'environnement. Un autre moyen d'analyse, plus subtil, consiste à raffiner l'étude du biais d'usage des codons dans les gènes. Les ribosomes qui traduisent un mARN ayant un code très biaisé va souvent utiliser certains tARN et d'autres rarement. Ils vont se comporter comme des "attracteurs" tendant à retenir les tARN fréquemment utiilisés dans leur voisinage. Cette concentration locale élevée va apporter un avantage sélectif à tous les mARN qui auront à peu près le même biais d'usage des codons, parce qu'ils vont être traduits rapidement, et ne pas conduire à des produits tronqués. La plupart des molécules de mARN traduites par ces ribosomes aura donc tendance à montrer le même biais : c'est un renforcement par un processus de stabilisation sélective. Ce phénomène impose que les mêmes gènes sont souvent traduits au même endroit dans la cellule, et donc que leur position dans le génome relativement fixe par rapport à l'architecture générale de la cellule. La cellule is ainsi perçue comme une suite de couches de ribosomes, comme des pelures d'oignons, où la concentration des tARN varie progressivement.

La conclusion principale ici est que les ribosomes ne sont pas tous équivalents dans le cellule. Mais savons-nous exactement ce qu'est un ribosome ? Leur structure a été déterminée en l'an 2000 — prouesse technique remarquable — et, cela était l'intuition de Luigi Gorini dans les années 1970, on a découvert qu'il s'agissait pour l'essentiel d'une usine enzymatique faite d'ARN, non de protéines. Tout se passe comme si ce que nous appelons ribosomes était le noyau d'une machine beaucoup plus complexe, comprenant les facteurs de démarrage et d'allongement de la traduction, les tARN synthétases, les ARN messgers et d'autres molécules nécessaires à la traduction. Cela nous demande de revenir aux procédés utilisés par les biochimistes pour préparer les ribosomes : ils sont très semblables à ceux qu'on utilise quand on prépare des cerises sans noyau, la centrifugation y joue le rôle central. Le noyau tombe au fond pendant la centrifugation, et la pulpe reste en suspension. Ce que nous appelons "ribosome" est le noyau, le cœur ARN d'objets bien plus gros, qui sont probablement en contact les uns avec les autres (ce qui explique qu'on observe en microscopie électronique que les ribosomes sont répartis régulièrement le long de l'ARN messager, alors qu'ils ne sont pas en contact physique les uns avec les autres), et de types bien plus variés. Au cours de sa traduction, le messager est comme un fil passant à travers un collier de perles, où chaque perle a le même noyau, tandis que sa couleur varie : la pulpe du ribosome correspond au biais local d'usage des codons ainsi qu'à la présence de facteurs spécifiques associés à la variété des compartiments cellulaires, qui varie avec la nature de gènes. Et, parce que les hélices sont des formes universelles (comme nous l'avons vu), ces colliers de ribosomes sont probablement arrangés en structures hélicoïdales formant le cœur de l'organisation de la cellule.

Biais d'usage des codons des gènes de biosynthèse de la méthionine Biais d'usage des codons des gènes de biosynthèse de l'histidine (E. coli)

Il est donc bien naturel d'étudier la répartition des gènes qui ont un même biais d'usage des codons le long du chromosome, et de le relier avec les fonctions métaboliques ou structurales de la cellule. Nous avons trouvé qu'il est loin d'être aléatoire : une corrélation linéaire existe pour chaque type de réseau métabolique organisé, montrant bien qu'il existe une pression sélective sur l'organisation des gènes et produits des gènes. L'approche par étude des voisinages illustrée dans le logiciel Indigo [temporairement inaccessible] vise à nous donner une première manière d'approcher cette question, en explorant quelques uns des voisinages les plus évidents.

Une vue plus analytique et biochimique, complémentaire de celle qui est exposée ici est développée par le projet SIMEBAC de la Fondation Fourmentin-Guilbert.

Enseignement et transfert de technologie

L'intégration d'approches in vivo, in vitro et in silico demande un travail collectif, et le transfert permanent des technologies et des concepts de disciplines et d'environnements variés. La collaboration entre des vues complémentaires, comme les vues Gréco-Latines, Anglo-Américaines et Chinoises, est toujours bénéfique. C'est bien compris par les structures politiques que nous tentons de développer, par exemple au travers de collaborations (voir European Focus for Biotechnology in China). Un point important est de faire bien comprendre que le transfert de technologie demande toujours une reconnaissance explicite des sources de la technologie, qu'elles soient conceptuelles ou techniques. Dès le début de l'année 2001, un séminaire de travail a été mis en place au Départment de Mathématiques de l'Université de Hong Kong (Pr Ngaiming Mok) où étudiants et chercheurs de la région de Hong Kong se réunissent autour de Danchin et Mok pour une réflexion sur une Biologie Conceptuelle. Ce séminaire a repris à l'Institut Pasteur, pour le moment de façon irrégulière. Un compte-rendu de chaque réunion est envoyé aux participants qui le souhaitent ainsi qu'aux membres du réseau Stanislas Noria (Causeries du jeudi).

(2) ...... créer une culture de recherche de base permettant aux chercheurs de surveiller l'apparition des maladies émergentes, leur prévention et leur guérison....
(1) .... créer des ressources informatisées pour l'accès à la connaissance et l'enseignement, fondées sur l'expérience en laboratoire et l'analyse "in silico" .....

(3) ..... offrir de nouvelles pistes pour le développement de technologies à grande échelle utilisables dans des applications industrielles, et promouvoir la recherche du futur .......  


atras
Histoire
adelante
Programme

Accueil