poissons
獨 坐 幽 篁 裡
彈 琴 復 長 嘯
深 林 人 不 知
明 月 來 相 照

竹 里館

王 維
Assis seul dans le fourré sombre de bambous
Je pince les cordes de ma cithare et maintes fois je soupire
Au fond de ce bosquet que personne ne connaît
La lune éclatante me tient compagnie


Cabane dans les bambous WANG Wei

Contenu

Du déchiffrage des génomes à la biologie synthétique : les cellules sont des pièges à information

Dans son principe la science ne devrait mettre en avant le nom de personne. De fait, il faut peu de siècles pour que le nom des savants disparaisse. Comme les artistes, les savants peuvent avoir un style, mais leurs découvertes sont aussi bien faites par eux-mêmes que par d'autres, ce qui n'est pas le cas des premiers. Aussi la découverte posthume de contributions importantes n'est pas rare. C'est d'ailleurs ce qui rend ridicule l'esprit de compétition qui anime les hommes de science, aussi bien que les adeptes des modernes Jeux du Cirque. Certains pensent qu'il faut être le premier : mais si l'œuvre d'un artiste lui est intimement liée, et disparaîtrait irrémédiablement si elle venait à être détruite, celle d'un savant réapparaîtrait à l'occasion. C'est ce que je rappelle dans l'épilogue de La Barque de Delphes.

Il est donc un peu paradoxal de présenter ici l'activité d'une vie particulière consacrée à la science, sinon pour en souligner le style. Pourtant, prise comme un simple matériau de construction, cette entreprise est utile : elle est repère, ou borne, à laquelle on peut s'accrocher (ou se heurter). Les voies de la création de la connaissance ne sont pas tracées, elles se constituent de bribes et de morceaux, où les éléments biographiques, purs accidents de l'histoire, ont leur part. Cette présentation gagne à être factuelle, au risque d'être ennuyeuse. Comme pour le reste de ce site, elle est fondée sur l'idée de la lenteur nécessaire pour comprendre la nature des choses et ne s'accommode pas de la pratique récente du survol rapide et sans profondeur ni mémoire.

Ce bref panorama illustre une recherche dans un pays qui, depuis longtemps hélas, ne s'intéresse plus beaucoup à la Science, laissant à d'autres le soin de faire les découvertes qu'il a la naïveté de penser pouvoir utiliser à son compte. Mirage étrange qui illustre la décadence de ce qui fut, autrefois, un grand pays. Mais si l'on ne continue pas à tenter de semer, qui pourra faire la récolte, même maigre ? Un aspect dominant de l'activité présentée ici est mon refus du fractionnement du savoir en champs clos que les uns ou les autres voudraient se réserver. Savant et philosophe sont les deux faces d'une même monnaie. Au milieu des années 1950, CP Snow, en Grande Bretagne, publiait le texte d'une conférence qui a depuis fait date. Il décrivait The Two Cultures, qui séparaient dans son pays le monde des Lettres et des Arts, du monde de la Science. A cette époque, il était encore possible en France de ne pas les séparer, et de considérer que raison poétique et raison scientifique étaient deux faces d'une même tentative humaine de se relier consciemment au réel.

Depuis, il ne reste presque plus rien de ce qui faisait la culture générale de l'« honnête homme ». L'idée même d'une référence aux créations produites par nos ancêtres est devenue anathème, comme cela fut anathème durant la Révolution Culturelle en Chine. Il est désormais difficile d'avoir accès, à l'école, aux langues et aux traditions grecques et latines qui nous fondent pourtant (et de même le monde arabe, à son origine, a eu soin de préserver, et de diffuser ce lien qui est à la base de la connaissance scientifique, puis le détruit aujourd'hui). Dix ans de Révolution Culturelle ont fini par détruire beaucoup de ce qui était la Chine pendant des millénaires. Reconstituer une élite intellectuelle a pris du temps, et se trouve encore loin de retrouver la situation antérieure. Or il suffit de lire aujourd'hui le déluge des commentaires imbéciles qui inondent tout type d'information, aussi bien que les bloc-notes —blogs aussi suffisants qu'ignorants et niais— pour être envahi par la crainte que la situation dans nos pays ne devienne bien pire que celle de la Chine de naguère. Et l'ignorance généralisée, fondée sur la dictature de l'image et du quotidien et une bienséance inspirée de l'Amérique sans Histoire, a conduit à la multiplication des fausses informations, dans un monde étrange où d'aucuns pensent que la connaissance n'est que le résultat d'un vote, et de surcroît, anonyme.

L'animation de la chimie biologique vient de sa gestion originale de l'information

La question centrale que j’ai explorée au cours des dernières décennies est la suivante. Existe-t-il un principe physique général expliquant le fait que la chimie biologique semble être « animée », justifiant un vitalisme toujours prêt à réapparaître ? Le point de départ que j'ai choisi a été inspiré par la réflexion d'Ivan Schmalhausen, persécuté par Lyssenko durant les pires heures de l'Union Soviétique. Schmalhausen avait en effet fondé son interprétation de Darwin sur le concept de sélection stabilisatrice, vision qui permettait de comprendre l'évolution des espèces sans avoir recours à la pensée magique qui tend à dominer dès qu'on parle du monde vivant.

Cette quête m'a conduit à une deuxième question. Est-il possible de découvrir les règles qui expliquent que les gènes fonctionnent ensemble dans la cellule et contribuent à son développement de façon cohérente et reproductible ? Lorsqu'on isole certaines des pistes importantes de cette recherche, on obtient une image qui aboutit à ce que l'on peut considérer comme une « biologie symplectique », une biologie où les relations entre objets revêtent une importance conceptuelle supérieure à celle des objets eux-mêmes. Cela signifie que comprendre l'incarnation de leur qualité abstraite dans la matière « massive » est la clé pour comprendre ce qu'est la vie. Une conséquence critique de cette contrainte est que, du fait que les atomes de la vie ont des propriétés intrinsèques—reflétées dans le tableau de Mendeleieff—qui n'ont rien à voir avec le monde abstrait auquel ils sont liés, de nombreux aspects de la vie donneront l'impression qu'on a affaire à des anecdotes. De fait, les formes que prend la vie sont très diverses. Cela rend assez difficile la découverte des lois sous-jacentes. Lorsque cela sera compris, l'idée qu'il sera possible de reconstruire la vie, et même de construire des objets matériels dotés de propriétés semblables à celles de la vie, à partir de matériaux de construction différents de ceux qui font les organismes vivants existants, gagnera du terrain. La biologie synthétique n'est plus un rêve, elle est en train de devenir réalité. Pour le comprendre, il est alors essentiel d'identifier ce qui rend la vie si spéciale.

Les organismes vivants engendrent une descendance jeune. Pourtant, leur progéniture provient de parents qui ont déjà vieilli. Cela implique que, d’une manière ou d’une autre, les parents ont soit recruté, soit créé une « information » nouvelle. Cela implique comprendre que l'information est une catégorie clé de notre monde physique, à l'instar de masse, énergie, espace ou temps. C'est dans ce contexte qu'en 1961 Rolf Landauer a établi que le calcul est réversible, avec pour conséquence inattendue que la création d'information ne dissipe pas d'énergie. En revanche, réinitialiser le processus utilisé pour créer une nouvelle information demande d'effacer la mémoire des étapes passées. Cette action est coûteuse en énergie. Charles Bennett, en 1988, a illustré comment le calcul peut être réversible. Pour ce faire, il a construit une opération arithmétique simple, la division, au moyen d'un processus réversible. Il a montré qu'on obtient le résultat d’une division en effaçant les étapes intermédiaires, laissant le reste de la division comme seul résultat « de valeur » du calcul. Au cours de ce processus, l'effacement de la mémoire dissipe de l'énergie. Cependant, avec cette description, Bennett n’expliquait pas comment seul le reste de la division pouvait être séparé des autres bits d'information qu'il fallait effacer. À cette fin, il faut en effet apporter une information complémentaire (contextuelle) : j’ai proposé l'idée que c’est là que la dissipation d’énergie entre spécifiquement en jeu. En séparant deux classes, l'information « sans valeur» et l'information « de valeur» l’énergie sert à prévenir l’effacement du reste de la division—objet de l'opération arithmétique, tout en effaçant le reste de la mémoire. La mémoire effacée peut alors être utilisée pour des calculs ultérieurs. Comment cette distinction est-elle effectuée ?

Le travail développé ici est un effort pour comprendre ce processus au sein des cellules, après identification explicite des fonctions qui combinent les deux étapes clés du principe de Landauer :

    1 / Une étape chargée d’information (ou « contrainte »), associée à la capture d’une source d’énergie, ne dissipant pas d’énergie, et retenant un quantum d’information (typiquement via la sélection d’une molécule spécifique, dans un environnement contenant des molécules d'un type voisin). Dans le cas des enzymes, cela se traduit généralement par une étape fonctionnelle déclenchée lors de la liaison à un analogue d'ATP, qui à ce stade peut être non hydrolysable (APPNP ou molécules apparentées).

    2 / Une étape de réinitialisation (ou « relâchée », au cours de laquelle l'énergie est dissipée (en général, par l'hydrolyse d'une molécule d'ATP ou d'un autre nucléoside triphosphate, en ADP et en phosphate), afin de rétablir le système dans son état fondamental, permettant de relancer le processus.

Les fonctions de ce type —qu'il faut identifier parmi les fonctions critiques codées dans tous les génomes— jouent un rôle semblable à celui des démons de Maxwell (MxD). Ces agent forment des classes. Ils peuvent distinguer un substrat parmi d'autres substrats semblables, identifier une position spécifique dans une structure 3D, ou un instant particulier dans un ensemble d'événements successifs. Nous avons ainsi identifié une cinquantaine de fonctions de ce type dans l'ensemble minimal requis pour permettre le développement autonome de la vie cellulaire.

Un article en anglais détaille ce travail (pour des compléments détaillés voir le texte anglais de ce résumé) :


G Boël, O Danot, V de Lorenzo, A Danchin
Omnipresent Maxwell’s demons orchestrate information management in living cells
Microb Biotechnol. (2019) 12: 210-242 doi: 10.1111/1751-7915.13378

Une douzaine d'entre ces fonctions sont utilisées pour diriger le repliement correct et l'assemblage de la tête de lecture du message génétique, le ribosome. C'est nécessaire, car le très long ARN qui constitue cette nanomachine se replie spontanément, seulement contraint par la structure l’eau. Le nombre des fausses conformations possibles étant très grand, cela nécessite des agents capables de ne retenir que ceux qui sont finalement fonctionnels, en éliminant ou repliant correctement les autres. Il existe aussi d'autres fonctions permettant de réparer les molécules d'ADN cassées, de calibrer le surenroulement de la double hélice ou d'exporter des composés toxiques hors de la cellule tout en préservant celles qui sont essentielles, etc.

Cette vision a des conséquences morales. Si l’on donne de la valeur à l’information, alors il faut tenter de lui laisser le plus possible de pistes pour s’accumuler. C’est une profonde justification de la diversité biologique. Et cela va contre l’explosion démographique actuelle de l’homme. Incidemment se pose une question, non résolue, celle de l’existence d’un principe de conservation : l’information, dans sa totalité, se conserve-t-elle ? Dans l’affirmative cela voudrait dire que si elle s’accumule quelque part, elle s’appauvrit ailleurs. Mais il y a bien d’autres hypothèses possibles (comme c’était le cas, déjà, dans les relations entre masse et énergie). De même, comme il s'agit de relations entre objets, leurs position relative compte, en termes d'information signifiante. Du fait que nous sommes des organismes vivants, nous devrions tenter de suivre le principe indiqué plus haut, à savoir, utiliser toute l’énergie dont nous disposons pour éviter de détruire ce qui est riche en information. En pratique, au laboratoire, l’idée centrale pour le biologiste —généticien— que je suis, est qu’il faut désormais associer autant de chercheurs en biologie in silico qu’en biologie in vivo ou in vitro. Cela signifie aussi qu’il faut valoriser l’échange entre physique, mathématique et biologie. Cela signifie qu’il faut revaloriser le statut de la mathématique et de la biologie, en les associant le plus souvent possible l’une à l’autre. Curieusement, dans nos systèmes d’enseignement la première est crainte (et donc peu favorisée) et la seconde est ridiculisée (et donc peu favorisée, là encore). Or il me semble que notre avenir dépend, très rapidement, du traitement que nous réserverons à cette façon de voir.

Avant d’aboutir à cette hypothèse qui met en évidence la cause de l’animation de la vie, les recherches que j’ai développées ont suivi plusieurs pistes, qui sont résumées ici dans l'intention de permettre au lecteur curieux de comprendre comment je suis parvenu à prendre en compte le principe de Landauer. La plupart de mes travaux sont exposés en anglais, et accessibles via les liaisons bibliographiques. J'ai cependant indiqué ici quelques travaux en français pour les lecteurs qui ne serait pas familiers avec la langue anglaise.

Recherche

Cinq volets différents, chronologiquement déterminés par mon travail de thèse (thèse de 3ème cycle et thèse d'état, 1967-1971), un changement de thème post-doctoral (1971-1976), la conversion de mon activité de recherche à la génétique moléculaire (depuis 1976), et le choix de mettre en place le séquençage complet d'un génome bactérien (1986-2008), et, depuis 2009, l'idée d'utiliser la motivation sociale de la recherche —via la construction d'une entreprise de biotechnologie, AMAbiotics (puis Stellate Therapeutics)— comme raison d'être de la création du savoir, constituent l'ensemble de mes travaux expérimentaux et théoriques. La génomique fonctionnelle et tout ce qui lui est associé a servi de point de départ à la création de l'Unité de Génétique des Génomes Bactériens qui avait pour thème central l'étude de la corrélation possible entre l'architecture du génome et celle de la cellule. Depuis 2007, je m'intéresse aux relations qui existent entre l'organisation du cœur des génomes bactériens et la perpétuation de la vie, en relation avec la nature de l'information portée par le programme génétique. Ces travaux m'ont conduit à placer le concept de Sélection Naturelle au sein même des lois de la physique, avec comme loi centrale le principe de Landauer (brièvement décrit plus haut). De cet ensemble de travaux voici une vue synthétique, résumant mes contributions scientifiques principales.

Premières activités expérimentales (bibliographie)

J'ai commencé par étudier, à l'Institut de Biologie Physico-chimique et à l'école Polytechnique, la dynamique de la structure tertiaire des ARN de transfert, principalement au moyen de techniques de résonance magnétique nucléaire (RMN) et de résonance paramagnétique électronique (Chapitre I). Ce travail a montré le rôle dominant du spin électronique du manganèse dans la relaxation des protons de l'eau, écartant ainsi l'usage proposé de cet ion pour une analyse plus fine des mouvements associés. En parallèle, j'ai démontré la mobilité intra-moléculaire de l'ARN de transfert grâce à un développement technique (mise au point d'un spectromètre de RMN à impulsion, à champ et température variables). Cela a été largement confirmé par la suite, mais était à l'époque anathème. Comme l'avait dit Sydeny Brenner au cours d'une conférence à Cambridge : « Francis does not think so ». Au cours de mon travail post-doctoral, j'ai ensuite  inventé une technique de marquage d'affinité des macromolécules au moyen de complexes métalliques non échangeables. Après avoir appliqué cette technique aux acides nucléiques, je l'ai brièvement développée en marquant le site actif de diverses enzymes, notamment la glycogène phosphorylase b. Peut-être en raison de son caractère inhabituel (chimie biominérale) cette technique est restée inexploitée, malgré son intérêt en biologie structurale, et son intérêt potentiel en pharmacologie :

A Danchin
Marquage des acides nucléiques par des ions non échangeables.
C R Acad Sci Hebd Séances Acad Sci D (1971) 273: 1636-1639 

Stabilisation sélective et épigenèse (Chapitre III) (bibliographie)

En parallèle avec ces activités expérimentale, j'ai, avec Philippe Courrège et Bernard Saintloup, commencé une réflexion formelle sur le concept de sélection en biologie. Et, après avoir rencontré Jean-Pierre Changeux qui m'a demandé si nous ne pourrions pas ensemble travailler sur la sélection qui s'opère au cours de la mémoire et de l'apprentissage dans le système nerveux, nous nous sommes réunis tous les mercredi après-midi à l'IBPC avec bien d'autres chercheurs, pendant quatre ans, pour discuter et formaliser les causes sélectives de l'organisation de l'architecture cérébrale, puis du système immunitaire. Une part importante de ce travail de modélisation n'a jamais été publiée. Quelques articles à ce sujet ont été publiés en français :

A Danchin, JP Changeux
Apprendre par stabilisation sélective de synapses en développement
In: "L'Unité de l'Homme" (Centre Royaumont pour une Science de l'Homme) Le Seuil (1974): 320-350

A Danchin
Stabilisation fonctionnelle et épigenèse: une approche biologique de la genèse de l'identité individuelle
In: "L'Identité" (JM Benoist, ed) Grasset (1977): 185-221 pdf (1.7 Mo)

A Danchin
L'inné et l'acquis: une théorie sélective de l'apprentissage
La Recherche (1974) 5: 184-187 (repris dans des ouvrages généraux, traduit en espagnol et en italien)

P Courrège, A Danchin
Apprentissage et changement dans le système nerveux central
Colloque de Cerisy-la-Salle, Change (ed. 10/18) (1975): pp 60-73

A Danchin
Spécification épigénétique des réseaux nerveux par stabilisation fonctionnelle de synapses en développement
In: "Neurobiologie de l'Apprentissage" (R Delacour, ed) Masson (1978): 198-209

A Danchin
Note critique sur l'emploi du terme phénocopie
In: "Théories du langage, théories de l'apprentissage" (CRSH)
Le Débat Chomsky-Piaget, Le Seuil (1979) pp 109-114 (traduit en anglais en 1981)

A Danchin
Comment peut-on parler de l'automate cérébral aujourd'hui ?
Revue Philosophique (1980) 3: 287-304

JP Changeux, P Courrège, A Danchin, JM Lasry
Un mécanisme biochimique pour l'épigenèse de la jonction neuro-musculaire
C R Séances Acad Sci III (1981) 292: 449-453 

A Danchin
Le pilote fantôme (le cerveau et la conscience)
Le Débat (1982) 21: 123-130

A Danchin
Les bases cérébrales du langage
Le Débat (1987) 47: 158-171

A Danchin
Signes Immuns
In: "Prospective et Santé": Immunologie, nouvelle frontière (1987) 42: 15-19

A Danchin
Concept et langue, question de neurologie
Colloque Transcultura, (1988), Louvain-la-Neuve
In: "Connaissance et Réciprocité" (ed. Ciaco), pp 41-56

et plus récemment :

A Danchin, AA Fenton
From analog to digital computing: Is Homo sapiens' brain on its way to become a Turing Machine? (2022) 10 : 796413

Ce travail m'a conduit à être l'un des responsables du Centre Royaumont pour une Science de l'Homme. J'ai repris plus tard l'idée du séminaire, en 1990 au sein de l'Unité Régulation de l'Expression Génétique, puis au HKU-Pasteur Research Centre à Hong Kong. Et, depuis cette date, le séminaire se poursuit sous forme électronique tous les jeudis soir, sous le nom collectif de Stanislas Noria (acronyme de Séquence Totale des Acides Nucléiques —STAN, Nouvelle Orientation de la Recherche en Intelligence Artificielle —NORIA, créé en 1989). Malgré quelques tentatives il ne m'a pas été possible d'utiliser systématiquement —à l'instar de Nicolas Bourbaki en mathématiques— ce nom collectif pour signer les publications issues des discussions du séminaire. La biologie est malheureusement encore beaucoup trop sensible à la notoriété publicitaire.

Recherches de l'Unité de Régulation de l'Expression Génétique (1986-2000) (bibliographie)

Les recherches de l'Unité de Régulation de l'Expression Génétique (REG) visaient à identifier les régulations métaboliques assurant la coordination de l'expression génétique chez Escherichia coli et Bacillus subtilis (Chapitre II). Les premiers travaux de l'Unité ont mis en évidence l'existence de hiérarchies métaboliques dont certains effecteurs, comme la sérine, le 2-cétobutyrate ou l'AMP cyclique, jouent un rôle clef dans la coordination des synthèses macromoléculaires. Après de nombreuses années d'études, le rôle toxique de la sérine a été déchiffré en janvier 2006, grâce à la conjonction de plusieurs approches, et en particulier grâce à l'annotation de nouveaux génomes et à la découverte de la « persistance » de certains gènes inattendus chez un grand nombre de bactéries. La nature chimique de cette molécule conduit à des incompatibilités mutuelles qui ne peuvent se résoudre qu'au travers de régulations compliquées, variables dans les différentes espèces et imposent souvent la compartimentation du métabolisme. Chez le colibacille une partie du processus est contrôlé par le système des phosphotransférases responsables du transport du glucose et du contrôle de la synthèse de l'AMP cyclique, la protéine H-NS, ou encore le couplage entre la traduction et la transcription. Après une période transitoire où quelques recherches ont été menées sur la protéine H-NS, impliquée dans les contrôles globaux de l'expression des gènes chez E. coli et dans la virulence des entérobactéries, un groupe de chercheurs de l'Unité s'est consacré à l'analyse des effets positifs, et non plus négatifs, de cette protéine sur l'expression de certains opérons. L'absence de ce gène conduit à un phénotype fortement mutateur, où les mutations sont principalement des délétions. Le cétobutyrate intervient lors du passage de l'anaérobiose à l'aérobiose et contrôle, par le biais du système des phosphotransférases qui transportent les sources de carbone, à la fois la perméation au travers de la membrane, les flux métaboliques, et les synthèses macromoléculaires. Il s'agit donc de l'un des médiateurs de l'effet Pasteur.

A Danchin
Contrôles métaboliques hiérarchisés chez les bactéries
In: Production d'agents thérapeutiques par génie génétique (Ed. A Joyeaux, G Leygue, M Morre, R Roncucci, PH Schmelck) Sanofi Recherche et Medsi/Gower (1985) pp 37-43

En collaboration étroite avec l'Unité de Biochimie des Régulations Cellulaires, dirigée par Agnès Ullmann (1927-2019), ces travaux ont conduit les chercheurs de l'Unité à isoler le gène de l'adénylcyclase et de plusieurs des protéines des phosphotransférases chez E. coli, d'abord, puis chez un grand nombre d'autres organismes. Cela a permis de comprendre certains aspects structuraux de ces protéines essentielles et de la régulation de leur expression, puis à en développer l'étude comparative.

Les adénylcyclases forment plusieurs classes bien distinctes, reconnues par une classification internationale créée à cette occasion. Celles formant une première classe se trouvent chez les entérobactéries et les familles apparentées, ainsi que les Pasteurellaceae, les Aeromonas sp, ou les Pseudomonadales. Elles sont constituées de deux domaines, le domaine amino-terminal étant seul doué d'activité catalytique. Les cyclases toxiques constituent la deuxième classe. On les trouve chez deux agents pathogènes très éloignés, Bordetella pertussis —agent de la coqueluche— et Bacillus anthracis —agent du charbon, bien connu depuis les travaux de Pasteur et de Koch. Elles sont activées par la calmoduline. Leur gène a été cloné et séquencé dans l'Unité (en collaboration avec A. Ullmann et M. Mock, respectivement) grâce à une technique originale d'un usage très général (clonage à partenaires multiples, qui a fait l'objet d'un brevet en 1989, antécédent conceptuel et expérimental repris dans la technique du « double hybride »). Extrêmement actives, ces toxines ont été caractérisées avec Octavian Bârzu et ses collègues.

La sécrétion de la cyclase de l'agent de la coqueluche s'est révélée particulièrement fascinante, car elle intègre, via la formation d'une protéine bifonctionnelle, à la fois adénylcyclase et hémolysine, un mécanisme de sécrétion original connu chez beaucoup d'organismes pathogènes, et dont le parangon est l'hémolysine du colibacille. Il existe enfin une troisième classe, d'abord identifiée chez la levure, et ensuite chez deux bactéries distantes, Rhizobium meliloti et Brevibacterium liquifaciens (collaboration avec Fergal O'Gara, Irlande et Elizabeth Peters, Grande Bretagne), puis chez des bactéries différenciées, Stigmatella aurantiaca et Streptomyces coelicolor. Cette classe omniprésente, qui comprend les adényl- et guanyl-cyclases des eucaryotes supérieurs (découvertes ailleurs dans le monde) est antérieure à la séparation phylogénétique des bactéries et des eucaryotes. Enfin, une quatrième classe, très énigmatique, et reliée au produit de gènes d'Archées, a été découverte chez Aeromonas hydrophila, et caractérisée au laboratoire. Il s'agit là d'un cas nouveau de convergence évolutive. On sait aujourd'hui que cette enzyme est de la même famille qu'une phosphatase nouvelle, la thiamine triphosphate phosphatase dont le rôle est encore loin d'être compris. Il est probable que la fonction de ces enzymes n'est pas celle d'adénylcyclase, mais qu'il s'agit d'une activité contaminante (« promiscuous » en anglais), comme c'est le cas très fréquemment.

L'étude détaillée de groupes de régulations collectives de l'expression des gènes du colibacille m'a conduit en 1986 à étudier la faisabilité d'un programme de séquençage du génome total d'un organisme, cela afin d'en analyser les propriétés globales et en particulier la cohérence interne. Une conjonction d'intérêts a alors permis de mettre en forme ce projet, en collaboration avec Raymond Dedonder, autour de la génétique de Bacillus subtilis (chapitre II ; voir aussi La Barque de Delphes). Entre 1988 et 1997, animé par Philippe Glaser, un laboratoire de séquençage partiellement automatisé a déterminé au sein de l'Unité la séquence de plus de 300 kb du génome de B. subtilis. Ce qui est aujourd'hui banal était à l'époque une prouesse, et il a fallu dix ans plus tard reséquencer entièrement le génome avec les techniques les plus récentes (en 2007-2008) en collaboration avec le Génoscope, pour établir une séquence de référence sans erreur. Le projet de séquençage total du génome s'est concrétisé sous la forme d'une collaboration européenne et japonaise, coordonnée par Frank Kunst pour l'Europe, et Hiroshi Yoshikawa et Naotake Ogasawara pour le Japon. L'Unité avait en charge la responsabilité scientifique des données de séquençage et de leur annotation, et l'ensemble a été entièrement réannoté en 2008, 2013 et 2018. La base de données relationnelle SubtiList constituait la référence pour tous les chercheurs qui s'intéressent au génome de B. subtilis, et aux génomes bactériens en général. L'annotation est poursuivie aujourd'hui avec une périodicité mensuelle. Hélas, le soutien nécessaire à la perpétuation des bases de données correspondantes n'a pas pu continuer faute de reconnaissance de l'importance de l'annotation des génomes.

Comme la séquence complète de ce génome a été connue au début de l'année 1997, l'activité du laboratoire s'est dirigée vers l'objectif initial de l'Unité, à savoir l'exploration fonctionnelle du génome à partir de l'identification de la fonction de tous ses gènes. À cette fin, en collaboration avec Alain Hénaut et ses collègues de l'Université de Versailles Saint Quentin, et avec Alain Viari et ses collègues de l'Atelier de Bioinformatique à l'Université Paris 6, l'Unité a constitué un pôle de recherche permettant le développement des études informatiques liées aux génomes. Cette collaboration s'est concrétisée par la constitution en 1992, entre autres structures, d'un Groupement de Recherche, Génomes et Informatique (le GDR1029), co-dirigé avec François Rechenmann (de l'INRIA à Grenoble), et associant une cinquantaine de chercheurs. Cela a permis de valider la contribution de certains apports de l'Intelligence Artificielle pour l'analyse des séquences d'acides nucléiques et des protéines, de développer de nombreuses méthodes d'analyse et de créer une plateforme intégrant à la fois les objets biologiques issus du séquençage et les méthodes d'analyse associées, ImaGene®, GenoStar®, puis IOGMA®. L'étude des peptides signaux des protéines sécrétées, au moyen d'une de ces techniques a découvert des descripteurs très précis de ces signaux d'adressage.

En marge de ces activités, un résultat expérimental acquis dans l'Unité, la comparaison du produit des gènes de protéines impliquées dans la synthèse de la cystéine et du tryptophane a ouvert des perspectives intéressantes sur l'origine de certaines voies métaboliques. Ces premiers travaux ont motivé un investissement notable en temps de recherche informatique pour l'analyse des séquences. Ils ont aussi conduit à l'un des thèmes centraux de l'Unité de Génétique des Génomes Bactériens, l'étude du métabolisme du soufre. Ils ont aussi mis en évidence qu'il existe un lien significatif entre les questions d'origine, de l'origine de la vie en particulier, et ce qu'il est possible de comprendre à partir des génomes actuels. Mais, comme cela a été observé dans le cas du génome de la levure, le résultat sans doute le plus surprenant des premiers travaux de séquençage est que la moitié des gènes ne ressemble à rien de connu (1991). Cela démontrait de façon éclatante que connaîtrte les génomes entiers ouvrait un nouveau pan de la génétique. Cela justifiait un investissement important dans l'exploration de la nature des gènes par des moyens informatiques, et sa validation expérimentale par l'inactivation systématique de tous les gènes de l'organisme et l'analyse des phénotypes correspondants.

Un dernier aspect de mon activité concernait la réflexion épistémologique, l'éthique et la communication du savoir (Chapitre IV). Cela a été, entre autres, concrétisé par un premier livre sur la biologie moléculaire Ordre et Dynamique du Vivant, paru en 1978 et qui faisait la synthèse des cours donnés au cours des quatre années précédentes à l'Ecole Polytechnique. Un second livre, L'Œuf et la Poule, consacré au code génétique, est paru en 1983 et le troisième, Une Aurore de Pierres, paru fin 1990, tente d'éclairer de façon nouvelle la question des origines, en la reliant aux projets actuels de séquençage de génomes entiers. Un quatrième livre, La Barque de Delphes, traite de ce que dit le texte des génomes (1998). D'une façon générale ma position épistémologique, tout en insistant sur l'importance primordiale de l'expérience, est éloignée de l'empirisme radical anglo-américain et développe certains aspects de la tradition scientifique grecque, plus orientée vers la recherche d'explications que vers la simple collection des faits.

Recherches dans l'Unité de Génétique des Génomes Bactériens et création du HKU-Pasteur Research Centre Ltd (Chapitre V) (bibliographie)

La révolution de la génomique qui a transformé la biologie continue à produire des découvertes spectaculaires. Alors que le monde médiatique tend à parler presque exclusivement du « génome humain », on ne pourra y comprendre quelque chose qu'au travers de la connaissance de puissants modèles, microbiens en particulier. L'atome de vie est la cellule. C'est ainsi que tous les grands centres de génomique dans le monde se sont mis à développer l'étude des génomes microbiens. C'est d'ailleurs là que les deux plus grandes découvertes du domaine ont été faites durant la décennie 1990 (avec une contribution majeure de l'Unité). D'une part les gènes ne sont pas fixes, mais beaucoup tendent à se propager d'un organisme à l'autre (transfert génétique « horizontal », voir plus bas). D'autre part, une fraction très élevée des gènes, quel que soit l'organisme, est sans fonction connue. C'est d'autant plus surprenant que nous connaissons désormais la séquence du génome de plusieurs milliers de bactéries. Dans ce contexte, le travail de l'Unité, en collaboration avec mon activité au moment où je dirigeais le HKU-Pasteur Research Centre Ltd créé par moi à Hong Kong, a consisté à explorer ces fonctions inconnues.

Ce travail, toujours d'actualité, combine les expériences, systématiquement associées à des travaux in silico (créant et utilisant des approches informatiques), pour réaliser des expériences plus conceptuelles qui servent de référence et de prédiction pour réaliser celles qui se déroulent dans les laboratoires expérimentaux. Une conjecture centrale qu'explorait l'Unité est de savoir si, et dans l'affirmative pourquoi, les gènes ne sont pas répartis au hasard dans les chromosomes. Il va de soi que les nombreux accidents qui arrivent nécessairement au cours de la reproduction conduisent les gènes à se modifier, à disparaître ou à changer de place. On attendrait donc, au bout d'un temps assez long, une répartition plus ou moins aléatoire de ces gènes. Mais l'idée même qui a fondé la génomique conceptuelle, dérivée de la métaphore de programme génétique, est qu'une cellule se comporte un peu à la manière d'un ordinateur, où la machine est bel et bien séparée physiquement des programmes / données qu'elle exploite. Or on sait bien qu'un ordinateur n'est pas capable de se dupliquer.

Que faut-il donc de plus ? John von Neumann au début des années 1960 a montré que si cela devait être possible, alors il faudrait quelque part une image de la machine, découpée en un réplicateur et un constructeur. Il fallait donc explorer si la cellule et son programme génétique sont un ensemble organisé. De façon plus concrète, l'ordre des gènes dans le génome est-il quelconque ? Et, en parallèle, où se trouvent, dans la cellule, les produits des gènes : les trouve-t-on n'importe où ? Et enfin, existe-t-il, parmi les fonctions essentielles des fonctions qui donneraient à la chimie biologique son aspect « animé» ? Ce que nous avons découvert (en 2019) longtemps après la fermeture de l'Unité, c'est que la cellule possède une « ligne d'assemblage » qui utilise le principe de Landauer au sein d'agents originaux se comportant comme des démons de Maxwell (voir le préambule).

Les travaux de l'Unité ont organisé les données de la connaissance biologique (Ivan Moszer, et construction des bases de données GenoList, jusqu'à son départ de l'unité), et analysé la structure des génomes (Eduardo Rocha et certains chercheurs du HKU-PRC). La découverte la plus surprenante de la nouvelle Unité, GGB, a été que les gènes essentiels à la vie des bactéries sont situés dans le brin précoce de l'ADN, répliqué directement sans discontinuité. Cela ne s'explique pas par le niveau d'expression de ces gènes (il n'y a pas corrélation avec un haut niveau d'expression), mais s'explique par l'absence de conflit entre transcription et réplication pour ces gènes, car les collisions qui se produisent lorsque les gènes sont situés sur le brin complémentaire doivent souvent conduire à des ARN messagers tronqués, et donc à des protéines tronquées, donc toxiques. Cette découverte dit aussi que le produit de ces gènes essentiels fait partie de complexes formés de plusieurs protéines, car on ne peut expliquer aisément la toxicité d'un produit tronqué que par la destruction du complexe qu'il forme (imaginons ce qu'il adviendrait d'un immeuble dont certaines poutres seraient raccourcies !).

Plus récemment j'ai repris cette étude en collaboration avec des collègues Chinois, en réannotant proprement le génome de la bactérie « synthétique  » Mycoplasma mycoides Syn3.0, et en identifiant les fonctions de plusieurs Spiroplasmes des grands fonds marins. C'est cette étude qui m'a fait découvrir le rôle du principe de Landauer dans la genèse des fonctions cellulaires minimales.

En parallèle, l'Unité a participé à la détermination de la séquence du génome complet de plusieurs bactéries : Leptospira interrogans (en collaboration avec le Centre de Séquençage de Shanghai), bactérie particulièrement dangereuse infectant les paysans qui travaillent dans les rizières ; Staphylococcus epidermidis (collaboration avec le même Centre et l'Université Fudan), bactérie de l'environnement importante pour les infections acquises en mileu hospitalier ; et Photorhabdus luminescens (séquencé par le Laboratoire de Génomique des Microorganismes Pathogènes de l'Institut Pasteur), pathogène d'insecte extraordinairement virulent, y compris envers les larves de moustiques (Jean-François Charles, Sylviane Derzelle et leurs collaborateurs). D'autres projets de génomique ont suivi : d'abord le séquençage du génome d'une bactérie psychrophile, hôte de l'Océan Antarctique, Pseudoalteromonas haloplanktis (et la description détaillée du génome était donc prête pour l'Année Polaire), et au travers du GDR 2909 coordonné par Philippe Bertin (Université Louis Pasteur, Strasbourg) le séquençage du génome d'une bactérie résistante à l'arsenic, Herminiimonas (Cenibacter) arsenicoxydans.

Il devenait essentiel de comprendre où les produits des gènes se répartissent dans la cellule. L'étude de l'uridylate kinase par un groupe qui s'est joint à l'Unité (Anne Marie Gilles et Octavian Bârzu) s'interrogeait sur le structures tubulaires de l'enzyme. Une autre approche explorait l'organisation dans la cellule de la production des molécules contenant du soufre, en raison de la réactivité considérable de cet élément (Isabelle Martin-Verstraete à Paris et Agnieszka Sekowska à Hong Kong). Nous avons mis au jour de nouvelles voies métaboliques chez B. subtilis (l'un des deux grands modèles des bactéries) et mieux caractérisé la voie de la recyclage de la méthionine, qui est désormais bien comprise (article de revue princeps en 2018). 

Enfin, l'année 2003 avait vu se développer l'épidémie de pneumonie atypique (Syndrome Respiratoire Aigu Sévère) et j'ai pensé nécessaire de participer a la lutte contre cette maladie, d'une part par des études théoriques sur les génomes des coronavirus (au HKU-PRC) et d'autre part au travers d'une étude épidémiologique permettant de se faire une idée de l'origine de la maladie et de son développement (en collaboration avec l'INRIA et le Département de mathématiques de l'Université de Hong Kong). Le modèle proposé, celui d'une double épidémie, causée par un virus initial inoffensif, qui mute chez certains patients pour conduire au phénomène de SRAS cadre bien avec les observations sur le terrain. Ce modèle suggère que le virus initial pourrait rester endémique et conduire à la résurgence occasionnelle de la maladie. Il a aussi l'intérêt de suggérer que l'infection causée par le premier protège probablement contre le SRAS, ce qui indique qu'un vaccin serait possible (du moins un vaccin ayant un effet significatif, mais peut-être durant un temps limité). Ces travaux sont revenus sur le devant de la scène avec l'apparition en 2012 du nouveau coronavirus, MERS-CoV. Ces études ont été complétées par une analyse de nouveaux modèles possibles pour expliquer les épidémies de maladies à prion, en imaginant une transmission vectorielle.

Cela explique que, lorsque la pandémie de COVID-19 s'est déclarée nous ayons consacré une partie importante de notre activité à l'étude du virus SARS-CoV-2 et participé à la fondation d'une entreprise destinée à la découverte de nouveaux antiviraux, Meletios Therapeutics.

Quelques découvertes, en résumé

De cet ensemble de travaux on peut extraire quelques repères plus importants. Un travail resté obscur peut avoir eu une influence majeure. Comment savoir ce qui a permis à tel ou tel de développer une nouvelle idée : quelle lecture, quelle association, et, de nos jours, quelle base de données ? Suivre le devenir d'un mot, d'une expression dans la littérature permet rarement de revenir à la cause qui l'a fait se répandre. Il est ainsi amusant de voir le sort de l'expression "in silico" ou de l'approche inductive par analyse des « voisinages » qui démontrent très clairement le rôle occulté (ou plus exactement anonyme) d'une contribution importante au passage de la vision technologique du séquençage des génomes à une vision réellement conceptuelle.

On l'a vu, la recherche que j'ai menée est centré sur une question clé : peut-on trouver des principes généraux qui distinguent la chimie biologique de la chimie organiques ? En quoi cela peut-il se refléter dans l'organisation des génomes ? C'est autour de ce thème qu'on peut tenter d'isoler quelques contributions significatives, illustrant un style de recherche certainement plus gréco-latin qu'anglo-américain. Pour répondre à cette question très générale j'ai d'abord développé un système d'analyse génétique chez les bactéries. J'ai abordé la question en identifiant des signaux en apparence redondants dans les synthèses macromoléculaires chez les bactéries, une sorte de "ponctuation secondaire" dans l'expression du message génétique.

A Danchin
Règles de réécriture en biologie moléculaire
Change (1974) 19: 10-24

Dans sa leçon inaugurale au Collège de France, François Jacob s'interrogeait sur les analogies possibles entre la structure du langage écrit, et le programme génétique. Un peu plus tard il en débattait avec le linguiste Roman Jakobson. Ce thème a été le déclencheur de mes travaux sur le rôle de la "ponctuation secondaire" dans le phénomène de traduction du message génétique, et c'est ce que j'expose dans ce texte de la revue Change (Seghers), après avoir découvert une fonction inattendue de la ponctuation secondaire chez les bactéries.   In his inaugural lesson at the Collège de France, François Jacob reflected about possibly analogies between the structure of the written language and that of the genetic programme. A few years later he discussed the topic with the linguist Roman Jakobson. This theme has initiated my experimental work on the role of "secundary punctuation" in the process of translation of the genetic message. This is discussed in this text of the journal Change (Seghers), after I uncovered an unexpected function of secundary punctuation in bacteria.

A Danchin
La relecture du message génétique
La Recherche (1977) 83: 989-991

L'accent sur l'analogie linguistique venait de ma contribution à la réflexion sur les mécanismes sélectifs et en particulier à ceux qui sont à la base de la mémoire et de l'apprentissage. L'étude du démarrage du processus de traduction, qui combine deux signaux chez les bactéries (un signal métabolique d'étiquetage de la première méthionine et la structure d'un ARN de transfert particulier) m'a conduit, à la suite d'une approche essentiellement génétique, à la découverte d'une anomalie ubiquiste du métabolisme couplant réplication, transcription, traduction et division cellulaire. Les mutants affectant ce processus impliquaient la terminaison de la transcription, le démarrage de la traduction, le couplage strict (« stringent ») entre ces processus, le métabolisme des dérivés à un carbone, la production d'AMP cyclique, une protéine longtemps considérée comme une histone bactérienne, la protéine H-NS et la voie de synthèse des acides aminés branchés. Cette liste à la Prévert, produite par l'expérience même, explique les fils suivis, un à un, pour tenter de démêler l'écheveau de ces interactions surprenantes, enfin compris en janvier 2006.

A partir du milieu des années 1980, j'ai considéré qu'il était raisonnable de tenter d'analyser ce même problème non plus au travers de l'étude des gènes individuellement impliqués, mais via la connaissance globale des génomes. A cette occasion, j'ai introduit le concept d'expérimentation “in silico comme complémentaire de l'expérience in vivo ou in vitro pour l'étude des génomes (ce terme a été utilisé pour la première fois, en 1988-1989, dans ses discussions avec la Communauté Européenne, destinées à justifier conceptuellement la naissance de la génomique). La question s'est alors transformée en une conjecture simple, reposant sur une réflexion de von Neumann à propos des Machines de Turing : existe-t-il une relation entre l'organisation du génome et l'architecture de la cellule ? L'exploration de ces questions requiert une connaissance approfondie du métabolisme, à la base des applications proposées par la société de biotechnologie créée au début de l'année 2010, consacrée à la bioremédiation métabolique, AMAbiotics (renommée Stellate Therapeutics qui a cessé son activité fin 2023). Elle m'a permis, on l'a vu, de comprendre l'importance du principe de Landauer pour expliquer l'apparente animation de la chimie biologique.

Adénylcyclases toxiques, et caractérisation moléculaire de quatre classes indépendantes d'adénylcyclases (convergence évolutive), création de la classification internationale des nucléotidylcyclases, 1988-1998

L'implication de l'AMP cyclique dans la sensibilité à la sérine m'a conduit à l'analyse génétique puis biochimique des adénylcyclases. Après avoir été le premier à isoler, caractériser et séquencer le gène complet de l'adénylcyclase d'Escherichia coli, le laboratoire s'est attaché à trouver le moyen de caractériser les adénylcyclases connues comme toxines. Pour cela j'ai créé une technique originale, précurseur conceptuel de la technique dite du « double hybride », et nous avons isolé et caractérisé les gènes des cyclases toxiques de l'agent de la coqueluche et du charbon, inactives chez la bactérie mais activées par la calmoduline de l'hôte, en même temps que leur système de sécrétion.

Ce travail a, dès 1988, m'a posé un certain nombre de problèmes éthiques (récemment remis au goût du jour sous le nom de « bioterrorisme ») discutés dans :

A Danchin
Doute et création
In: "La Responsabilité, la condition de notre humanité"
Autrement (1994) 14:249-266

L'ensemble des premiers travaux sur les adénylcyclases a été résumé une revue, référence internationale pour la classification des adénylcyclases, sous la forme, initialement, de trois classes d'origine évolutive différente (convergence évolutive) : Classe I, cyclases des entérobactéries et bactéries apparentées ; Classe II, cyclases toxiques sécrétées ; Classe III, classe “universelle” présente aussi bien chez les bactéries que chez les eucaryotes supérieurs. Une quatrième classe, elle aussi d'origine phylogénétique différente, a été découverte dans l'Unité quelques années plus tard. La classe “universelle” (classe III) des cyclases regroupe adényl- et guanyl-cyclases, et une méthode de sélection originale permet de passer de l'une à l'autre activité (il s'agit là d'une des toutes premières et rares expériences où l'étude moléculaire du changement de substrat d'une enzyme a été menée à bien).

Généralité du transfert génétique horizontal chez les bactéries, 1991-présent

L'étude des génomes supposait une analyse globale in silico des propriétés du texte des gènes. Une première analyse de 800 gènes du colibacille a permis de les classer en trois catégories : cœur du métabolisme, gènes exprimés à haut niveau en croissance rapide, et ce qui était totalement inattendu, gènes venant d'ailleurs…

Ce premier travail de génomique in silico  faisait soudain apparaître qu'un sixième au moins des gènes du colibacille est issu d'un transfert génétique horizontal alors que ce processus, jusque là, était considéré comme anecdotique. Il montrait aussi que les gènes antimutateurs proviennent d'un transfert de ce type, suggérant que les bactéries de l'environnement sont la plupart du temps dans un état mutable (Escherichia coli s'est longtemps appelée mutabile), et se fixent dans un état plus constant lorsqu'elles rencontrent un biotope favorable. L'organisation cellulaire était une autre conséquence du transfert génétique horizontal. La généralité de cette observation inattendue sera démontrée quelques années plus tard dans le cas de Bacillus subtilis. Cette découverte est si bien acceptée qu'elle est désormais considérée comme un lieu commun, mais, de façon amusante, parfois renommée « transfert génétique latéral » par ceux qui cherchent à occulter l'origine de la découverte.

Plus récemment, un travail en collaboration avec Massimo Vergassola a montré que le génome lui-même est structuré par la formation d'îlots de même biais d'usage des codons, et que ces îlots sont très grands (30 gènes chez E. coli ; 150 gènes chez B. subtilis) ; ce travail démontre que l'organisation génomique bactérienne est contrainte par le processus de traduction. Enfin, notre découverte de la nécessité d'une coordination de la croissance non-homothétique de la cellule, qui conduit à une pression métabolique forte pour rendre les génomes longs, plutôt que courts, donne une explication fonctionnelle naturelle au transfert génétique horizontal, qui permet par ailleurs à la cellule d'extraire une image partielle de son environnement et de l'intégrer en son sein.

Présence massive de gènes à fonction inconnue chez les bactéries, 1991, et premier séquençage et annotation du génome d'une bactérie de la classe des Firmicutes, 1997

La mise en œuvre du séquençage du génome de Bacillus subtilis, premier programme de ce type lancé pour des raisons conceptuelles et non simplement technologiques nous a permis, en parallèle avec le même résultat obtenu par le consortium du projet Saccharomyces cerevisiae, de faire la première grande découverte de la génomique : contrairement aux prédictions, bien des gènes étaient totalement inconnus, tant par leur séquence, que par leur fonction ou la structure de leur produit. Ce résultat totalement inattendu à l'époque (les adversaires des projets de séquençage des génomes avaient « démontré » que nous connaissions au moins 95% des classes possibles de gènes et publié cette démonstration dans les journaux les plus populaires), présenté au premier symposium de génomique organisé par l'Union Européenne à Elounda en Crète, en 1991, marquait la première découverte majeure issue des programmes de séquençage des génomes. Pour mettre en évidence le retard américain de l'époque —comblé très rapidement, et menant la recherche française qui n'avait pas su en comprendre l'importance très vite à l'arrière-garde— Piotr Slonimski nommait alors ces gènes inconnus « EEC genes » pour rappeler à cette occasion la contribution européenne.

Réalisé par un consortium réunissant l'Europe et le Japon, le séquençage du génome de B. subtilis était achevé en 1997, en même temps que celui du génome de E. coli. La tendance nouvelle de la science, fondée sur la publicité (les auteurs désormais paient pour publier leurs travaux !), ne remarquait pas que, dès 1995, la longueur des fragments continus du génome de l'organisme dépassait largement la longueur totale des génomes complets séquencés par Craig Venter et ses collègues à l'époque. Ce génome restera aussi pendant cinq ans le seul de son type (les génomes des Firmicutes sont particulièrement difficiles à séquencer, parce que son ADN est toxique dans l'hôte utilisé pour le séquençage, E. coli, pour des raisons biochimiques bien établies par les auteurs du projet).

La séquence complète de ce génome a été reprise dix ans plus tard, afin d'en corriger les erreurs (la technologie avait considérablement évolué) et surtout de mettre à jour les annotations qui décrivent la fonction de tous les gènes. Elle est depuis systématiquement ré-annotée (dernière annotation publique en 2023).

Nous avons coordonné la mise à la disposition de la communauté internationale des données de séquence annotées, sous la forme d'une structure de bases de données spécialisées d'un usage très général. Malheureusement cet effort a été interrompu faute de prise de conscience par la communauté internationale du caractère essentiel de l'annotation précise. Cela explique nombre de fausses pistes suivies par des laboratoires du monde entier à la suite d'interprétations erronées de la fonction des gènes.

Par la suite, j'ai participé à, ou organisé plusieurs projets de génomique bactérienne : Leptospira interrogans et Staphylococcus epidermidis, en collaboration avec le Centre de génomique de Shanghai, Photorhabdus luminescens, à l'Institut Pasteur, et plus récemment, pour comprendre le rôle de la contrainte imposée par le froid dans l'organisation des génomes, la bactérie Antarctique Pseudoalteromonas haloplanktis TAC125, en collaboration avec le Genoscope et plusieurs universités internationales, puis le génome de la bactérie résistante à l'arsenic Herminiimonas arsenicoxydans et enfin le génome de Psychromonas ingrahamii. En quelques années les progrès technologiques tant in vitro qu'in silico sont extraordinaires, et l'on peut remarquer que ce dernier projet a demandé cent fois moins de travail, en termes de personnes/années que celui de B. subtilis.

Les grandes lois de l'organisation des génomes bactériens et l'animation de la cellule par le principe de Landauer, 1999-présent

Il s'agit là du cœur même de la recherche que j'ai menée depuis une vingtaine d'années : peut-on trouver des lois dans l'organisation des gènes dans le génomes bactériens ? Plusieurs grandes lois ont été découvertes : d'une part, il existe un biais universel dans la composition des gènes présents sur le brin direct et le brin complémentaire de l'ADN ; d'autre part, les gènes essentiels (identifiés expérimentalement dans la suite du programme de séquençage de B. subtilis) se trouvent spécifiquement codés par le brin direct de l'ADN. Par ailleurs mes travaux actuels m'ont permis d'établir des règles universelles dans l'organisation des génomes bactériens (motifs « flous » ubiquistes, répartition des gènes dans les brins directs et complémentaires, localisation des gènes essentiels, formation d'îlots de même biais d'usage du code génétique, etc) et dans la genèse des protéines. Ces résultats ont des implications considérables quant aux méthodes d'analyse phylogénétique lorsqu'on étudie les séquences protéiques. Bien des protéines « orphelines », qui forment environ 10% des protéines de tout génome d'une nouvelle espèce, sont riches en acides aminés aromatiques. Nombre d'entre elles pourraient représenter le « soi » de l'espèce, en se comportant comme des « gluons » apportant une stabilité supplémentaire aux complexes multiprotéiques de la cellule. Il s'agirait là d'une contribution essentielle à la stabilisation fonctionnelle des structures intracellulaires complexes. Plus généralement l'approche développée permet de définir ce qu'est l'essentialité d'un gène par sa persistance dans de nombreuses espèces non seulement en séquence mais en position dans le génome.

Considérant les génomes dans leur globalité, on connaissait la présence d'un biais périodique de période 10-11,5 dans la répartition des nucléotides, des procaryotes jusqu'aux eucaryotes. Ce biais est présent aussi bien dans les régions codant des protéines que dans les autres. Une analyse statistique soigneuse, fondée sur la comparaison entre le génome réel et un génome « réaliste » (comportant toute la connaissance accumulée à son propos) a révélé la présence ubiquiste de « motifs flexibles de classe A ». Chaque motif contient jusqu'à une dizaine de nucléotides conservés répartis de façon discontinue, dans une région dont la longueur peut atteindre 70 paires de bases. L'originalité de leur découverte vient de ce qu'ils sont « flexibles », en cela que la position exacte des nucléotides conservés dans deux motifs peut varier d'une à deux paire de bases. C'est cette fluctuation, due à la composition locale de l'ADN et à son degré de surenroulement, qui avait rendu ces motifs invisibles jusqu'alors. Leur densité est telle qu'ils recouvrent jusqu'à la moitié du génome. Leur structure suggère qu'ils définissent un réseau très dense d'interactions avec des protéines. Les contraintes correspondantes se manifestent dans les protéines, au point que leur composition en acides aminés est plus affectée par l'organisation du génome et celle du métabolisme que par leur fonction. Ainsi il apparaît que les génomes bactériens sont hautement organisés, au contraire de l'idée fort répandue d'une « fluidité » génomique essentielle.

Quelles peuvent être les pressions de sélection conduisant à cette organisation ? Une première estimation montre que, chez les bactéries, la traduction organise la répartition des gènes dans le chromosome. Connaissant alors les gènes persistants chez les bactéries, nous avons exploré la façon dont ils restent rassemblés au cours de l'évolution. Le résultat de cette étude donne une image fascinante de l'organisation des génomes, où l'on découvre que les gènes du cœur des génomes, les plus anciens, ont évolué selon un schéma qui illustrerait parfaitement un scénario de l'origine de la vie. J'ai pour cette raison appelé cet ensemble le paléome.

A Danchin
Retour sur les origines de la vie: De l'atome aux molécules, reproduction, réplication
Med Sci (Paris) (2018) 34: 857-864 doi:10.1051/medsci/2018212
A Danchin
Retour sur les origines de la vie: Des métabolites aux cellules
Med Sci (Paris) (2018) 34: 984-899 doi:10.1051/medsci/2018234

En parallèle avec cet ensemble qui permet la vie, un autre ensemble, que j'ai nommé le cénome, permet l'occupation d'une niche particulière, et ce sont les gènes correspondants qui s'échangent par transfert horizontal.

C'est l'étude du paléome qui révèle la présence d'un grand nombre d'agents se comportant comme des démons de Maxwell et président à la ligne d'assemblage de la cellule, lui donnant l'aspect « animé » qui caractérise la vie.

Une loi nouvelle, découverte à partir de l'étude du comportement du virus SARS-CoV-2 a permis, en 2020, de découvrir une loi de coordination de la croissance non-homothétique de la cellule (cytoplasme à trois dimensions, membranes à deux, et génome à une dimension) qui met en jeu, dans tous les organismes, la synthèse du CTP comme métabolite coordonnateur central.

CTPS

Quelques grands principes métaboliques et physico-chimiques responsables de la stabilisation sélective de la structure des génomes bactériens; métabolisme paralogue

L'organisation fonctionnelle des gènes dans le génome doit resulter de la pression de sélection due à des principes physico-chimiques simples. Outre les causes physiques comme la structure de l'eau (dont l'étude commence avec celle du génome de P. haloplanktis mentionnée plus haut), j'ai fait la conjecture simple que les gaz et les radicaux libres, en raison de leur extrême facilité de diffusion, jouent un rôle de premier plan dans la compartimentation cellulaire, et pourraient donc être à l'origine d'une partie de l'organisation des gènes correspondants au sein du génome. Le métabolisme de l'atome de soufre étant particulièrement sensible à ces gaz et radicaux, il est important d'en comprendre la nature et la structuration. Une première étude a montré l'organisation en îlots du métabolisme du soufre et une analyse détaillée, principalement réalisée avec ses collègues lors de la création du HKU-Pasteur Research Centre à Hong Kong a permis de découvrir l'ensemble des détails génétiques d'une voie métabolique jusque là largement ignorée, celle de la récupération de la méthionine (“methionine salvage pathway”). Plusieurs travaux ont fait la synthèse des activités catalytiques impliquées dans ce cycle ubiquiste (il est aussi présent chez l'homme et chez les plantes) dont une particularité est qu'il recrute systématiquement des protéines de structures diverses pour conduire à la réalisation du cycle complet. L'une de ces protéines est l'ancêtre de la ribulose-phosphate carboxylase/oxygénase (RuBisCO), l'enzyme la plus abondante de la planète (cela ouvre de fascinantes questions sur l'origine des fonctions enzymatiques). Ce cycle très original a la particularité de conduire dans certaines conditions, nous l'avons montré, à la production de monoxyde de carbone. Comme ce cycle existe chez l'homme, cela ouvre des perspectives intéressantes sur la possibilité de nouveaux contrôles par CO, médiateur gazeux différent de l'oxyde d'azote dans le système immunitaire ou le système nerveux.

Une autre conséquence de l'exploration du métabolisme du soufre a été la mise au jour d'un métabolisme souterrain, ou paralogue. On reconnaît désormais que les enzymes ne peuvent avoir une spécificité absolue, et interagissent avec toutes sortes de substrats possibles. Il en découle un grand nombre d'activités parasites dues à cette permissivité (« promiscuity » en anglais). Ainsi, en parallèle avec le métabolisme central on trouve de très nombreux métabolites qui ressemblent au métabolites normaux. Naturellement, on peut attendre qu'au cours de l'évolution ces métabolites nouveaux soient pris en compte. Et cela se fera sans difficulté à partir de variants des enzymes dont la fonction est bien établie pour le métabolisme central. Il se développe alors un métabolisme paralogue, que nous avons illustré avec le métabolisme de la S-méthyl-cystéine chez B. subtilis. Les voies de ce type sont très nombreuses et se propagent rapidement par transfert génétique horizontal. On peut alors comprendre qu'il est essentiel pour la cellule, à chaque fois qu'elle doit privilégier une fonction particulière, d'aller plus loin que la simple reconnaissance, et d'établir un processus spécifique de discrimination. C'est là, à nouveau, qu'apparaît la nécessité du principe de Landauer, qui permet à la cellule d'identifier avec rigueur ce qui lui appartient en propre et ce qui ne lui appartient pas. Cette contrainte est cruciale pour le développement à grande échelle de la biologie synthétique.

Biologie Synthétique

La biologie nous concerne tellement que nous n’y prenons garde. Aussi nous faut-il oublier de croire que la vie est au centre du monde. La biologie doit donc faire sa révolution copernicienne. Cela nous replace dans le réel, celui qu’explore, par exemple, la physique. Masse, énergie, espace, temps, sont les quatre catégories usuelles de la nature. Mais la biologie s’en accommode mal. Un peu de matière (masse et inertie) et d’énergie, un peu d’espace, un peu de temps et pourtant, si le lecteur me suit jusqu’ici, c’est que quelque chose se passe en lui. Faute de trouver un meilleur mot, j’emploie celui du tout venant. Nous sommes, en ce moment même où vous me lisez, en train d’échanger de l’information. Ce que nous devons développer est la conjecture que cette « information », encore bien mal définie est une authentique catégorie de la nature, à l’instar des quatre catégories standard. Cette conjecture a de très fortes implications. Elle change complètement la place de la biologie dans les sciences, en la plaçant très près de la mathématique. L’analyse des génomes, celle que j’ai nommée in silico il y a de près de vingt ans, devient alors un pan essentiel de l’étude de la vie.

Or, la conséquence la plus importante de cette façon de voir est que ce que nous appelons sélection naturelle devient un principe de la physique. C’est le principe qui consiste à faire de la place grâce à la séparation de classes en dissipant de l’énergie, non pour détruire, mais pour éviter de détruire ce qui est riche en information (fonctionnel). Il faut pour cela des agents spécifiques, qui sachent distinguer ce qui revient à la cellule et à son fonctionnement, de ce qui n'est qu'accessoire ou accidentel. Ces agents se comportent comme des démons de Maxwell, suivant le principe de Landauer que nous avons décrit au début de cette page. Ils sont spécifiques de la vie, et si la biologie synthétique souhaite développer des applications à l'échelle industrielle, il est essentiel qu'elle sache les prendre en compte.

Les organismes vivants apparaissent en effet comme des pièges à information. Cela explique l’apparente orientation de la vie vers une complexité (ce mot est très ambigu, mais gardons-le dans son sens intuitif) toujours croissante. La création est non dans le passé, mais continue. Il y a une sorte d’accrétion de l’information autour des organismes vivants. Mais imaginer une usine cellulaire s'accomode mal de l'inventivité intrinsèque qui serait celle de l'usine en question. Il est donc crucial, pour le futur d'applications industrielles, que l'objectif lui-même de l'usine soit géré par un démon de Maxwell. Cette façon de voir est au cœur de la reconstruction de la vie ab initio, le projet de la Biologie Synthétique.

LUDUS VITALIS / vol. XVI / num. 30 / 2008 et DELICIOUS PAPER/vol. III/2009

Ainsi, ce que nous savons des bactéries nous donne une image du plan de construction de ce qui serait une cellule synthétique, si l'on débarrasse les génomes connus de tous leurs appendices inutiles. En bref, un ensemble de gènes persistants, le paléome, définit les programmes du réplicateur et du constructeur, en y ajoutant un ensemble de gènes importants pour la capture de l'information. Bien sûr, le programme génétique n'est pas une abstraction. Il est porté par une molécule particulière, l'ADN, contrainte par les lois de la physique et de la chimie. Un génome est un polymère qui occuperait un volume dont le rayon serait dix fois celui du volume réellement occupé dans la cellule. Saurons-nous comprendre les règles de l'organisation de l'ADN ? Une première analyse des mots « flous » dans les génomes en donne une idée. Mais la réflexion doit se poursuivre pour nous permettre l'aventure prométhéenne de la biologie synthétique, et il faut en particulier comprendre comment la machinerie de l'expression des gènes trouve aussi sa place dans la cellule. Les lois les plus simples de la physique, comme l'accroissement inéluctable de l'entropie, loin d'être un facteur défavorable à l'entreprise, est en fait une force qui, une fois domestiquée, fournit le moteur du fonctionnement cellulaire. Quelques règles du développement de la vie « en contexte » permettront de comprendre comment nous pourrons un jour faire en sorte que des cellules synthétiques produisent ce que nous attendons d'elles.


Biographie succincte (vue plus détaillée)

Mathématicien à l'École Normale Supérieure, j'ai obtenu un DEA de Mathématiques Pures (Algèbre et Théorie des Nombres, 1966 avec Pierre Samuel, Théorie Classique du Potentiel, 1967, avec Marcel Brelot), puis un doctorat de 3e cycle en Chimie Physique (1967) pour une étude par Résonance Magnétique Nucléaire des ARN de transfert, à l'Institut de Biologie Physico-Chimique à Paris. J'ai été recruté par le Centre National de la Recherche Scientifique en 1968 dans le laboratoire de Marianne Grunberg-Manago à l'Institut de Biologie Physico-chimique. Mon travail s'est poursuivi à l'école Polytechnique, sous la forme d'une thèse de doctorat d'état ès Sciences Physiques (1971) au sein du laboratoire de Physique de la Matière Condensée, dirigé par Ionel Solomon.

Après ma thèse, j'ai développé une méthode de marquage des sites actifs des enzymes par des métaux de transition, analogues covalents du magnésium, à l'Institut Pasteur. En parallèle, avec Maurice Guéron, j'ai créé le premier enseignement de biologie à l'Ecole Polytechnique (1972-1976). Revenu à l'Institut de Biologie Physico-Chimique, j'ai réintroduit avec Mathias Springer la génétique bactérienne, qui avait disparu après le départ de Boris Ephrussi pour le Centre de Génétique Moléculaire à Gif-sur-Yvette, avant de revenir à l'Institut Pasteur, où j'ai créé l'Unité de Régulation de l'Expression Génétique en 1986, puis en 2000 l'Unité de Génétique des Génomes Bactériens. En 1973, Jacques Monod m'a demandé d'être l'un des coordonnateurs du Centre Royaumont pour une Science de l'Homme, et j'ai participé activement, avec Kot Jelenski et Massimo Piattelli-Palmarini, au programme de ce Centre qui devait disparaître peu après la mort de Jacques Monod au milieu de l'année 1976. De cette activité naîtront divers programmes à connotation anthropologique ou philosophique, en particulier autour du Centre Transcultura, créé à partir d'une idée d'Anne Retel-Laurentin (1925-1983) et présidé par Umberto Eco qui s'intéressait aux visions anthropologiques du monde occidental par les non-occidentaux.

A partir du milieu de l'année 2000 j'ai créé et dirigé pendant trois ans le HKU-Pasteur Research Centre Ltd à Hong Kong, pour y développer un programme de génomique bactérienne dans un contexte où ce type de recherche n'existait pas encore à Hong Kong. Je suis Professeur Honoraire à l'Université de Hong Kong. Professeur honoraire au BGI à Shenzhen. Je suis enfin co-fondateur d'une entreprise de biotechnologie, Meletios Therapeutics, consacrée à la recherche de composés anitiviraux aussi génériques que possible.

Je suis membre de l'EMBO et membre de l'International Advisory Committee de l'International Nucleotide Sequence Database collaboration (DDBJ / EMBL-EBI / GenGank) et membre de l'Académie des Sciences.