Génétique des Génomes Bactériens


Résumé de l'activité de l'Unité Génétique des Génomes Bactériens (2000-2007)






Accueil

Personnel

Organisation

Historique

Publications

Bases de données


Plutôt que de considérer le matériel héréditaire comme une simple collection de gènes, l'objet de la génomique est de comprendre l'organisation fonctionnelle des gènes au sein des chromosomes et comment cela concourt à produire le phénomène de la vie. Les bactéries, du fait de leur existence très ancienne (plus de trois milliards d'années d'évolution) et de leur remarquable variété, foisonnent de pistes pour mener cette étude. Comprendre comment les gènes interagissent permet de mieux cerner le potentiel adaptatif des bactéries, à la fois dans l'environnement et avec nous-mêmes (elles sont partout, et représentent, sur, et dans notre corps, plus de dix fois le nombre de nos propres cellules). Malgré leur connotation négative, la vogue de l'aliment « médicament » repose sur l'idée implicite que les bactéries sont le plus souvent bénéfiques, même si, à l'occasion, elles peuvent devenir hautement pathogènes. Curieusement, il y a peu de différences entre des bactéries commensales et des bactéries causes de maladies. L'un des objets de la génomique comparative est de tenter de comprendre comment les différences qu'on observe au niveau de l'organisation des génomes peuvent conduire de l'innocuité (ou du bénéfice pour l'hôte) à la virulence.

Le thème des recherches de l'Unité est l'analyse de l'intégration des fonctions cellulaires au travers de la comparaison des génomes (génomique comparative in vivo, in vitro et in silico) et de l'analyse expérimentale associée chez un certain nombre de bactéries choisies commes modèles :
1. La recherche in silico d'invariants permet la prédiction des fonctions et des structures responsables du comportement cellulaire intégré.
Elle est suivie de leur validation expérimentale. Deux approches sont privilégiées pour cela, toutes deux coordonnées par une analyse génétique et évolutive, une approche biochimique et une approche physico-chimique :
2a. L'exploration du comportement intégratif du métabolisme du soufre, cet élément étant choisi en raison de son extrême sensibilité à l'oxydo-réduction, ce qui en fait une sonde de choix pour comprendre le lien entre la compartimentation cellulaire et l'organisation génomique ;
2b. La mise en évidence d'un rôle de paramètres physiques (température en particulier) dans la structuration des macromolécules; l'accent est mis sur le rôle du métabolisme des ARN, de la synthèse de leurs précurseurs (synthèse et dégradation des nucléotides) à leur dégradation (dégradation des ARN et intégration métabolique), via la formation de structures stables (petits ARN non codants, "riboswitches" etc)
3. L'organisation et la gestion de la connaissance ainsi produite est mise en œuvre en aval, privilégiant les approches phylogénétiques (séquençage et annotation de génomes et création de bases de données spécialisées).
Ces thèmes sont répartis et développés en fonction de la présence dans l'Unité de chercheurs ayant une habilitation à diriger des recherches.

Saurons nous construire une bactérie synthétique? C'est, à partir de ce que nous connaissons de l'organisation des génomes, et des contraintes du métabolisme que nous pourrons répondre à cette question, désormais. La Biologie Synthétique, nouvel avatar des applications de la recherche en biologie, postule qu’il suffira de combiner des modules de base (au niveau de l’ADN et des composants élémentaires de la cellule) et de placer le génome artificiel ainsi construit dans une cellule réceptrice appropriée pour mettre en route une usine cellulaire capable de se reproduire et d’effectuer des opérations programmées par l’Homme. Cette façon de voir repose sur l’idée qu’une cellule se comporte comme un ordinateur qui serait capable de construire des ordinateurs. Cela suppose qu’un objet physique portant un ensemble données+programme peut être dans la réalité séparé de la machine, et que le programme peut s’exprimer sous la forme d’un « réplicateur » et d’un « constructeur » qui contienne quelque part une image de la machine qu’il va construire. Ce que nous savons des bactéries nous donne une image du plan de construction de ce qui serait une cellule synthétique, si l’on débarrasse les génomes connus de tous leurs appendices inutiles. En bref, nous trouvons qu’un ensemble de gènes persistants (nommé le paléome, pour faire référence à son évolution depuis l’origine de la vie) définit les programmes du réplicateur et du constructeur, en y ajoutant un ensemble de gènes importants pour la maintenance et la réparation de l’ensemble. Bien sûr, le programme génétique n’est pas une abstraction. Il est porté par une molécule particulière, l’ADN, qui se trouve contrainte par les lois de la physique et de la chimie. Un génome est un polymère qui occuperait un volume dont le rayon serait dix fois celui du volume réellement occupé dans la celllule. Saurons-nous comprendre les règles de l’organisation de l’ADN ? Une première analyse des mots « flexibles » dans les génomes en donne une idée. Notre réflexion se poursuit par l'exploration des forces qui contraignent la machinerie de l’expression des gènes dans la cellule. Les lois les plus simples de la physique, comme l’accroissement inéluctable de l'entropie, loin d'être un facteur défavorable à l’entreprise, sont en fait une force qui, une fois domestiquée, fournit le moteur du fonctionnement cellulaire. Enfin nos travaux établissent quelques règles du développement de la vie « en contexte », celle qui est définie par les gènes qui constituent ce que nous avons appelé le cénome, ensemble des gènes nécessaires à l'occupation d'une niche écologique particulière.

Considérant un génome comme un tout, nous avons découvert que la cause du biais périodique énigmatique tous les 10-11,5 nucléotides du texte génomique, connu depuis kongtemps et retrouvé dans presque tous les génomes, résulte de la présence universelle de motifs « flexibles ». Chaque motif est composé d'une dizaine de nucléotides conservés, répartis de façon discontinue. Ils n'ont pas été découverts jusqu'à présent du fait qu'étant souples, ils ne peuvent donner lieu à une séquence « consensus » du type fixe habituellement considéré par les chercheurs qui analysent les séquences génomiques. Nous avons par ailleurs étudié la composition globale des protéomes (l'ensemble des protéines codées par un génome) de modèles procaryotes distants de plus d'un milliard d'années d'évolution. Au moyen d'analyses multivariées, nous avons montré que la charge électrique opposée à l'hydrophobicité crée un groupe homogène, composé exclusivement de protéines incluses dans la membrane cellulaire. Un deuxième biais est créé par le contenu en G+C du génome, à la première position des codons, mettant en évidence que la fonction des protéines est très peu sensible à la composition en nucléotides du génome. Nous avons aussi découvert un rôle remarquable des acides aminés aromatiques. Les protéines « orphelines » (c'est-à dire uniques à une espèce donnée) sont enrichies en ces acides aminés, ce qui suggère qu'ils participent à la création de nouvelles fonctions au cours de l'évolution. Nous imaginons que ces protéines sont souvent des « gluons » stabilisateurs de complexes multiprotéiques, et qu'il étiquettent ainsi le « soi » de l'espèce. Toutes ces découvertes d'universaux donnent du poids à notre approche : les génomes ne sont pas des collections de gènes mais des ensembles organisés. Parmi les nombreux facteurs qui pourraient jouer un rôle sélectif dans cette organisation nous en avons retenu deux : la température et la réactivité chimique. L'étude du métabolisme du soufre a été retenue car cet atome est extrêmement réactif, alors qu'il est aussi un composant obligé des cellules, ne serait-ce que via la méthionine qui se trouve au début de la synthèse de toutes les protéines.

Pour la suite de notre étude et son exploration expérimentale, il faut, bien sûr, des modèles qui servent de référence, où l'on puisse connaître de l'organisme pratiquement tout ce qui est possible. Deux grandes classes de bactéries jouent un rôle dans ces domaines (bénéfique ou maléfique) ; elles se distinguent par une coloration spécifique, due au Danois Christian Gram. Les bactéries à coloration de Gram positive sont courantes dans l'alimentation (Lactobacilles, Streptocoques, du yaourt, de la charcuterie, etc) ; elles sont aussi parfois pathogènes (Staphylocoque doré). Leur modèle, dont l'Unité précédente a été le moteur de l'étude génomique, est Bacillus subtilis. Nos recherches actuelles tentent de comprendre comment ses gènes sont organisés, à la fois par une étude informatique (in silico), fondée sur l'analyse du texte (la séquence) des gènes, et de leurs produits (des protéines et des ARN), et par l'étude d'un métabolisme très structurant, le métabolisme du soufre. Les chromosomes sont formés d'une double hélice d'ADN. Chez les bactéries, cette double hélice se réplique souvent à partir d'une unique origine. Mais cette réplication n'est pas, physiquement, la même pour un brin de l'hélice et pour l'autre brin. L'un des brins est répliqué de façon continue, au fur et à mesure que la double hélice s'ouvre pour permettre la réplication, alors que l'autre brin, qui se recopie dans l'autre sens, se réplique de façon discontinue. Dans un premier temps, nous avons établi un certain nombre de règles forçant les gènes à préférer un brin de l'ADN plutôt que l'autre. Ces règles proviennent d'une pression de sélection qui favorise le fait que l'avancée de la fourche de réplication se fasse avec la même orientation que la transcription, évitant ainsi les conflits qui conduiraient souvent à la formation d'ARN messagers tronqués, et donc de protéines tronquées. Le métabolisme du soufre, quant à lui, est groupé en îlots fonctionnels, dont nous avons caractérisé récemment principalement les gènes codant les protéines de transport, ainsi que certains régulateurs de leur expression. Nous avons ensuite étendu notre étude à des organismes pathogènes de la même classe. Nous avons aussi caractérisé les voies peu connues du recyclage de l'acide aminé méthionine (par lequel les protéines de tous les organismes vivants commencent et qui intervient dans la synthèse d'un métabolite essentiel le S-adénosylméthionine). Nous avons montré qu'une de ces voies conduit parfois à la synthèse d'un gaz inattendu, le monoxyde de carbone qui pourrait donc être un signal intercellulaire encore incompris. L'autre, qui recycle la première méthionine de protéines, est le fait d'enzymes qui sont parfois spécifiques d'une classe particulière de protéines (c'est de cas chez B. subtilis), impliquant une voie de régulation encore inexplorée.

Les bactéries à coloration de Gram négative, quant à elles, ont pour modèle Escherichia coli, qui est encore aujourd'hui l'organisme le mieux connu au monde. Nous avons développé, au travers d'un Programme Transversal de Recherche, l'analyse de familles de ces bactéries pour tenter de comprendre ce qui fait la différence entre celles qui sont bénéfiques et celles qui ne le sont pas (la colibacillose est une maladie bien connue, qui a pour agent certaines souches de E. coli, par exemple). Mais pour comprendre mieux son caractère pathogène nous avons utilisé une bactérie apparentée, Photorhabdus luminescens, bactérie qui produit de la lumière et est extraordinairement pathogène pour les insectes (elle serait très dangereuse pour l'Homme si elle pouvait croître à la température de notre corps, ce qui n'est heureusement pas le cas). Au moyen de puces à ADN, nous avons ainsi caractérisé une série de systèmes de contrôle génétique (par les systèmes PhoP-PhoQ; AstR-AstS et H-NS) pour faire l'inventaire des clefs de la pathogénicité remarquable de cet organisme. Ce travail se poursuit en utilisant le ver à soie comme sujet de l'expérience. L'un des intérêts particuliers de cette approche est de ne pas à avoir à utiliser de mammifères pour l'étude de la virulence bactérienne, tout en obtenant nombre de résultats extrapolables chez ces animaux.

Pour explorer les contraintes physiques qui s'exercent sur la construction des génomes, l'Unité a par ailleurs terminé, en collaboration avec le Génoscope et les Universités de Hong Kong, Liège, Naples, Stockholm et Strasbourg, le programme de séquençage et d'étude du génome d'une bactérie de l'Antarctique Pseudoalteromonas haloplanktis TAC 125, appartenant à la même famille des gamma-protéobactéries. La séquence du génome a été analysée pour tenter de comprendre en quoi le froid contraint la répartition et la composition des gènes (cette bactérie est la bactérie connue qui croît le plus rapidement à basse température). Les travaux de l'Unité explorent aussi les possibilités biotechnologiques intéressantes de la croissance à très basse température. Nous avons découvert une stratégie remarquable chez cet organisme pour éviter la formation de dérivés réactifs de l'oxygène, avec l'élimination concertée du métabolisme ubiquiste utilisant un composé soufré, la molybdoptérine. Cela renforce notre hypothèse d'un rôle privilégié du métabolisme du soufre comme cible privilégiée des processus intégratifs chez les bactéries. Le protéome de P. haloplanktis manifeste un biais dans l'usage des acides aminés spécifique des organismes psychrophiles, montrant un enrichissement relatif en asparagine, acide aminé qui tend à « vieillir » facilement via un processus de cyclisation et de déamidation. Pour placer ce projet dans la perspective des développements des quatre prochaines années il peut être intéressant de remarquer que les moyens humains investis dans le séquençage et l'annotation de ce nouveau génome ont été cent fois moindre que ceux qu'il avait fallu mobiliser pour le séquençage de B. subtilis.

A partir de 2005, l'Unité participait au séquençage de nouveaux génomes en faisant partie du GDR2909 : Métabolisme de l'arsenic chez les procaryotes de la résistance à la détoxication. Les compétences de l'Unité dans le déchiffrage de l'organisation génomique et du métabolisme du soufre sont particulièrement bien adaptées à l'exploration de questions de ce type, fondamentales pour assurer la qualité de l'eau dans l'environnement. Ces organismes, par ailleurs, doivent organiser leur métabolisme autour de deux atomes importants, le fer et le soufre, qui sont impliqués directement dans le processus de détoxication de l'arsenic.

En dehors du métabolisme du soufre, nous avons depuis plusieurs années noté l'importance des structures biochimiques tendant à former des portions de plan (souvent des hexagones) ou des tubes dans la structuration des génomes, et nous avions remarqué que l'uridylate kinase forme des hexagones. Par ailleurs les sources de nucléotides dans la cellule doivent être hautement organisées, en particulier pour la synthèse de l'ADN, qui se fait en grande partie à partir de la dégradation de l'ARN. Le fait — énigmatique mais universel — que les nucléoside diphosphates, pas les triphosphates sont les précurseurs des désoxyribonucléotides crée une série de paradoxes au sein du métabolisme des pyrimidines (c'est l'UDP qui est produit dans la synthèse des pyrimidines de novo, tandis que le CDP ne l'est pas, alors que l'ADN doit éviter le U et incorporer le C). Cela nous a incité à étudier le rôle structurant des nucleotide kinases. Nous avons déterminé la structure hexamérique de l'uridylate kinase, et découvert de nombreuses propriétés inattendues. Comme les uridylate kinases forment une classe particulière chez les bactéries il était intéressant de les comparer à d'autres nucleotide kinases : la structure de la GMP kinase a été aussi résolue. De façon étonnante, l'uridylate kinase est codée par un gène (pyrH) qui, chez des bactéries pourtant très distantes, appartient à un opéron spécifique du processus de traduction, alors qu'aucun nucléotide contenant de l'uracile n'a été jusqu'à présent impliqué dans ce processus : nous avons là une incitation supplémentaire à poursuivre notre étude.

Une partie importante du travail de l'Unité consiste enfin à organiser les données de la connaissance génomique que nous obtenons sur les bactéries, et nous avons poursuivi à Hong Kong (où nous poursuivons un programme financé par le gouvernement de Hong Kong) la construction de la famille Genochore de bases de données bactériennes de référence : 18 génomes sont ainsi disponibles, y compris celui d'un petit organisme eucaryote, le parasite Encephalitozoon cuniculi. Enfin, l'année 2004 avait vu se développer l'analyse de l'épidémie de pneumonie atypique (Syndrome Respiratoire Aigü Sévère) et nous avons participé, avec le consortium d'épidémiologie du GuangDong (coordonné par le Pr Guoping Zhao, du Centre de Génomique de Shanghai) à l'étude moléculaire des caractéristiques de l'épidémie. Les résultats correspondants, très instructifs (et qui sont entièrement compatibles avec l'hypothèse de la double épidémie que nous avions formulé en 2003), ont été publiés au début de l'année 2005. Plus récemment nous nous sommes intéressés aux maladies à prions (maladie de la vache folle) et nous avons exploré l'hypothèse d'une transmission par un vecteur, par exemple un parasite à multiplication intracellulaire dans le tissus nerveux.

Ainsi, les travaux de l'Unité de Génétique des Génomes Bactériens (GGB) ont pour objectif principal de comprendre comment les gènes bactériens fonctionnent collectivement. C'est à cette fin que nous avions conçu, dès1986, le projet de séquencer le génome d'une bactérie en entier, et proposé l'année suivante la mise en place du projet de séquençage du génome de Bacillus subtilis (les raisons scientifiques de ce projet et les péripéties de sa mise en œuvre sont détaillées dans La Barque de Delphes, 1998, et pour une mise à jour adaptée à un public anglo-américain, The Delphic Boat, Harvard University Press, 2003 [1]). L'accomplissement de ce projet a duré dix ans et a constitué l'objectif majeur des travaux de l'Unité de Régulation de l'Expression Génétique (REG) de l'Institut Pasteur, close fin 2000. L'Unité assurait la coordination scientifique du programme, au sein d'un consortium associant l'Europe et le Japon, via la mise à disposition de la communauté internationale de l'ensemble des résultats du séquençage entre 1986 et 1998, grâce au soutien d'une série de contrats financés par l'Union Européenne. Pour développer de nouveaux thèmes de recherche, centrés sur la génétique des génomes, une nouvelle Unité de Recherche de l'Institut Pasteur (GGB) était constituée, au sein de l'URA2171. Un premier travail, mené en parallèle avec la création du HKU-Pasteur Research Centre à Hong Kong (2000-2003) s'est poursuivi jusqu'à présent par un ensemble d'études de génomique fonctionnelle chez B. subtilis, toujours en collaboration avec le Japon, qui a culminé par la définition de l'ensemble des gènes essentiels de l'organisme, à la suite de l'inactivation successive de tous ses gènes.

La création de l'Unité de Génétique des Génomes Bactériens, en l'an 2000, visait à exploiter la mine d'information que représente la connaissance complète des génomes, avec un objectif précis constitué peu à peu au cours du programme de séquençage, celui de comprendre le lien qui existe entre l'architecture des génomes et l'architecture cellulaire. Ce lien repose sur la conjecture simple qu'en première approximation on peut considérer les cellules comme organisant des procédures algorithmiques. Elles sont en quelque sorte des machines de Turing (l'ancêtre formel des ordinateurs). Mais comme ces machines de Turing vivantes produisent des machines semblables, elles ont à faire face à un paradoxe noté par von Neumann, qui leur impose de comprendre, quelque part dans leur organisation, une image de la machine. Il est donc naturel de rechercher si cette image ne se trouve pas dans le génome lui-même. Cette conjecture constituait donc en soi un programme de recherche, qui permet d'organiser les données de la génomique en un ensemble cohérent. Bien entendu il n'était pas question de considérer cette hypothèse de travail comme autre chose qu'une conjecture. Pourtant, au fur et à mesure que nous avançons dans notre connaissance des génomes, la conjecture prend de plus en plus de réalité. L'objectif des travaux de l'Unité reste de l'explorer en combinant systématiquement des expériences in vivo et in silico. L'objet expérimental précis est simple : découvrir des règles d'organisation génétique dans les génomes bactériens, d'une part (analyse in silico des génomes et de leur expression), et, d'autre part, identifier les contraintes sélectives qui conduisent à cette organisation (analyse expérimentale, génétique, physiologique et biochimique). L'Unité est donc systématiquement organisée, comme par le passé, sous la forme d'une collaboration interne entre des expérimentateurs à l'ordinateur, et des expérimentateurs à la paillasse, le directeur de l'Unité assurant le dialogue constant entre ces deux facettes d'une même recherche.