Génomes et informatique au CNRS, 1995

Ce sont toujours les aventuriers qui font de grandes choses, et non pas les souverains des grands empires.

Pensées - 7.
Montesquieu

Contenu

Thèmes reliés

Genèse de la génomique 1988 (en anglais)
In silico 1989
Bases de données
Notre participation
Le génome humain
Le vaisseau de Thésée
La cascade Toll
Glossaire

Monographies

The methionine salvage pathway
Sulfur metabolism
The H-NS regulator

In memoriam

Frank Kunst
Piotr Slonimski

Le GDR 1029 Informatique et Génomes (1992)

Introduction au bilan de son activité au 30 juin 1995
par Antoine Danchin (co-directeur du GDR avec François Rechenmann)

Lorsqu'ont été conçus les premiers programme de séquençage de génomes entiers, la nécessité d'une infrastructure très importante en capacités de calcul et en algorithmique n'était pas prise en compte. La création du GDR 1029, qui demanda un très long travail en raison de l'incompréhension générale, est le fruit d'une réflexion centrale à ce sujet.

Le rapport d'activité ici présenté a été précédé d'un Rapport d'activité 1992 et programme scientifique 1993 établi au début de l'année 1993, et d'un Rapport d'activité complémentaire établi en juin 1993. Il résumait la situation à l'époque, où la difficulté du séquençage de l'ADN était encore considérable (il fallait en effet le travail à temps plein d'une personne pour obtenir la séquence de 50 kilobases d'ADN, sans compter l'annotation fonctionnelle de cette séquence). Par ailleurs, on pensait alors que le génome humain devait comprendre un bien plus grand nombre de gènes (de deux à trois fois plus) que ce qu'on sait qu'il contient aujourd'hui.

Table des matières du rapport complet

Avant-propos
Introduction
Le GDR 1029
Manifestations organisées par le GDR 1029
- Journées des 7 et 8 octobre 1993 (Grenoble)
- Colloque international Informatique et Biologie
- Colloque-bilan des 19-20 juin 1995 (Paris)
Activité des groupes et équipes
- Groupes de travail
  - Recherche de motifs dans les gène et modélisation
  - Alignement et phylogénie
  - Structures secondaires et compression des séquences
  - Acquisition de connaissances biologiques
  - Aide à la découverte biologique
  - Recherche des parties codantes dans les séquence nucléotidiques eucaryotes
  - Modélisation des connaissances
  - Satisfaction de contraintes et biologie moléculaire
- Équipes
  - Acquisition et contrôle des séquences - Laboratoire de Chimie Bactérienne (Marseille)
  - Aide à la modélisation de structures 3D d'ARN - IBMC (Strasbourg)
  - Atelier de Bio-Informatique - Institut Curie (Paris)
  - Laboratoire de Biochimie - École Polytechnique (Saclay)

Introduction

Au moment où la séquence complète de deux génomes va paraître (ceux de Haemophilus influenzae et de Mycoplasma genitalium) il devient intéressant de se pencher sur la façon dont été conçues et organisées certaines recherches destinées à l’analyse des séquences génomiques, au travers des possibilités interdisciplinaires du CNRS. C’est ce que je vais faire dans cette brève introduction à l’activité du GDR 1029 où nous avons réuni, dans un même enthousiasme commun, des chercheurs motivés par des recherches bien différentes, en informatique d'abord, mais aussi en mathématique et statistique, et bien sûr en génétique.

Lorsqu’en 1985 j’ai commencé à m’intéresser à ce qu’on disait de certaines approches informatiques, en particulier de l’« intelligence artificielle », je me suis demandé s’il ne s’agissait là que d'un effet de mode, ou s'il y avait dans ce domaine possibilité d'une collaboration fructueuse entre informaticiens et biologistes. Il existait bien sûr à cette époque toute une communauté de biologistes, de statisticiens ou d'informaticiens qui collaboraient parfois depuis de nombreuses années, mais il n'existait pas encore — en dehors du domaine très intéressant mais très spécialisé de la biologie structurale — de vrai thème unificateur qui demandât une collaboration à grande échelle entre informaticiens et biologistes. C'est à cette époque cependant que les premières réflexions sur le séquençage de grandes régions d'ADN commencèrent à se faire jour.

Afin de mettre à l'épreuve une approche de type « intelligence artificielle », je profitai d'une rencontre avec Olivier Gascuel, alors impliqué dans la conception de systèmes experts pour la médecine, pour préciser un problème intéressant de génétique moléculaire. Il s'agissait pour nous de tenter de caractériser finement les contraintes de la sécrétion des protéines présentes au sein de leur « peptide signal ». Les résultats que nous obtinrent à l'époque me convainquirent du très grand interêt des approches de type « intelligence artificielle » et plus généralement d’une collaboration entre informaticiens et généticiens. Par ailleurs cela me permit de constater combien les expertises des deux domaines sont différentes et complémentaires, et donc de penser qu'il serait très intéressant de mettre ensemble, en respectant à égalité les compétences des deux disciplines, l’informatique et la biologie. Pour cela il fallait un thème de recherche commun.

À la fin de l'année 1986 j'entrepris donc de persuader les différents organismes bailleurs de fonds et organisateurs de la recherche du bien fondé de la mise en place de projets de séquençage de génomes bactériens complets. En 1987 paraissait la première carte physique détaillée du génome du colibacille (Escherichia coli) et le bruit courait que deux groupes Américains allaient determiner la séquence complète du génome correspondant en moins de trois ans. Je proposai donc deux hypothèses de travail : le séquençage du génome de la bactérie parasite intracellulaire, responsable de la majeure partie des infections sexuellement transmissibles et de la cécité de certaines populations du tiers monde, Chlamydia trachomatis, et le séquençage du génome d'une bactérie du sol, Bacillus subtilis, modèle des organismes à Gram positif, et très utilisé en industrie agro-alimentaire. En parallèle je constituai les éléments d'un dossier pour l'organisation de la collaboration entre informaticiens et biologistes (Groupement Scientifique, GS, Groupement de Recherche, GR puis GDR), à partir des noyaux existant en France, en particulier à Montpellier, à Lyon et à l'Institut Curie à Paris, en centrant cette collaboration sur les deux projets de séquençage les plus plausibles, celui de la levure, autour du Centre de Génétique Moléculaire de Gif sur Yvette, et celui de xx à l'Institut Pasteur. Ce n'est pas le lieu ici de décrire les nombreuses péripéties des tentatives de mise en place de ces deux projets à l'échelle française puis à l'échelle européenne. De fait le projet de séquençage du génome de Bacillus subtilis fut soutenu par l’Institut Pasteur, seul d'abord, puis, de façon intermittente par les Commissions des Communautés Européennes (qui me demandèrent un rapport général sur ces projets, et leur lien avec l'informatique, publié par la CEE en 1989), en parallèle avec l'initiative européenne organisée par André Goffeau et centrée sur le séquençage du chromosome III, puis du génome complet de la levure de boulanger, Sacharomyces cerevisiae.

C’est finalement en avril 1992 que le GDR 1029, Informatique et Génome, a été créé dans un contexte où de grandes orientations scientifiques pluridisciplinaires (les PIR) avaient été organisées d'ailleurs 1991, expliquant ainsi le rôle du PIR IMABIO, à l'interface entre les départements SPI et SDV dans IMABIO avait fait un premier effort en demandant à une équipe du Centre de Recherche en Informatique de Montpellier, impliqué depuis de longues années dans des recherches liées à la biologie moléculaire, de mettre en place les premiers éléments d'un réseau de connexions informatiques entre les laboratoires qui souhaitaient se constituer en GDR. Il existait à cette époque un effort parallèle, mis en place par la direction de la recherche et des études doctorales du Ministère de l'Éducation Nationale pour valoriser les personnels et moyens de calcul universitaires au travers d'une interaction féconde avec la génétique. Pour cela plusieurs rencontres de formation d'informaticiens par les généticiens avaient été organisées. Deux d'entre elles furent soutenues sous la forme d'« Écoles IMABIO ». Comme la communauté concernée est finie, il est tout à fait clair que les mêmes personnes étaient intéressées par la création du GDR, destiné à rendre plus stable (pour quatre ans) une activité interdisciplinaire émergente.

L'action du GDR a donc été la suivante.

Tout d'abord, il a fallu renforcer le potentiel de communication des équipesen particulier de celles qui étaient isolées (par exemple Besançon) ou sous-équipées. Une fraction importante des fonds alloués initialement (reçus le 1^er décembre 1992) a donc permis d'équiper une dizaine de laboratoires au début de l’année 1993.

Mais dès la mi-92 s'organisaient les premiers groupes thématiques, dont l'activité a été résumée dans un premier rapport (paru à l'automne 1993, en parallèle avec une publication dans une revue à comité de lecture international). Une réunion pleinière du GDR rassemblait une centaine de participants à Grenoble et dégageait les lignes de ce qui allait devenir un ensemble de thèmes émergents (recherche de motifs dans les séquences, phylogénie moléculaire, et modélisation et acquisition des connaissances), organisés en plusieurs groupes thématiques, correspondant aux affinités personnelles et géographiques des différents participants. En parallèle avec les groupes structurés, réunissant presque toujours les mêmes personnes, plusieurs chercheurs, soit isolés, soit en petites associations, se joignirent régulièrement à tel ou tel groupe. Le compte rendu de l’activité correspondante se trouve dans le rapport joint et sur le World Wide Web :

http://cosmos.imag.fr/GDR-INFOGENOMES/GDR-home.html

Un deuxième aspect du rôle du GDR était de promouvoir les contacts entre équipes géographiquement ou thématiquement distantes, en particulier par l’échange de longue durée, ou de façon répétée, de jeunes chercheurs. Cela a été réalisé dans plusieurs cas, avec des échanges de plusieurs mois, de chercheurs qui ont accepté de s'éloigner de leur résidence pendant ce temps. Cet aspect du fonctionnement du GDR est à ce jour encore en activité. Il va de soi qu'on ne pouvait s'attendre à ce qu'il s'agisse d'un échange généralisé mais l'expérience montre que cela a conduit à des collaborations très efficaces, et qui se sont poursuivies (Toulouse / Strasbourg ; Montpellier / Gif ; Montpellier / Paris ; Paris / Grenoble et Gif / Marseille).

Il est apparu rapidement que le contact entre informaticiens et généticiens nécessitait une formation réciproque régulière, et pour cette raison nous avons organisé des actions de formation. Pour ne pas grever les finances du GDR (voir rapport financier) nous avons cherché à obtenir, et obtenu, un contrat auprès du GREG qui nous a permis de financer l'activité correspondante.

Au cours d'une réunion intermédiaire du Conseil Scientifique du GDR il nous a été demandé de replacer son activité dans le contexte international. C'était une suggestion très bienvenue puisque les activités "Séquençage des Génomes Entiers" se développent rapidement à travers le monde. Une réunion, organisée à Lyon l'aide du Centre Jacques Cartier, a pu nous permettre de rencontrer quelques uns des acteurs principaux des recherches en Informatique et Génome dans le monde (compte-rendu joint). Par ailleurs le GDR a aidé un certain nombre de chercheurs à présenter leurs résultats au cours de réunions internationales spécialisées dans le domaine de l'informatique appliquée à la biologie moléculaire. J'ai, quant à moi (toujours sur mes crédits propres), participé à un nombre très significatif de réunions internationales consacrées à l'étude des génomes modèles. Et, de façon amusante, cette participation est aujourd'hui rendue visible par l'usage qui se généralise dans le monde entier de l'expression "analyse in silico", faisant reférence à l'usage des ordinateurs en génétique moléculaire. Cette image, que j'ai proposée il y a quelques années est désormais utilisée jusque dans les appels d'offres internationaux (voir le nouvel appel d'offre 'Biotechnology', de l'Union Européenne). Nous souhaitons donner à une dernière réunion du GDR (en octobre) un caractère international, en invitant deux chercheurs étrangers à participer aux travaux. Cette réunion devrait être centrée sur un projet autonome de séquençage d'un génome complet.

Leçons à tirer

Il était apparu, au moment de la création du GDR, une certaine inquiétude manifestée par la cornmunauté des informaticiens, qui pensaient risquer de n'être pas reconnus comme les pairs des chercheurs en génétique, mais comme des prestataires de service. Pour cette raison j'ai initialement mis l'accent sur les demandes spécifiques de la communauté des informaticiens. Cela se reflète dans la nature des groupes thématiques, dans les soutiens pour participation aux congrès internationaux, et dans la formation. Il me paraît aujourd'hui difficile que les informaticiens, statisticiens ou mathématiciens se sentent perçus comme simples prestataires de service.

La contrepartie de cet accent mis sur la participation de la communauté non biologique, est que nous ressentons maintenant un manque significatif de participants du côté des généticiens à l'effort de ce qui a été l'activité du GDR. En fait, il est aujourd'hui particulièrement nécessaire de conceptualiser, en généticiens, les résultats obtenus par nos collègues. L'intégration s'est généralement très bien faite, en revanche, dans le cas de la modélisation des connaissances, parce que les informaticiens avaient besoin, dès le départ, d'écouter les questions biologiques, et de tenter de les comprendre, pour les conceptualiser. Il me semble donc qu'à l’issue de la période d'activité du GDR, il faudra se tourner vers la communauté des généticiens pour identifier de nouveaux groupes qui pourraient participer activement à l'interaction avec informaticiens, mathématiciens et statisticiens.

Il a existé un domaine, pour lequel on attendait une interaction positive avec des informaticiens, et qui a été très peu représenté. C'est celui de l'acquisition des données (gels de séquence, puis gels de protéines à deux dimensions). Il s'agit du domaine sans doute le plus proche de l'instrumentation que pouvait couvrir le GDR. Et il me semble qu'il serait sans doute utile d'être incitatifs dans ce domaine.

Enfin, s'il y a eu un certain "effet de mode" dans l’intérêt manifesté par les informaticiens au moment de la création du GDR, cet effet a disparu aujourd'hui et n'existe plus dans les groupes thématiques actifs. La plupart des groupes existants donneront lieu à des collaborations stables, pourvu qu'ils puissent avoir les moyens financiers leur permettant de se réunir (rappelons la très grande dispersion géographique des membres du GDR). Par ailleurs plusieurs groupes ont constitué une masse critique suffisante pour devenir des partenaires importants au moment où il faut répondre à des appels d'offres internationaux. L'histoire montrera, au travers de l'obtention des contrats correspondants, quelle fut l'utilité du GDR dans les domaines correspondants.

Adresse du serveur WWW du GDR 1029 Informatique et Génomes

http://cosmos.imag.fr/GDR-INFOGENOMES/GDR-home.html>

Le GDR 1029

Informatique et Génomes

A Danchin

Directeur du GDR

La création d'une interaction approfondie et suivie entre deux disciplines très différentes, l'informatique et la biologie, a été longue et difficile, en particulier en raison de la très grande différence culturelle entre les disciplines concernées. Pour éviter des ambiguïtés, et comme le thème central du GDR est un thème de biologie, il a semblé utile de donner la maîtrise de l'évaluation à l'informatique, de façon à souligner la complémentarité nécessaire des deux domaines, complémentarité qui exclut qu'une communauté soit au service de l'autre (pour fournir des données ou des programmes). Il est temps cependant, après trois années de fonctionnement, de donner une certaine priorité aux résultats obtenus en biologie : après tout, il s'agit, avec l'éclairage qu'apportent les informaticiens, de comprendre quelque chose à la biologie des génomes entiers !

Présentation générale

Il est aujourd'hui possible d'imaginer avoir accès à la connaissance chimique complète des organismes vivants. C'est un préalable à la compréhension de ce qu'est la vie, et de ce que représente la variété des organismes. L'autonomie des êtres vivants suppose la cohérence interne de leur patrimoine génétique, transmis de génération en génération sous la forme de molécules géantes, des Acides DésoxyriboNucléiques, faits de la répétition de quatre motifs de base, appelés nucléotides, selon un enchaînement semblable à celui d'un texte alphabétique. L'ensemble des règles fixées par la séquence de l'ADN, exprimées dans un contexte approprié, suffit à décider de leur survie et de leur reproduction. Le programme correspondant est de taille finie. Pour constituer un organisme vivant, le programme doit être exprimé sous la forme de molécules de classes chimiquement différentes, permettant le fonctionnement du métabolisme (c'est à dire l'ensemble des transformations chimiques qui à partir de l'environnement permettent d'édifier la cellule) et de la compartimentation entre un milieu intérieur et un milieu extérieur (fabrication de membranes et de peaux). Les réactions chimiques sont accélérées et rendues spécifiques (catalysées) par des macromolécules d'une classe différente de celle des acides nucléiques, les protéines. Celles-ci sont aussi un enchaînement linéaire, mais de vingt motifs de base et non plus de quatre, les acides aminés, et le fil correspondant se replie dans l'espace de façon à former une architecture spécifique de chaque séquence d'acides aminés, et responsable de la fonction.

Les règles de réécriture du patrimoine génétique (transcription et traduction locale des unités permettant la réalisation fonctionnelle du programme, les gènes), imposent, à partir de la mémoire que constitue l'ADN, la structure des effecteurs du métabolisme. Elles sont totalement incluses dans la suite (appelée séquence) des nucléotides et des acides aminés qui leur correspondent. Mais, loin de comporter comme une simple suite de nucléotides enchaînés qu'on pourrait comparer à une suite au hasard, tout ADN reflète l’histoire qui a pris en compte toutes sortes de contraintes et d'explorations de l'environnement. L'histoire reflète à la fois les contraintes de l'origine, et celles des fonctions acquises au cours de l'histoire. La récursivité qui a permis la genèse des êtres vivants actuels à partir d'un ancêtre commun provient de ce que c'est toujours le même mécanisme d'expression génétique qui conduit à la reproduction des individus de façon (presque) identique de génération en génération. En conséquence il n’est pas possible, comme cela a parfois été fait, de considérer l'information contenue dans la suite des nucléotides simplement par la probabilité de présence d’une certaine lettre à une certaine position, l'information à la Shannon. L'histoire doit se refléter par le sens des suites en question, obtenu par l'application de la récursivité du système de reproduction au cours d'un nombre immense de générations, le tout étant contrôlé par la sélection la plus brutale, celle de l'existence (seuls les individus qui ont une durée de vie assez longue se sont reproduits). Jusqu'à présent, l'aspect cohérent de l'information correspondante, fruit de l'histoire évolutive, est restée inaccessible, et l'on n'est pas vraiment en mesure d'identifier la nature des signaux qui dictent la mise en place diachronique ou architecturale des macromolécules conservant et exprimant le programme génétique. Cependant, grâce aux techniques nouvelles de séquençage de l'ADN, il est désormais possible d'avoir accès à la séquence totale gènes et des séquences de contrôle (le génome) d'un organisme.

Les projets qui ont été proposés supposent un travail considérable, aussi le choix des organismes a-t-il une très grande importance. Il convient, en particulier, d'avoir une idée de la façon dont sera exploitée i'information que véhiculent ces génomes et, par conséquent, de la nature de cette information. Trois milliards de paires de bases répartis en 46 chromosomes : c'est, par exemple, la séquence qu'il faudra déterminer si l'on veut atteindre une connaissance descriptive complète du génome humain. Or, même l'identification des fragments de ce génome que sont les gènes exprimés chez un mammifère est difficile. Leur nombre varie de 50 000 à 100 000 selon les auteurs, ce qui correspond à 100 000 000 de paires de bases, 3% de la longueur du génome environ. Dans ces génomes, il existe aussi de nombreuses particularités exprimant le résultat de l'histoire évolutive, des mécanismes de la recombinaison et de la réparation des erreurs de réplication et de la formation de structures compatibles avec le repliement des chromosomes au sein du noyau cellulaire. Par ailleurs, il n'y a pas colinéarité entre un gène et le messager qu'il spécifie, en raison de la présence d'encarts, appelés introns, séparant zones codantes, ou exons : un messager d'un millier de bases peut être codé par un fragment d'ADN qui peut atteindre des dizaines, des centaines, voire un millier de kilopaires de bases. Ainsi, dans beaucoup de cas, un exon qui peut être très court (quelques paires de bases), peut être noyé au milieu d'un océan d'introns : la détermination de la séquence d'un fragment d'ADN, même long, peut se revéler très insuffisante pour définir le gène qu'il spécifie. Au delà des difficultés inhérentes à ce mode de construction modulaire s'ajoute celle de caractériser ce qu'est, au niveau microscopique, un génome humain. Du fait de la variabilité génétique des populations humaines, il existe un polymorphisme très grand dans les séquences génomiques des individus, y compris chez un individu lorsqu'on considère la même région d'un chromosome maternel et de sa contrepartie paternelle. Cela signifie que la détermination de la structure du génome humain ne pourra qu'être celle de la structure d'un génome artificiel, mosaïque composée à partir de données provenant de nombreux individus. Ainsi, au moins 95% de la séquence de ces génomes correspond à des "archives", traces du passé inutilisées actuellement, mais qui, parce qu'elles ne représentent pas une "charge" trop lourde, sont conservées au cours des temps. Il sera par essence difficile de distinguer ce qui revient aux erreurs expérimentales et seulement une variation habituelle. Ainsi, ce qui n'est pas un encombrement rédhibitoire pour un génome le deviendra sans aucun doute pour l'exploitation informatique. Il semble donc qu'il soit essentiel de choisir d'abord des organismes dont le génome est aussi compact que possible ou, dans l'idée d'explorer le génome humain dans son ensemble, dont la cohérence soit biologiquement significative.

Ainsi, à moins de vouloir simplement réaliser un exploit technique, ce qui nous intéresse souvent, plus que la séquence proprement dite d'un génome, sont les entités genétiques élémentaires responsables de la vie cellulaire. Il existe 250 types cellulaires chez un mamrnifère comme l'homme, et faire l'inventaire des ARN messagers, supports des protéines responsables de la vie cellulaire, serait une ambition à la fois plus prometteuse, puisqu'elle donnerait accès directement au produit des gènes, et plus réaliste, puisque, bien souvent, moins de 10 000 gènes sont exprimés dans un même type cellulaire. Il s'agit cependant d'un objectif qui ne conduirait qu'à une connaissance partielle du génome, puisqu'elle met de côté toutes les séquences qui sont impliquées dans le contrôle de l'expression des gènes, et ne font pas partie de I'ARN messager correspondant. L'obtention de la séquence de ces messagers, à partir de la synthèse de leur ADN complémentaire, est un objectif du même ordre que celui de la détermination des séquences de génomes bactériens. Cela implique cependant la mise au point d'une technique de tri efficace permettant de séparer les classes de messagers en fonction de leur abondance dans la cellule. À partir de ces données, il sera possible de revenir à chacun des chromosomes et de placer par cartographie appropriée les gènes ainsi identifiés. Cela met en avant l'intérêt d'une cartographie physique des chromosomes, projet beaucoup plus accessible, au moins dans un premier temps, que le séquençage du génome lui-même. L'identification de la localisation précise des gènes responsables de pathologies diverses, pourrait avoir un grand intérêt si l'on envisage de développer des méthodes de thérapeutique somatique, (compte tenu, on I'espère, de critères éthiques). En tout état de cause, la connaissance du produit des gènes devrait permettre l'invention de méthodes thérapeutiques nouvelles (en particulier au travers d'une pharmacologie bien ciblée), ce qui est une motivation suffisante pour justifier l'étude du génome humain, qui ne serait autrement qu'un mammifère particulièrement mal adapté à la génétique. Mais depuis la fin de 1990 la réflexion a conduit à préférer l'étude des organismes dont on souhaiterait connaître génome en fonction des possibilités de leur analyse génétique et physiologique. En particulier l'accent a été mis sur les possibilités de validation des hypothèses faites lorsque l'on propose des fonctions ou des identifications de gènes, à partir de la détermination de leur séquence. La manière la plus efficace de faire cette validation est de réintroduire le gène modifié au sein de l'organisme à partir duquel il a été isolé. C'est ce qu'on appelle faire de la génétique inverse. Il est clair que cette opération n'est réalisable facilement que chez certains organismes, ce qui motive le choix de les étudier. En voici les principaux. Ils sont très voisins les uns des autres. Afin de diminuer l'importance des difficultés mentionnées plus haut (gènes morcelés, archives, polymorphisme) il est nécessaire de faire l'étude genétique d'un organisme dont on puisse contrôler le génotype en le rendant aussi homogène que possible. La souris de laboratoire, sous forme de lignées consanguines, a un génome voisin du génome humain (2,7 milliards de paires de bases), réparti en 40 chromosomes qu'on peut trier, autorisant alors la construction de banques de gènes spécifiques de chaque chromosome. Une raison supplémentaire justifie le recours à un animal de laboratoire. Étudier un gène suppose qu'on puisse analyser sa fonction et le contrôle de son expression. Cela se fait essentiellement au moyen des techniques de la génétique "inverse" où l'on remet au sein de l'organisme hôte le gène étudié sous forme défectueuse ou altérée, afin d'en comprendre le rôle. Malgré la lourdeur expérimentale que cela suppose et malgré le fait qu'on ne sache pas réaliser aisément une recombinaison au locus homologue, les constructions de souris transgéniques sont bien adaptées à des études de ce type, évidemment impossibles chez l'homme. Le modèle souris reste cependant un modèle encore inaccessible par sa taille aux techniques actuelles du séquençage de l'ADN.

Il existe des organismes plus simples chez lesquels l'analyse du génome devrait permettre la découverte des règles de la détermination embryonnaire et de la différenciation cellulaire. On a donc considéré la mouche drospophile, dont la génétique est bien connue depuis les travaux de TH Morgan. Son génome est d'environ un vingtième d'un génome mammifère ou 30 fois celui d'une bactérie comme le colibacille. Les stratégies de differenciation des animaux et des végétaux sont très dissemblables. On ne peut donc se contenter d'explorer les caractères spécifiques aux animaux, il faut aussi s'intéresser aux plantes. En particulier, tout ce qui relève de la photosynthèse, et des interactions entre le génome des chloroplastes (dont la séquence est déjà connue dans quelques cas, alors qu'il s'agit de génomes de longueur déjà très significative, de l'ordre de 100 kpb) et le noyau est d'un très grand intérêt, et spécifique du monde végétal. La crucifère Arabidopsis thaliana a un génome qui se réduit à une centaine de mégapaires de bases. Les premiers travaux concerneront la cartographie physique et l'identification de gènes importants sur la carte ainsi produite.

Chez les mammifères, les plantes ou les insectes un peu élaborés comme la mouche, si le plan général est conservé, son organisation fine, le nombre exact des cellules de chaque tissu varie d'un individu à l'autre. Pour cette raison, il a été proposé il y a une vingtaine d'année de rechercher un modèle de la différenciation où tout le patron de développement serait rigidement fixé. Caenorhabditis elegans, ver minuscule des sols, se prête bien à des études de ce type car, à l'état adulte, le nombre et la disposition de ses cellules est fixe, et le schéma temporel de leur differenciation (y compris la mort programmée de certaines d'entre elles) est absolument fixé par les gènes de l'organisme. Caenorhabditis elegans adulte mâle est composé de 1031 cellules et l'on connaît exactement la filiation de chacune d'entre elles depuis l'œuf fécondé. Le génome total du ver est formé de 100 mégapaires de bases environ auquelles s'ajoute le génome mitochondrial.

Le cas de la levure de boulanger, mis en place par la CEE, est un cas exemplaire. Alors que la rumeur internationale faisait état de nombreuses discussions à propos du séquençage du génome humain, A. Goffeau de I’Université de Louvain réussissait dès 1986 à convaincre nombre de ses collègues spécialistes de Saccharomyces cerevisiae de s'associer pour entreprendre le séquençage de cet organisme simple. Les motifs de ce choix étaient nombreux : S. cerevisiae est très bien connue génétiquement, elle est formée de 16 chromosomes et son génome total est d'environ 15 megapaires de bases. Par ailleurs, la levure se prête bien à la génétique inverse. Une association d'une quarantaine de laboratoires européens a conduit à déterminer la presque presque totalité de la séquence du chromosome III (320 kpb, correspondant à un peu plus d'une centaine de gènes) en 1990, et un projet de quatre années devrait conduire ces mêmes laboratoires, associés à quelques autres, à séquencer près du tiers du génome correspondant. D'ores et déjà, deux résultats très intéressants sont apparus. D'une part, le génome est très compact (il y a très peu d 'ADN redondant ou, en apparence, non signifiant). D'autre part, la moitié au moins des gènes correspondent à des protéines qui ne ressemblent à rien de connu (dans les banques de données, qui contiennent environ 40 Mpb d'ADN provenant d'organismes variés).

Les bactéries, enfin, sont les organismes qui semblent se prêter le mieux à l'étude. Leur génome est compact, et nous disposons d'informations génétiques nombreuses à leur sujet. Par ailleurs, elles ont un intérêt évident pour l'environnement, l'industrie ou la médecine. Enfin, elles peuvent être manipulées aisément. Le parangon bactérien est le colibacille, dont chromosome unique est formé de 4750 kpb. Plus de 1100 loci génétiques ont déjà été identifiés chez cette bactérie et très nombreux gènes en ont été séquencés (1500 kpb, début 1991). La taille moyenne d'un gène y est de 1000 paires bases environ, ce qui correspond à une protéine 300 acides aminés environ (chacun des vingt types d'acides aminés est codé par une suite trois bases, appelée codon). Cela donne donc une idée de la taille des banques de données spécifiques d'un génome comme celui du colibacille (quelques milliers d'entrées, avec un nombre appréciable de rubriques permettant la description du gène, les conditions de son expression, sa fonction, les caractère physico-chimiques de son produit, sa localisation dans la cellule, etc.). Il reste malheureusement un handicap spécifique pour l'étude du génome de cette bactérie : bien qu'elle soit possible, la génétique inverse ne s'y réalise que très laborieusement. Pour cette raison, il a été nécessaire de considérer une autre bactérie, pour laquelle la génétique inverse se réalise facilement, Bacillus subtilis, bactérie formant des spores. Son génome est moins bien connu que celui de E. coli. Mais plus de 700 gènes ont été localisés sur le chromosome, dont la longueur serait de 4000 kpb. Plus de 400 kbp d'ADN déjà séquencés existent dans les banques de données et un ensemble concerté de laboratoires aux États-Unis et en Europe collabore depuis de nombreuses années à son étude. Il convient de remarquer que, comme dans le cas de la levure, le séquençage "au hasard" de fragments du génome de B. subtilis a déjà révélé l'existence d'un très grand nombre de gènes (près de la moitié de ceux qui ont été identifiés) dont le produit ne s'apparente à aucun gène connu. Il s'agit d'une observation très remarquable, qui démontre que les approches génétiques classiques ont laissé de côté un pan immense de notre connaissance des organismes, dont nous n'aurions même pas soupçonné l'existence si nous n'avions commencé à mettre en place des projets de séquençage des grands génomes. Cela seul suffirait donc à justifier de tels projets. Il est clair que l'informatique pourrait apporter une contribution très importante dans l'identificaiton de la nature des gène en cause, question majeure de la génétique du XXIe siècle.

Organisation d'un réseau recherche informatique

Parmi les différents projets de séquençage de génomes entiers, certains permettent de connaître les règles de la structuration des acides nucléiques et des produits de leur traduction, les protéines. De plus l'histoire évolutive des êtres vivants devrait être particulièrement visible lorsqu'on aura la totalité des gènes permettant la vie d'une cellule. L'exploitation informatique correspondante sera particulièrement efficace dès qu'il sera possible de comparer pour des fonctions identiques des organismes phylogénétiquement éloignés. Ce qui n'est pas pour l'immédiat, du moins sous la forme de génomes entiers. Mais le grand nombre des gènes présents dans un même organisme et descendant d'un ancêtre commun est déjà assez grand pour permettre de comprendre certaines règles essentielles, à partir d'un seul génome. Les réflexions résumées plus haut conduisent aisément à penser que les génomes à étudier en priorité sont ceux pour lesquels la collecte d'un nombre important de séquences est réalisable rapidement. En France il s'agit de ceux de la levure Saccharomyces cerevisiae, d'Escherichia coli, de Bacillus subtilis et de Caenorhabditis elegans. L'acquisition et l'étude des séquences correspondantes ont constitué la base des données étudiées par les membres du GDR. On peut rappeler ici qu'il s'agit initialement et en première approximation du déchiffrage de textes écrits dans un alphabet à quatre lettres d'une longueur de quelques millions de lettres.

L'exploration des génomes demande une infrastructure conceptuelle originale en sciences de l'information. Il s'agit en effet d'intégrer un ensemble de connaissances disparates en vue de la prédiction des régulations, des structures et des fonctions non seulement des fragments de génomes que sont les gènes, mais aussi de leurs produits, obtenus par l'application de la règle de réécriture qui traduit des suites de codons (trois lettres consécutives, déterminées à partir d'un point de référence particulier) en suites écrites dans un alphabet à 20 lettres, les acides aminés. La cohérence de l'évolution qui a permis un ensemble immense d'essais et d'erreurs successifs pour arriver à un certain degré de perfection dans l'activité des protéines (en particulier de celles qu'on appelle les enzymes et qui possèdent une activité biochimique particulièrement spécifique) représente une information beaucoup plus riche que celle qu'on peut obtenir simplement par modification planifiée des gènes en laboratoire (mutagenèse localisée). Malheureusement, cette information, qui se trouve dans le texte des gènes est difficilement accessible (comme le sens d'une langue inconnue reste inaccessible sans traitement "intellligent"). On peut cependant tenter d'y avoir accès au moyen de techniques informatiques variées qui sont adaptées à l'étude des textes ou plus généralement à l'analyse des formes. Mais il y a aussi une question essentielle, très difficile, qui est au cœur de l'exploration : les fonctions biologiques des gènes sont encore loin d'être toutes explorées, et l'on se trouve donc souvent en présence de gènes inconnus, par leur structure et par leur fonction. Un apport essentiel de l'informatique est de proposer des heuristiques permettant d'approcher leur signification. En ce sens tous les éclairages apportant une aide à la découverte seront les bienvenus. Dans un certain nombre de cas il s'agit de mieux que des heuristiques, d'approches qui permettent l'exploration exhaustive des solutions à une représentation particuliére du génome.

Le GDR a tenté d'établir un réseau de collaboration efficace entre des équipes interessées par un même problème. Comme on l'a dit, le thème unificateur initial correspondait aux projets identifiés de séquençage de génomes entiers. Il ne s'agissait donc pas de fédérer l'ensemble de la recherche informatique liée aux différents projets de génétique et de biologie moléculaire des génomes, mais bien de réaliser une action concertée pour valoriser les connaissances accumulées au sein des projets de séquençage identifiés par la communauté internationale. Et ce seront les mêmes objets, issus de l'accumulation constante de nouvelles données, qui ont été sujets de l'éclairage apporté par les différentes approches informatiques. Il est à noter dès à présent que cette cohérence initiale devrait servir au GDR à disposer d'un certain mécanisme d'auto-évaluation, par comparaison des résultats obtenus par des méthodologies variées inventées par les chercheurs impliqués dans le projet : c'est là une caractéristique importante pour une structure très interdisciplinaire et dont l'activité est par conséquent difficile à évaluer. Nous espérons apporter en 1995 la preuve de l'efficacité de cette collaboration par la publication de travaux engageant collectivement plusieurs équipes cherchant à rendre compte, de façon différente et par leurs moyens propres, d'une même réalité.

À chaque niveau correspondent des questions spécifique à la fois pour les biologistes et pour les informaticiens, et une part active du rôle du GDR a été de favoriser la formation mutuelle des chercheurs. Le foisonnement des données, la complexité et la variété des connaissances que l'on a à leur propos sont autant de défis aux chercheurs de chacune des disciplines. Il faut insister ici sur le fait que les données rassemblées dans les projets de séquençage sont très nombreuses et variées, et que leur traitement demande donc des considérations d'échelle qui peuvent être critiques, même dans le cas d'approches relativement classiques. Le projet est par ailleurs par essence interdisciplinaire, en ce sens qu'il ne peut être envisagé à aucun moment qu'une des communautés soit au service de l'autre (les biologistes fournissant des données ou des questions, ou les informaticiens fournissant des programmes). Une part importante de la mise en place d'une collaboration efficace sera donc liée à l'information mutuelle des chercheurs qui devront interagir (ne serait-ce qu'au travers de la définition d'un vocabulaire commun). Son succès serait la démonstration qu'il est possible d'ouvrir de nouveaux champs de recherche à l'interface entre deux disciplines, et où l'association d'expertises, non hiérarchisée, conduit à la découverte. Le point sans doute central de cette interaction est que le retour à l'expérience, au travers de la construction d'objets artificiels (gènes et protéines) sera un moyen particulièrement puissant de validation à la fois des créations informatiques, et des créations biologiques. Il existe très peu de situations du même type, ayant le degré de généralité qui permette la manipulation in vitro des gènes. Et l'on peut à juste titre penser qu'aux approches habituelles de la biologie, expérimentation in vivo et in vitro, s'ajoutera la dimension nouvelle de l'expérimentation in silico.

HISTOIRE DE GENOMES (1992)