En juin 2000, un consortium public regroupant 20 laboratoires de six pays annonça le séquençage de 90 % du génome humain [1] sous forme d’un arrangement encore imparfait (working draft) de plus de 150000 segments (contigs) d’une longueur médiane de près de 90000 paires de bases (pb) et positionnés entre eux, par chromosome, sur la base d’informations de proximité [2] ((→) m/s 2001, n° 3, p. 309). Cette première esquisse constituait une avancée considérable, notamment en servant de support à la recherche des gènes responsables de maladies génétiques. Restait à accomplir une tâche de « finition », tout aussi capitale, visant à déterminer la séquence manquante entre les contigs, puis à assurer en tout point un niveau strict de qualité. Cette étape, déjà accomplie pour les trois plus petits chromosomes, 22, 21 puis 20 [3-5], devrait être complétée pour les suivants au cours de cette année. Disposer d’une séquence finie et fiable reste essentiel pour nombre d’analyses fines du génome, et en particulier pour une description détaillée des gènes, de leurs mécanismes d’action et de régulation. Le Genoscope (Centre national de séquençage) a apporté sa contribution à cet effort international en publiant récemment [6] la séquence complète et l’analyse du chromosome 14, de taille intermédiaire. Pour établir la séquence des chromosomes, une procédure hiérarchisée a été utilisée, qui a nécessité une fragmentation préalable du génome en segments chevauchants, d’une taille manipulable (150-200 kb), clonés dans un vecteur BAC (bacterial artificialchromosome). Les BAC d’intérêt sont ensuite sélectionnés dans cette collection, riche de plus de 900000 clones. Chaque clone est alors soumis individuellement à une nouvelle fragmentation visant à déterminer la séquence du segment qu’il représente (Figure 1 D, E, F), laquelle prendra place au sein d’une reconstitution de l’ensemble. Pour le chromosome 14, cette procédure a été répétée sur 681 clones. La stratégie utilisée pour leur sélection [7] se distingue de celle qui avait été mise en oeuvre pour les autres chromosomes [8]. Plutôt que de nous engager dans un important effort préalable de cartographie, nous avons préféré débuter le processus d’acquisition de la séquence à partir de « balises » réparties le long du chromosome, puis d’utiliser ces données comme autant de points de départ d’une progression locale, bidirectionnelle et contrôlée (Figure 1 A, B, C), jusqu’à la fusion entre les groupes d’expansion adjacents. Un effort particulier, accompli pour résoudre les dernières lacunes récalcitrantes, a permis d’établir la séquence finale sous forme d’un continuum ininterrompu de 87410661 pb, s’étendant du centromère au télomère du bras long, et qui constitue, outre la plus longue séquence assemblée à ce jour, la première séquence complète d’un chromosome (Tableau I). Elle a nécessité plus de 1600000 réactions de séquençage. La cohérence de son assemblage a été vérifiée par comparaison avec la carte génétique de Généthon, puis avec d’autres collections de marqueurs. Pour atteindre un niveau plus fin de résolution, une procédure expérimentale automatisée a été développée, destinée à s’assurer de l’intégrité des clones sélectionnés et, à la fois, de la conformité de leur séquençage. La composition nucléotidique moyenne du chromosome 14 est proche de celle de l’ensemble du génome, avec un contenu moyen en (G+C) de 40,9 % [2], mais présente d’importantes variations locales de 32,6 à 61,2 % (pour des fenêtres de 50 kb). Les gènes s’étendent sur 43,6 % du chromosome 14, mais la somme de leurs exons n’en représentent que 2,3 %, pour un potentiel codant protéique de 1,1 %. Les séquences répétées, réparties essentiellement en SINE (type court, exemple « Alu ») et LINE (type long), représentent …
Parties annexes
Références
- 1. International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 2001; 409: 860-921.
- 2. Heilig R, Brüls T. Premiers regards sur la séquence du génome humain. Med Sci 2001; 17: 299-308.
- 3. Dunham I, Shimizu N, Roe Ba, et al. The DNA sequence of human chromosome 22. Nature 1999; 402: 489-95.
- 4. Hattori M, Fujiyama A, Taylor TD, et al. The DNA sequence of human chromosome 21. Nature 2000; 405: 311-9.
- 5. Deloukas P, Matthews LH, Ashurst J, et al. The DNA sequence and comparative analysis of human chromosome 20. Nature 2001; 414: 865-71.
- 6. Heilig R, Eckenberg R, Petit JL, et al. The DNA sequence and analysis of human chromosome 14. Nature 2003; 421: 601-7.
- 7. Brüls T, Gyapay G, Petit JL, et al. A physical map of human chromosome 14. Nature 2001; 409: 947-8.
- 8. The International Human Mapping Consortium. A physical map of the human genome. Nature 2001; 409: 934-41.
- 9. Roest Crollius H, Jaillon O, Bernot A, et al. Estimate of human gene number provided by genome-wide analysis using Tetraodon nigroviridis DNA sequence. Nat Genet 2000; 25: 235-8.
- 10. Roest Crollius H, Jaillon O. Le nombre des gènes dans le génome humain: les paris sont ouverts. Med Sci 2000; 16: 988-90.
- 11. Rowen L, Young J, Birditt B, et al. Analysis of the human neurexin genes: alternative splicing and the generation of protein diversity. Genomics 2002; 79: 587-97.