NouvellesNews

Séquençage du génome humain: le chromosome 14, quatrième chromosome terminéHuman genome sequencing: chromosome 14, the fourth finished chromosome[Record]

  • Roland Heilig and
  • Núria Fonknechten

…more information

  • Roland Heilig
    Genoscope,
    Centre National de Séquençage,
    2, rue Gaston Crémieux,
    CP 5706, 91057 Évry Cedex,
    France.
    heilig@genoscope.cns.fr

  • Núria Fonknechten
    Genoscope,
    Centre National de Séquençage,
    2, rue Gaston Crémieux,
    CP 5706, 91057 Évry Cedex,
    France.
    fonk@genoscope.cns.fr

En juin 2000, un consortium public regroupant 20 laboratoires de six pays annonça le séquençage de 90 % du génome humain [1] sous forme d’un arrangement encore imparfait (working draft) de plus de 150000 segments (contigs) d’une longueur médiane de près de 90000 paires de bases (pb) et positionnés entre eux, par chromosome, sur la base d’informations de proximité [2] ((→) m/s 2001, n° 3, p. 309). Cette première esquisse constituait une avancée considérable, notamment en servant de support à la recherche des gènes responsables de maladies génétiques. Restait à accomplir une tâche de « finition », tout aussi capitale, visant à déterminer la séquence manquante entre les contigs, puis à assurer en tout point un niveau strict de qualité. Cette étape, déjà accomplie pour les trois plus petits chromosomes, 22, 21 puis 20 [3-5], devrait être complétée pour les suivants au cours de cette année. Disposer d’une séquence finie et fiable reste essentiel pour nombre d’analyses fines du génome, et en particulier pour une description détaillée des gènes, de leurs mécanismes d’action et de régulation. Le Genoscope (Centre national de séquençage) a apporté sa contribution à cet effort international en publiant récemment [6] la séquence complète et l’analyse du chromosome 14, de taille intermédiaire. Pour établir la séquence des chromosomes, une procédure hiérarchisée a été utilisée, qui a nécessité une fragmentation préalable du génome en segments chevauchants, d’une taille manipulable (150-200 kb), clonés dans un vecteur BAC (bacterial artificialchromosome). Les BAC d’intérêt sont ensuite sélectionnés dans cette collection, riche de plus de 900000 clones. Chaque clone est alors soumis individuellement à une nouvelle fragmentation visant à déterminer la séquence du segment qu’il représente (Figure 1 D, E, F), laquelle prendra place au sein d’une reconstitution de l’ensemble. Pour le chromosome 14, cette procédure a été répétée sur 681 clones. La stratégie utilisée pour leur sélection [7] se distingue de celle qui avait été mise en oeuvre pour les autres chromosomes [8]. Plutôt que de nous engager dans un important effort préalable de cartographie, nous avons préféré débuter le processus d’acquisition de la séquence à partir de « balises » réparties le long du chromosome, puis d’utiliser ces données comme autant de points de départ d’une progression locale, bidirectionnelle et contrôlée (Figure 1 A, B, C), jusqu’à la fusion entre les groupes d’expansion adjacents. Un effort particulier, accompli pour résoudre les dernières lacunes récalcitrantes, a permis d’établir la séquence finale sous forme d’un continuum ininterrompu de 87410661 pb, s’étendant du centromère au télomère du bras long, et qui constitue, outre la plus longue séquence assemblée à ce jour, la première séquence complète d’un chromosome (Tableau I). Elle a nécessité plus de 1600000 réactions de séquençage. La cohérence de son assemblage a été vérifiée par comparaison avec la carte génétique de Généthon, puis avec d’autres collections de marqueurs. Pour atteindre un niveau plus fin de résolution, une procédure expérimentale automatisée a été développée, destinée à s’assurer de l’intégrité des clones sélectionnés et, à la fois, de la conformité de leur séquençage. La composition nucléotidique moyenne du chromosome 14 est proche de celle de l’ensemble du génome, avec un contenu moyen en (G+C) de 40,9 % [2], mais présente d’importantes variations locales de 32,6 à 61,2 % (pour des fenêtres de 50 kb). Les gènes s’étendent sur 43,6 % du chromosome 14, mais la somme de leurs exons n’en représentent que 2,3 %, pour un potentiel codant protéique de 1,1 %. Les séquences répétées, réparties essentiellement en SINE (type court, exemple « Alu ») et LINE (type long), représentent …

Appendices