Université de Washington Les chercheurs de l’École de médecine ont joué un rôle clé dans plusieurs aspects d’une nouvelle collection de référence génomique représentant une plus grande diversité de la population humaine.
Les experts en génome de l’UW Medicine ont apporté d’importantes contributions scientifiques à un Instituts nationaux de la santé (NIH) Collection de référence du Human Genome Research Institute qui représente mieux la diversité génétique des populations mondiales.
Projet d’avancement du génome humain
En revanche, la référence du pangénome humain contient des données génomiques presque complètes de 47 personnes, représentant différentes populations dans le monde. Cela représente 94 génomes humains, puisque chaque personne porte deux copies, une de chaque parent.

Expansion continue et équité améliorée
Le projet de référence actuel sur le pangénome continuera d’être élargi pour inclure le séquençage et l’analyse de l’ADN de personnes provenant de diverses autres racines ancestrales et géographiques. À terme, une cohorte de plus de 350 participants permettra aux chercheurs de capturer les variantes génétiques les plus courantes, y compris celles qui ont été manquées auparavant parce qu’elles correspondent à des régions complexes.
Des résultats de recherche impressionnants
En reflétant les variations entre les populations humaines, la collection de référence de pangénomes devrait améliorer l’équité dans la recherche sur le génome humain. Les individus et les familles d’horizons plus variés pourraient bénéficier de nouvelles avancées cliniques basées sur la connaissance de la façon dont la variation génétique influence la santé humaine.
Les chercheurs font déjà des découvertes qui n’auraient pas été possibles grâce aux séquences de référence du génome humain précédentes.
Les études du projet sur le pangénome auxquelles les scientifiques de la faculté de médecine de l’Université de Washington ont apporté des contributions importantes étaient :
Rédaction de la référence du pangénome
Le rapport global du projet, « A draft human pangenome reference », est publié dans Nature. Eichler, un expert de l’évolution et de la variation du génome humain et de leur relation avec la maladie, figurait parmi les auteurs principaux. David Porubsky, Mitchell Vollger, William T. Harvey, Katherine M. Munson, Carl A. Baker, Kendra Hoekzema, Jennifer Kordusky et Alexandra P. Lewis, tous de son département, faisaient partie de l’équipe du projet.
Cet article examine les assemblages diploïdes de 47 individus. Les assemblages diploïdes montrent la séquence d’ADN d’une personne héritée des deux parents, tandis que seuls ceux d’un parent apparaissent dans les assemblages haploïdes. Les ensembles ont été évalués pour déterminer l’étendue de leur couverture, précision, et la fiabilité. Les assemblages se sont avérés presque complets (plus de 99%) et très précis au niveau structurel et des paires de bases. Les chercheurs ont noté que ces assemblages surpassaient les efforts antérieurs en matière de qualité d’assemblage, grâce à une technologie de séquençage de pointe et à des innovations analytiques.
En plus de vérifier les variantes connues, les assemblages ont également capturé de nouvelles variantes dans des régions structurellement complexes du génome. Ces régions étaient auparavant inaccessibles.
Défis et perspectives d’avenir
Les auteurs ont également souligné que la référence actuelle du pangénome est encore à l’état de projet et que de nombreux défis restent à relever pour construire et affiner cette référence.
Par exemple, les scientifiques prévoient de pousser vers un séquençage télomère à télomère ou bout à bout des chromosomes pour obtenir une image plus complète de la façon dont les gens diffèrent.
« Cela nous donnera une représentation plus complète de tous les types de variations humaines », ont-ils noté. Les chercheurs aimeraient également élargir le recrutement des sujets car les échantillons actuels sont insuffisants pour traduire l’étendue de la diversité de la population humaine.
Malgré ces limitations et d’autres, les chercheurs prévoient que l’optimisation de la collection de référence de pangénomes conduira rapidement à un grand nombre d’applications pour les scientifiques et les cliniciens.
Découvrir la variation dans l’ADN répétitif
En surmontant les obstacles précédents dans la cartographie des zones du génome contenant de grands segments de code ADN répété, ils ont pu pour la première fois repérer plus de variantes au niveau d’un seul nucléotide pour de nombreuses régions.
Cela conduit à une meilleure compréhension de comment, où et dans quelle mesure les mutations se produisent.
Ils ont découvert une densité élevée de variants mononucléotidiques dans les duplications segmentaires, par rapport aux régions uniques du génome. Ils ont également découvert que près d’un quart de cette augmentation était due à la copie de gènes vers de nouveaux emplacements dans le cadre d’un processus appelé « conversion de gènes interlocus ».
Les scientifiques ont créé une carte des points chauds qui étaient des emplacements privilégiés pour donner ou recevoir du matériel génétique. Ils ont également observé que, d’un point de vue évolutif, les zones de duplication segmentaire étaient légèrement plus anciennes que les autres parties du génome contenant des séquences uniques d’ADN. Cependant, cela n’a pas expliqué la densité accrue de variants à un seul nucléotide.
Fait intéressant, le nucléotide cytosine était plus susceptible de se convertir en guanine, et vice versa, dans les séquences dupliquées que ne l’étaient les conversions entre l’adénine et la thymine. (A, T, C et G sont les quatre produits chimiques qui composent l’alphabet du code ADN.)
« Ces propriétés mutationnelles distinctes aident à maintenir la teneur plus élevée en cytosine et en guanine des duplications segmentaires de l’ADN, par rapport à l’ADN unique », ont rapporté les chercheurs.
Les scientifiques ont découvert plus de 1,99 million de variants mononucléotidiques dans ces zones dupliquées et riches en gènes du génome humain, régions auparavant considérées comme illisibles.
« Une grande partie de cette nouvelle séquence a été découverte l’année dernière (dans le cadre du consortium T2T) dans des régions à nombre de copies variables où il y a beaucoup de différences entre les personnes », a déclaré Vollger. « Mon objectif dans ce dernier travail était d’examiner ces régions variables et de découvrir la diversité supplémentaire qui y existe et de commencer à la caractériser. »
Il a ajouté: «Selon la façon dont vous choisissez de compter, la plupart des variations humaines proviennent de ces régions variables de nombre de copies qui ne seront déverrouillées qu’à l’aide d’une référence de pangénome. Je pense qu’il est absolument essentiel que nous continuions à pousser la ressource pangénome afin que la communauté de la recherche scientifique et clinique commence à l’adopter.
Combler les lacunes dans les assemblages du génome humain
Un autre article faisant partie de la série du Human Pangenome Research Consortium apparaît dans la revue Genome Research, sous le titre « Gaps and complex structurally variant loci in phased genome assemblys ». L’auteur principal est David Porubsky, un instructeur par intérim en sciences du génome qui mène des études au laboratoire Eichler.
« La finition de plusieurs génomes est plus difficile », a déclaré Porubsky, « parce que les génomes humains sont diploïdes. Les gens portent deux copies d’un génome : celui hérité de la mère et celui hérité du père. La tâche est donc plus difficile. C’est pourquoi il reste des lacunes. Pour les résoudre, il faudra plus de développement dans la technologie de séquençage et plus de développement dans les algorithmes d’assemblage sous-jacents, que nous utilisons pour assembler toutes ces pièces.
Traditionnellement, il a été difficile pour les scientifiques de reconstruire séparément les séquences d’ADN pour les deux copies de nos 23 chromosomes, mais des progrès notables ont été réalisés.
Pour ce faire, les données de séquençage sont généralement obtenues des deux parents, ainsi que de l’enfant. Cependant, en milieu clinique, les données parentales ne sont pas toujours disponibles.
Porubsky, Eichler et leur équipe étudient une approche qui tente de produire un assemblage complet du génome montrant l’ensemble des gènes de chaque parent, mais sans obtenir de données parentales. Ils utilisent une méthode appelée séquençage de brin unicellulaire, ou Strand-seq.
L’équipe a découvert plusieurs raisons expliquant les lacunes des deux méthodes, y compris les zones où des portions d’ADN sont mal orientées. Beaucoup de ces orientations défectueuses sont liées à de grandes inversions, où les choses sont métamorphosées ou à l’envers. La plupart d’entre eux se produisent entre des répétitions identiques du code ADN. Il y avait également des discontinuités majeures d’alignement d’assemblage identifiées comme des régions d’ADN qui avaient subi des expansions et des contractions fréquentes. Il est important de noter que bon nombre de ces zones chevauchaient des gènes codant pour des protéines, y compris des zones présentant des variations dans le nombre de copies (combien de fois une section est répétée chez un individu par rapport à un autre).
« Ma tâche principale dans cet effort », a déclaré Porubsky, « était de mieux comprendre où nous manquons dans l’assemblage du génome, où se trouvent les lacunes restantes et comment les combler. Je cherchais où résident ces lacunes, leur fréquence et les propriétés de la séquence. Nous avons constaté que bon nombre de ces lacunes sont représentées par ces séquences très longues et très répétitives, qui sont difficiles à assembler avec les technologies et les algorithmes actuels. »
Orientations futures et pertinence biomédicale
« Nous sommes en fait mieux placés à l’avenir pour les résoudre », a déclaré Porubsky, « et en fait remplir ces pièces manquantes du puzzle et être en mesure de mieux comprendre le génome humain, même dans ces parties très complexes du génome humain. »
Ces régions contiennent des informations biomédicales pertinentes, a-t-il noté.
« C’est très important », a-t-il déclaré, « car bon nombre de ces parties complexes des génomes sont associées à des troubles génétiques, tels que certaines formes d’autisme et le syndrome de Prader-Willi. L’analyse de ces régions peut aider à l’avenir à mieux comprendre comment traiter et diagnostiquer ces troubles génétiques et à identifier peut-être de nouveaux troubles qui n’ont pas été identifiés.
« Une représentation pangénomique (de ces régions) serait très utile, mais plus difficile à réaliser », notent les chercheurs dans leur article.
Pour en savoir plus sur cette percée, voir :
- Référence du pangénome humain : une compréhension plus approfondie de la diversité génomique mondiale
- Une image parfaitement claire de la diversité génomique humaine
- Sortie de la nouvelle référence du pangénome humain
- Reconstituer le pangénome humain


