A probabilistic approach for genome assembly from high-throughput chromosome conformation capture data - Sorbonne Université
Thèse Année : 2013

A probabilistic approach for genome assembly from high-throughput chromosome conformation capture data

Une approche probabiliste pour l'assemblage de génomes à partir de données de capture de conformation de chromosomes à haut débit

Résumé

High throughput DNA sequencing technologies are fuelling an accelerating trend to assemble genomes de novo or to complete unfinished assemblies of previously sequenced genomes. Unfortunately, common DNA sequencing technology is limited to reading stretches of a few hundreds or thousands of base pairs only. Therefore, computational methods are needed to assemble entire genomes from large numbers of short DNA strands. However, standard algorithms that piece together DNA strands with overlapping sequences face important limitations due, for example, to regions of repeated sequences, thus leaving many genome assemblies incomplete (Alkan et al., 2011 [2]). We set out to develop a new methodology for genome assembly that promises to address some of these limitations. The method is based on Hi-C, a recent biochemical technique initially developed to analyse the 3D architecture of genomes (Lieberman-Aiden et al., 2009 [78]). In Hi-C experiments, DNA is crosslinked, cut by restriction enzymes, then diluted and religated. In standard Hi-C studies, a previously assembled genome is used to identify chimeric sequences among the ligation products, and map them to pairs of chromosomal loci, thereby yielding a genome-wide matrix of contact frequencies (Cournac et al., 2012 [27]). Our method essentially reverses this approach: Hi-C data are used to test for the physical continuity of the chromatin fibre as expected from a set of DNA segments (representing either a complete or incomplete chromosomal set). Physical-interactions aberrations in the contact matrix reveal structural incongruity, and lead to the reordering of chromosomal segments with respect to the physical properties and continuity of the fibre. This procedure improves genome assembly and/or identification of structural variants in re-sequenced genomes. Our approach uses a probabilistic (Bayesian) framework that assigns probabilities to different assemblies based on the experimental Hi-C data and on laws describing the physical properties of chromosomes (Wong et al. [146]). We will explain the methodology and the developed algorithms and provide results of applications to simulated and real Hi-C data from mutant and natural structural variants of yeast and fungi (Marie-Nelly et al., in prep). We also have developed algorithm that allow us to identify functional sequences in genomes from genomewide contact matrices. Notably, we annotated the centromeric position of the Naumovozyma castellii, an intriguing RNAi-containing yeast where centromere positions could not be determined with standard techniques (Marie-Nelly et al., submitted)
Les technologies de séquençage de l'ADN à haut débit alimentent une tendance croissante à l'assemblage de génomes de novo ou à l'achèvement d'assemblages inachevés de génomes déjà séquencés. Malheureusement, la technologie standard de séquençage de l'ADN est limitée à la lecture de tronçons de quelques centaines ou milliers de paires de bases seulement. Par conséquent, des méthodes informatiques sont nécessaires pour assembler des génomes entiers à partir d'un grand nombre de brins d'ADN courts. Cependant, les algorithmes standard qui assemblent des brins d'ADN dont les séquences se chevauchent se heurtent à d'importantes limitations dues, par exemple, aux régions de séquences répétées, ce qui laisse de nombreux assemblages de génomes incomplets (Alkan et al., 2011 [2]). Nous avons entrepris de développer une nouvelle méthodologie pour l'assemblage de génomes qui promet de répondre à certaines de ces limitations. La méthode est basée sur Hi-C, une technique biochimique récente initialement développée pour analyser l'architecture 3D des génomes (Lieberman-Aiden et al., 2009 [78]). Dans les expériences Hi-C, l'ADN est réticulé, coupé par des enzymes de restriction, puis dilué et religé. Dans les études Hi-C standard, un génome préalablement assemblé est utilisé pour identifier les séquences chimériques parmi les produits de ligature, et les cartographier à des paires de loci chromosomiques, produisant ainsi une matrice de fréquences de contact à l'échelle du génome (Cournac et al., 2012 [27]). Notre méthode inverse essentiellement cette approche : Les données Hi-C sont utilisées pour tester la continuité physique de la fibre chromatinienne telle qu'attendue à partir d'un ensemble de segments d'ADN (représentant un ensemble chromosomique complet ou incomplet). Les aberrations des interactions physiques dans la matrice de contact révèlent une incongruité structurelle, et conduisent à la réorganisation des segments chromosomiques par rapport aux propriétés physiques et à la continuité de la fibre. Cette procédure améliore l'assemblage des génomes et/ou l'identification des variants structurels dans les génomes reséquencés. Notre approche utilise un cadre probabiliste (bayésien) qui attribue des probabilités aux différents assemblages en se basant sur les données expérimentales Hi-C et sur des lois décrivant les propriétés physiques des chromosomes (Wong et al. [146]). Nous expliquerons la méthodologie et les algorithmes développés et fournirons des résultats d'applications à des données Hi-C simulées et réelles provenant de mutants et de variantes structurelles naturelles de levures et de champignons (Marie-Nelly et al., en préparation). Nous avons également développé un algorithme qui nous permet d'identifier des séquences fonctionnelles dans les génomes à partir de matrices de contact à l'échelle du génome. Notamment, nous avons annoté la position centromérique de la Naumovozyma castellii, une levure intrigante contenant de l'ARNi où la position des centromères n'a pas pu être déterminée avec les techniques standard (Marie-Nelly et al., soumis).
Fichier principal
Vignette du fichier
Marie-Nelly - PhD HiC scaffolding.pdf (34.05 Mo) Télécharger le fichier
Origine Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-03822543 , version 1 (20-10-2022)

Identifiants

  • HAL Id : tel-03822543 , version 1

Citer

Hervé Marie-Nelly. A probabilistic approach for genome assembly from high-throughput chromosome conformation capture data. Genomics [q-bio.GN]. Université Pierre & Marie Curie - Paris 6, 2013. English. ⟨NNT : ⟩. ⟨tel-03822543⟩
35 Consultations
11 Téléchargements

Partager

More