Extraction de k-mers génomiques dans des reads longs

Pierre Morisse
Thursday, December 7, 2017 - 10:30
Room Minquiers
Talk abstract: 

Les méthodes modernes de correction de reads longs, qu'elles soient hybrides ou non, reposent davantage sur l'utilisation de graphes de de Bruijn, plutôt que sur de multiples alignements. Dans le cas hybride, un graphe de de Bruijn fiable peut facilement être construit à partir des k-mers des reads courts. Cependant, dans le cas de l'auto-correction, construire un graphe fiable uniquement à partir des reads longs est difficile, notamment dans le cas des données Oxford Nanopore, qui sont très bruitées. En effet, à cause de leur fort taux d'erreur, une simple étude de fréquence des k-mers des reads longs ne permet pas de différencier les k-mers génomiques des k-mers contenant des erreurs de séquençage. Nous introduisons donc une nouvelle approche, visant à simuler de potentielles corrections aux erreurs d'insertions et de suppressions présentes dans les reads longs, lors de l'extraction des k-mers, afin de permettre de différencier les k-mers génomiques des k-mers contenant des erreurs.Nous nous penchons ensuite sur les mots minimaux absents des reads longs et en soulignons une propriété intéressante. Nous étudions une approche utilisant ces mots minimaux absents, et cette propriété particulière, afin de tenter d'identifier les k-mers génomique dans un ensemble de k-mers. Nous donnons également quelques pistes restant à explorer pour la correction, mais également pour l'assemblage, de reads longs avec ces mots minimaux absents.