Diversité de communautés de reads et structure de nuages de points

Alain Franc (Inra Bordeaux)
Thursday, April 2, 2015 - 10:30
Room Minquiers
Talk abstract: 

P { margin-bottom: 0.21cm; }
Il y a une quarantaine d'années, la phytosociologie (étude des communautés de plantes) et le traitement des données (notramment l'AFC) se sont rapprochés, ainsi que la taxonomie et les méthodes de classification, pour construire ce qui est devenu l'écologie statistique. Les outils et méthodes, comme la dimension des tableaux de données, étaient de l'ordre de quelques centaines d'individus tout au plus, limités tant par le coût d'aquisition des données (organismes reconnus et inventoriés) que la puissance ds calculs. Quarante ans plus tard, le paysage a profondément changé. Les données sont devenues moléculaires, avec un coût d'acquisition faible pour des millions de specimens. De plus, les paradigmes biologiques liés à la diversité ont également changé, avec un rapprochement non achevé entre la génétique des populations et l'écologie des communautés, dans un cadre évolutif. Je présenterai une chaîne de traitement pour décrire et comprendre la structure de la diversité moleculaire en prenant comme exempe un ensemble de reads (un métagénome) issus d'un séquançage NGS sur amplicons (une même région), du marqueur rbcL, d'une communautés de diatomées. Le passage à l'échelle est en cours, et non abouti. C'est l'objet du travail présenté. Tout commence par une distance. La distance liée à l'alignement local de deux séquences a été choisie ici, avec un travail en parallèle sur les distances évolutives (âge de l'ancêtre commun le plus proche). Le lien entre distance ulamétrique et taxonomie est naturel. L'idée ancienne est de construire un nuage de points tels que leurs distances euclidiennes soient aussi proche que possible des distances génétiques. La construction de la matrice de distances, le traitement par multidimensional scaling, ou par classification, sont en compexité cubique ou quadratique vis à vis du jeu de données. Je présenterai quelques variants connus mais peu utilisés de la MDS, ainsi qu'un lien entre classification et composantes connexes de graphes induits par les matrices de distances, pour aller vers des méthodes de complexité linéaire avec la taille du jeu de données. Une idée est de ne travailler qu'avec des distances entre voisins, et non sur l'ensemble des paires possibles, et de disposer d'un algorithme en temps linéaire pour décider si deux séquences sont voisines ou non. Cette notion de voisinage permet de présenter un lien dont l'étude se développe depuis une dizaine d'années entre traitement de données et la géométrie des variétés. Une question abordée également est le choix de la dimension de l'espace de travail : une grande dimension permet des représentatons exactes, mais on tombe dans la malédiction de la dimension, et une dimension faible permet une bonne sécurité des algorithmes de classification par exemple, mais sur une image approchée du nuage de points. 

P { margin-bottom: 0.21cm; }
Alain Franc & al., Equipe Pleiade, INRIA, & UMR BioGeCo, INRA, Bordeaux