Symbiose seminars

  • Apports de la génétique et de la génomique pour la conservation des populations de poissons anadromes

    Guillaume Evanno (Inra Rennes)
    Thursday, September 10, 2015 - 10:30
    Room Minquiers
    Talk abstract: 

    Les poissons anadromes tels que les saumons, aloses et lamproies se reproduisent en eau douce et les juvéniles effectuent une migration vers la mer où ils séjournent jusqu’à leur maturité sexuelle. La plupart de ces espèces sont en déclin suite à la dégradation de leur habitat et / ou à une surexploitation des stocks. En conséquence, de nombreux repeuplements à l’aide de diverses souches ont été effectués dans les populations sauvages. Nous avons utilisé des outils de génétique des populations pour 1) quantifier l’introgression des populations naturelles de saumon par les poissons de repeuplement et 2) délimiter des unités spatiales de conservation. Nous avons aussi étudié l’évolution de l’anadromie chez les lamproies et les truites car chez ces espèces, des formes (ou écotypes) résidentes en eau douces et d’autres migratrices anadromes, coexistent dans les mêmes cours d’eau. Les outils de séquençage NGS nous ont permis d’étudier la divergence génomique entre ces formes.

  • Towards a model-free classification of spindle elongation

    Yann Le Cunff (Irisa)
    Thursday, July 2, 2015 - 10:30
    Room Minquiers
    Talk abstract: 

    TBA

  • Mesurer la dispersion : que peuvent apporter les NGS ?

    Eric Petit (Inra Rennes)
    Thursday, June 25, 2015 - 10:30
    Room Minquiers
    Talk abstract: 
    La dispersion est un trait commun à  toutes les formes de vie, qui
    affecte tous les niveaux d'organisation du vivant, et est par ailleurs
    identifié comme étant fondamental dans la capacité des organismes à
    répondre aux changements globaux. Principal véhicule des flux de gènes,
    la dispersion peut être quantifiée à partir de l'observation de
    variations de fréquences alléliques. la diversité des patrons de
    dispersion sera illustrée à partir d'exemples pris chez les Mammifères,
    révélant la diversité des pressions de sélection qui peuvent agir sur ce
    trait. J'expliquerai et évaluerai ensuite, en m'appuyant sur des
    résultats de simulations, ce que les nouvelles technologies de
    séquençage peuvent apporter à l'étude de la dispersion.
  • A carefully tamed p-value is bioinformatician's most faithful friend

    Jacques Van Helden (Université d'Aix-Marseille)
    Friday, June 5, 2015 - 10:30
    Room Aurigny
    Talk abstract: 

    The p-value has recently been questioned in several publications. Halsey et al . (2015) argue that the wide sample-to-sample variability in the p-value is a major cause for the lack of reproducibility of published research. They propose to replace statistical testing by an inspection of confidence intervals around the estimated effect size. Even though the authors raise a relevant concern about the instability of statistical tests with small-sized samples, the p-value was taken as scapegoat for sins of other sources: limitation of sample sizes, misconception of the p-value, over-interpretation of the significance. The alleged fickleness of the p-value seems to boil down to a rephrasing of the well-known problem of small sample fluctuations.   Ironically, the proposed solution suffers from the same instability, since confidence intervals are computed from the same estimators (mean, standard deviation), and their extent depends on Student $t$ distribution. Thus, the proposed alternative — discounting the p-value and focusing on size effect and confidence intervals — offers no solution to the real sources of instability of the observations. Moreover, it would be of no use in bioinformatics, where a single analyse can encompass thousands, millions or billions of tests. In this article, I propose to combine several strategies to enforce the reliability and interpretability of statistical tests in the context of high-throughput data analysis: (i) inspecting p-values and derived statistics as continuous variables rather than setting an arbitrary cut-off; (ii) coupling the analysis of the actual datasets with in silico negative and positive controls; (iii) analyzing  the full empirical distributions of p-values; (iv) bootstrapping the samples. These approaches turn the usual difficulties raised by multiple testing into an advantage, by giving insight into the global properties of the datasets, thereby enabling a contextual interpretation of individual tests. I demonstrate that, when adequately treated and interpreted, p-values and derived statistics provide reliable tools to estimate not only the significance but also the robustness of the results.

    References
    Halsey,L.G., Curran-Everett,D., Vowler,S.L. and Drummond,G.B. (2015) The fickle P value generates irreproducible results. Nature Methods, 12, 179–185.
     
    Jacques van Helden
    Lab. Technological Advances for Genomics and Clinics (TAGC), INSERM Unit U1090, Aix-Marseille Université (AMU).

     

  • Neuroinformatics: from image analysis to genomics

    Olivier Colliot (ARAMIS Team)
    Thursday, June 4, 2015 - 10:30
    Room Aurigny
    Talk abstract: 


    The past 20 years have witnessed a tremendous development of both neuroimaging and genomic technologies, which have opened entirely new avenues to study neurological disorders.
    However, the complexity of the data generated by these techniques poses important challenges to computational and statistical analysis. The first part of this talk will focus on approaches for modeling brain structure from neuroimaging data, in order to build digital phenotypes of the patients. We will in particular focus on quantification of brain structures, deformation models and machine learning approaches for disease prediction. We will then review the main challenges associated to the integration of neuroimaging and genomic data.

     

    Olivier Colliot
    ARAMIS Laboratory, Paris, France - www.aramislab.fr
    CNRS, Inria, Inserm, Université Pierre et Marie Curie, Institut du Cerveau et de la Moelle épinière

  • Complexity in Genomic Patterns and Classification

    Somdatta Sinha (Indian Institute of Science Education and Research Mohali, India)
    Wednesday, May 27, 2015 - 14:00
    Room Minquiers
    Talk abstract: 

    Genomes are made of sequences of four nucleotides, A, T, C, and G.  Several processes such as mutation, transposition, recombination, translocation, and excision introduce variations in these sequences, which then become the substrates of selection and consequent evolution. Similarity in the liner composition of these letters in two sequences are commonly used as indicators of evolutionary closeness of two organisms. However, researchers  are increasingly looking at groups of letters (“words”), or different patterns of nucleotide sequences ("genomic signatures"), and have found that DNA of closely related organisms also have similar genomic signatures. This encourages us to look into the compositional properties of DNA sequences and their relevance to function and evolution. In this talk, I will discuss how these patterns can be used for alignment-free classification of very closely related DNA sequences using Chaos Game Representation (CGR). This points towards the role of higher order word structures carrying some meaning in the DNA language, and the interplay of complex word structures and biological information processing. Long range correlations are also known to exist in genomes at different length scales, and genome sequences have been shown to be multi-fractals. I will also show that the multi fractal properties of these DNA sequences can be used to classify very closely related organisms (sub and sub-subypes of HIV-1 strains). The questions to be explored are the origin of the compositional complexity in DNA, and its functional and evolutionary implications.

  • Design algorithmique de proteines, Optimisation Combinatoire et Comptage

    Thomas Schiex (Inra Toulouse)
    Thursday, May 21, 2015 - 10:30
    Room Minquiers
    Talk abstract: 

    Depuis une dizaine d'années, un nombre croissant de nouvelles protéines ont été créées en suivant un processus de conception semi-rationnel. Le but ultime du "Computational Protein Design"  est d'obtenir une séquence d'acides aminés qui se repliera selon une structure choisie. Le plus souvent, il s'agit d'obtenir une nouvelle enzyme, parfois, une nouvelle structure pour les nanotechnologies. Avec 20 acides aminés, l'espace des séquences est très combinatoire et son exploration systématique, voire "dirigée", par des voies expérimentales est peu efficace. Pour focaliser cette recherche, l'approche rationnelle consiste à modéliser la protéine comme un objet tridimensionnel soumis à des forces variées (internes, van der Waals, électrostatiques et interactions avec le milieu) et à rechercher une séquence la plus stable possible étant donnée un squelette fixé. Même avec des hypothèses simplificatrices fortes, c'est un problème d'optimisation combinatoire extrêmement difficile à modéliser, et à résoudre. Au cœur d'une grande partie des approches actuelles réside cependant un problème d'optimisation de formulation simple, avec un squelette rigide, une flexibilité des chaînes latérales représentées par une librairie de conformations (rotamères) et un champ d'énergie décomposable. Nous verrons que ce problème peut se modéliser mathématiquement dans une grande variété de formalismes usuels pour l'optimisation et que la programmation par contraintes pondérée (ou réseaux de fonctions de coûts) semble particulièrement efficace. Une brève introduction aux principaux outils algorithmiques utilisés dans ce domaine sera présentée.

  • Variant detection and assembly via maximal clique enumeration

    Alexander Schoenhuth (CWI)
    Thursday, April 30, 2015 - 10:30
    Room Minquiers
    Talk abstract: 
    Abstract: When searching for genetic variants in genomes or assembling them, the ploidy inherent to the organism can pose severe challenges. Often, techniques are desired that can assign reads to the haplotypes from which they stem. Here, we suggest to make use of overlap-like graphs where nodes represent reads and/or their alignments, and edges indicate, based on sound statistical considerations, that two reads may, sufficiently likely, stem from locally similar haplotypes. By varying the precise definition of the edges, we can identify maximal cliques in the graphs as either groups of reads that indicate single variants, or, alternatively (by a stricter edge definition), to indeed indicate that reads stem from sequentially locally identical haplotypes. We have implemented these two ideas in form of two algorithms, CLEVER and HaploClique, which we will discuss.
    
  • Diversité de communautés de reads et structure de nuages de points

    Alain Franc (Inra Bordeaux)
    Thursday, April 2, 2015 - 10:30
    Room Minquiers
    Talk abstract: 

    P { margin-bottom: 0.21cm; }
    Il y a une quarantaine d'années, la phytosociologie (étude des communautés de plantes) et le traitement des données (notramment l'AFC) se sont rapprochés, ainsi que la taxonomie et les méthodes de classification, pour construire ce qui est devenu l'écologie statistique. Les outils et méthodes, comme la dimension des tableaux de données, étaient de l'ordre de quelques centaines d'individus tout au plus, limités tant par le coût d'aquisition des données (organismes reconnus et inventoriés) que la puissance ds calculs. Quarante ans plus tard, le paysage a profondément changé. Les données sont devenues moléculaires, avec un coût d'acquisition faible pour des millions de specimens. De plus, les paradigmes biologiques liés à la diversité ont également changé, avec un rapprochement non achevé entre la génétique des populations et l'écologie des communautés, dans un cadre évolutif. Je présenterai une chaîne de traitement pour décrire et comprendre la structure de la diversité moleculaire en prenant comme exempe un ensemble de reads (un métagénome) issus d'un séquançage NGS sur amplicons (une même région), du marqueur rbcL, d'une communautés de diatomées. Le passage à l'échelle est en cours, et non abouti. C'est l'objet du travail présenté. Tout commence par une distance. La distance liée à l'alignement local de deux séquences a été choisie ici, avec un travail en parallèle sur les distances évolutives (âge de l'ancêtre commun le plus proche). Le lien entre distance ulamétrique et taxonomie est naturel. L'idée ancienne est de construire un nuage de points tels que leurs distances euclidiennes soient aussi proche que possible des distances génétiques. La construction de la matrice de distances, le traitement par multidimensional scaling, ou par classification, sont en compexité cubique ou quadratique vis à vis du jeu de données. Je présenterai quelques variants connus mais peu utilisés de la MDS, ainsi qu'un lien entre classification et composantes connexes de graphes induits par les matrices de distances, pour aller vers des méthodes de complexité linéaire avec la taille du jeu de données. Une idée est de ne travailler qu'avec des distances entre voisins, et non sur l'ensemble des paires possibles, et de disposer d'un algorithme en temps linéaire pour décider si deux séquences sont voisines ou non. Cette notion de voisinage permet de présenter un lien dont l'étude se développe depuis une dizaine d'années entre traitement de données et la géométrie des variétés. Une question abordée également est le choix de la dimension de l'espace de travail : une grande dimension permet des représentatons exactes, mais on tombe dans la malédiction de la dimension, et une dimension faible permet une bonne sécurité des algorithmes de classification par exemple, mais sur une image approchée du nuage de points. 

    P { margin-bottom: 0.21cm; }
    Alain Franc & al., Equipe Pleiade, INRIA, & UMR BioGeCo, INRA, Bordeaux 

  • Handling large logical models: the role of model reduction

    Aurélien Naldi
    Wednesday, April 1, 2015 - 10:30
    Room Aurigny
    Talk abstract: 
    Logical (discrete) models have been used to study numerous
    biological regulatory networks over the last 40 years.
    The increasing size of the networks of interest calls
    for formal methods for their dynamical analysis.
    Model reduction aims at constructing "simpler" version
    of the models by taking out selected components while
    preserving important dynamical properties.
    Here we will discuss the effect of model reduction on
    the dynamical behaviour of logical models, in particular
    the attractors and their reachability, as well as its
    connections with other formal methods.

Pages