Symbiose seminars

  • Extraction de k-mers génomiques dans des reads longs

    Pierre Morisse
    Thursday, December 7, 2017 - 10:30
    Room Minquiers
    Talk abstract: 

    Les méthodes modernes de correction de reads longs, qu'elles soient hybrides ou non, reposent davantage sur l'utilisation de graphes de de Bruijn, plutôt que sur de multiples alignements. Dans le cas hybride, un graphe de de Bruijn fiable peut facilement être construit à partir des k-mers des reads courts. Cependant, dans le cas de l'auto-correction, construire un graphe fiable uniquement à partir des reads longs est difficile, notamment dans le cas des données Oxford Nanopore, qui sont très bruitées. En effet, à cause de leur fort taux d'erreur, une simple étude de fréquence des k-mers des reads longs ne permet pas de différencier les k-mers génomiques des k-mers contenant des erreurs de séquençage. Nous introduisons donc une nouvelle approche, visant à simuler de potentielles corrections aux erreurs d'insertions et de suppressions présentes dans les reads longs, lors de l'extraction des k-mers, afin de permettre de différencier les k-mers génomiques des k-mers contenant des erreurs.Nous nous penchons ensuite sur les mots minimaux absents des reads longs et en soulignons une propriété intéressante. Nous étudions une approche utilisant ces mots minimaux absents, et cette propriété particulière, afin de tenter d'identifier les k-mers génomique dans un ensemble de k-mers. Nous donnons également quelques pistes restant à explorer pour la correction, mais également pour l'assemblage, de reads longs avec ces mots minimaux absents.

  • Métagénomique comparative de novo à grande échelle

    Gaetan Benoit
    Wednesday, November 29, 2017 - 13:45
    Room Métiviers
    Talk abstract: 
    La métagénomique vise à étudier le contenu génomique d’un échantillon extrait d’un milieu naturel. Parmi les analyses de données métagénomiques, la métagénomique comparative a pour objectif d’estimer la similarité entre deux ou plusieurs environnements d’un point de vue génomique. L’approche traditionnelle compare les échantillons sur la base des espèces identifiées. Cependant, cette méthode est biaisée par l’incomplétude des bases de données de références.
    La métagénomique comparative est dite de novo lorsque les échantillons sont comparés sans connaissances a priori. La similarité est alors estimée en comptant le nombre de séquences d’ADN similaires entre les jeux de données. Un projet métagénomique génère typiquement des centaines de jeux de données. Chaque jeu contient des dizaines de millions de courtes séquences d’ADN de 100 à 200 nucléotides (appelées lectures). Dans le contexte du début de cette thèse, il aurait fallu des années pour comparer une telle masse de données avec les méthodes usuelles. Cette thèse présente des approches de novo pour calculer très rapidement la similarité entre de nombreux jeux de données.
    Les travaux que nous proposons se basent sur le k-mer (mot de taille k) comme unité de comparaison des métagénomes. La méthode principale développée pendant cette thèse, nommée Simka, calcule de nombreuses mesures de similarité en remplacement les comptages d’espèces classiquement utilisés par des comptages de grands k-mers (k > 21). Simka passe à l’échelle sur les projets métagénomiques actuels grâce à un nouvelle stratégie pour compter les k-mers de nombreux jeux de données en parallèle.
    Les expériences sur les données du projet Human Microbiome Projet et Tara Oceans montrent que les similarités calculées par Simka sont bien corrélées avec les similarités basées sur des comptages d’espèces ou d’OTUs. Simka a traité ces projets (plus de 30 milliards de lectures réparties dans des centaines de jeux) en quelques heures. C’est actuellement le seul outil à passer à l’échelle sur une telle quantité de données, tout en étant complet du point de vue des résultats de comparaisons.
     
     
    --- english version ---
     
    Large scale de novo comparative metagenomics
     
    Metagenomics studies the genomic content of a sample extracted from a natural environment. Among available analyses, comparative metagenomics aims at estimating the similarity between two or more environmental samples at the genomic level. The traditional approach compares the samples based on their content in known identified species. However, this method is biased by the incompleteness of reference databases.
    By contrast, de novo comparative metagenomics does not rely on a priori knowledge. Sample similarity is estimated by counting the number of similar DNA sequences between datasets. A metagenomic project typically generates hundreds of datasets. Each dataset contains tens of millions of short DNA sequences ranging from 100 to 150 base pairs (called reads). In the context of this thesis, it would require years to compare such an amount of data with usual methods.
    This thesis presents novel de novo approaches to quickly compute the similarity between numerous datasets. The main idea underlying our work is to use the k-mer (word of size k) as a comparison unit of the metagenomes. The main method developed during this thesis, called Simka, computes several similarity measures by replacing species counts by k-mer counts (k > 21). Simka scales-up today’s metagenomic projects thanks to a new parallel k-mer counting strategy on multiple datasets.
    Experiments on data from the Human Microbiome Project and Tara Oceans show that the similarities computed by Simka are well correlated with reference-based and OTU-based similarities. Simka processed these projects (more than 30 billions of reads distributed in hundreds of datasets) in few hours. It is currently the only tool able to scale-up such projects, while providing precise and extensive comparison results.

     

  • Intégrer les échelles moléculaires et cellulaires dans l'inférence de réseaux métaboliques. Application aux xénobiotiques

    Victorien Delannée (Symbiose - Dyliss)
    Wednesday, November 8, 2017 - 10:30
    Room Métivier
    Talk abstract: 

    Prédire, modéliser et analyser le métabolisme de xénobiotiques, substances étrangères à un organisme, à l'aide de méthodes informatiques est un challenge majeur mobilisant la communauté scientifique depuis de nombreuses années. Cette thèse vise à implémenter des méthodes informatiques multi-échelles pour prédire et analyser le métabolisme des xénobiotiques. Un premier axe de cette étude portait sur la construction et l'annotation automatique de novo de graphes métaboliques combinant fortes sensibilités et précisions. Ces graphes fournissent ainsi la prédiction du métabolisme de xénobiotiques chez l'homme, ainsi que la génotoxicité des molécules et atomes qui le composent. Puis, le travail s'est orienté sur l'implémentation d'un modèle mathématique dynamique modélisant des effets de compétition enzymatique à travers le développement d'une méthodologie permettant l'exploitation de données biologiques restreintes tout en limitant les biais inhérents. 

  • Soutenance de thèse "Structure de réseaux biologiques : rôle des noeuds internes vis-à-vis de la production de composés"

    Julie Laniau - Dyliss
    Monday, October 23, 2017 - 14:00
    Room Métivier
    Talk abstract: 

    Durant cette thèse nous nous sommes intéressés aux réseaux métaboliques et notamment leur
    modélisation sous forme d’un graphe bipartite orienté pondéré. Ce dernier permet d’étudier la pro-
    duction d’éléments cibles métaboliques regroupés dans une biomasse à partir de composants pro-
    venant du milieu de croissance de l’organisme. Nous nous sommes plus particulièrement penchés
    sur le rôle des métabolites internes au réseau et la notion d’essentialité de ces derniers pour la
    production d’une biomasse dont nous avons raffiné la définition dans le cas d’une étude de flux
    (métabolite essentiel du point de vue de la productibilité du réseau et métabolite essentiel du point
    de vue de l’efficacité du réseau) puis étendu cette dernière dans le cas d’une étude topologique
    (métabolite essentiel du point du vue de la persistance du réseau). Nous nous sommes pour cela
    reposés sur le formalisme d’un part de Flux Balance Analysis et ses dérivés, et d’autre part d’ex-
    pansion de réseau, afin de définir un métabolite essentiel (ou carrefour), nous permettant de mettre
    au point un package python (Conquests) cherchant les carrefours dans un réseau métabolite. Nous
    avons appliqué ce dernier à six réseaux métaboliques dont quatre provenant d’espèces modèles
    (iJO1360, iAF1260 et iJR904 d’E. coli et Synecchocystis) et les deux autres d’espèces plus spécifiques
    (A. ferrooxidans et T. lutea). Nous avons aussi défini le concept de cluster de métabolites essentiels
    du point du vue de la persistance du réseau lié aux composants de la biomasse auxquels ils sont
    nécessaires et que nous avons appliqué sur les six réseaux métaboliques précédents et sur 3600
    réseaux dégradés du réseau iJR904 de E. coli puis reconstruits selon trois méthodes de gapfilling
    (Gapfill, Fastgapfill et Meneco) afin de comparer ces dernières. Ces études nous ont permis de
    mette en avant l’importance de métabolites internes dans la production de composés cibles.

  • Graphs as an universal modelling tool

    Nicola Yanev
    Thursday, October 5, 2017 - 10:30
    Room Aurigny
    Talk abstract: 

    The classical topics in optimization graph theory are extended by several new problems,  inspired by the practice:
    - new classes of matching problems in bipartite graphs: inspired by still actual problematic of recognition of protein folding, comparison of protein 3D structure and even the travelling salesman problem,
    - shortest walks over the vertices of the unit hypercube: inspired by needs of  optimization module of a warehouse management system, used to schedule the loading operation in a huge warehouse;
    - finding the fixed number of connected components with the minimum maximal diameter: inspired by the challenge to determine mathematical electoral districts in a single member constituency ,
    - finding the minimum clique cover in a colored graph: inspired by a new approach to the well known classification problem, that is - to recover a partially known stepwise function . 

  • Un voyage bioinformatique dans l’océan des données cytométriques de grandes dimensions

    Nicolas Tchichek
    Thursday, September 21, 2017 - 10:30
    Room Minquiers
    Talk abstract: 

    La cytométrie en flux et de masse sont des techniques expérimentales qui permettent de mesurer des protéines exprimées par des cellules à une résolution cellulaire (single-cell profiling). La cytométrie en flux peut actuellement mesurer jusqu'à 18 marqueurs cellulaires pour des millions de cellules. La cytométrie de masse, qui a été introduite plus récemment, peut mesurer jusqu'à 40 marqueurs cellulaires pour des centaines de milliers de cellules.

    L’analyse de ces données nécessite des nouvelles approches bioinformatiques pour identifier les principales populations cellulaires dans ces matrices tridimensionnelles de grandes dimensions. Ainsi, des algorithmes comme SPADE, viSNE ou Citrus ont été proposé pour identifier automatiquement les populations cellulaires présentes dans des profils cytométriques. Une fois ces populations cellulaires détectées des analyses bioinformatiques complémentaires sont nécessaire pour sélectionner les populations ayant un intérêt biologique particulier.

    Je présenterai dans ce séminaire des approches bio-informatiques que nous avons développées récemment dans notre laboratoire. Plus précisément, nous avons conçus des algorithmes qui permettent : (i) d’identifier les populations cellulaires ayant des phénotypes et comportements pertinents ; (ii) de comparer statistiquement les phénotypes des populations cellulaires ; et (iii) de combiner les informations phénotypiques de populations cellulaires obtenues à partir d’expériences différentes.

    Enfin, je conclurai en discutant des limites des approches bio-informatiques existantes et ainsi des nouveaux défis à relever dans le futur.

  • Towards a Logical Framework for Systems Biology

    Joelle Despeyroux - INRIA Sophia-Antipolis
    Thursday, September 14, 2017 - 10:30
    Room Minquiers
    Talk abstract: 

    We advocates here the use of (mathematical) logic for systems biology, as a unified framework well suited for both modeling the dynamic behaviour of biological systems, expressing properties of them, and verifying these properties.
    The potential candidate logics should have a traditional proof theoretic pedigree (including a sequent calculus presentation enjoying cut-elimination and focusing), and should come with (certified) proof tools. Beyond providing a reliable framework, this allows the adequate encodings of our biological systems.
    We have up to now two main candidate logics; both are modal extensions of linear logic.
    The examples we have considered so far are very simple ones - coming with completely formal (interactive) proofs in Coq.
    Future works includes using automatic provers, which will eventually extend existing automatic provers for linear logic. This should enable us to specify and study more realistic examples in systems biology and biomedicine.

  • Formal Language Representation and Modeling of Bio-molecular Structures by Matrix Insertion-Deletion Systems

    Lakshmanan
    Wednesday, July 5, 2017 - 10:30 to Saturday, July 29, 2017 - 10:30
    Room Aurigny
    Talk abstract: 

    David Searls initiated the representation of molecules as strings and modeled structures formed by the molecules using formal grammars. The work opened the doors to tackle many problems in computational biology like predicting pseudoknot structures of biomolecules. Subsequently, Sakakibara, Hausler, Eddy, Rivas, Umera and others introduced various grammar formalisms for modeling predominantly noticed bio-molecular structures such as stem-loop, pseduoknot, attenuator, clover-leaf, dumbbell. However, there is no unique grammar formalism that models all the structures discussed in literature. In this talk, we shall study a recently introduced grammar formalism namely matrix insertion-deletion systems. In this system, set of rules are applied in order which helps to synchronize the elements even at far. With this system, we will model several intra and inter molecular structures of DNA and RNA. We will also model parallel and anti-parallel beta sheets of protein molecules with the system. 

  • Algorithmique pour les peptides non ribosomiques

    Yoann Dufresne (univ. lille)
    Thursday, June 29, 2017 - 10:30
    Room Aurigny
    Talk abstract: 
    La composition monomérique de polymères joue un rôle essentiel dans la comparaison de structures et dans la biologie de synthèse. Cependant, la plupart des ressources moléculaires en ligne donne accès à la structure atomique des molécules et non à leur structure monomérique. C'est dans ce contexte que j'ai développé au cours de ma thèse, un outil appelé Smiles2Monomers (s2m) dédié à la création d'un pont entre ces deux structures.
     
    Au cours de la présentation, nous reviendrons sur les aspects algorithmiques de graphes liés aux recherches de structures. Nous verrons, entre autre, comment il est possible d'effectuer des recherches exactes de sous graphes en optimisant le temps dépensé.
    Au delà de l'aspect algorithmique, je présenterai également les applications concrètes de ces algorithmes dans l'optique d'améliorer la base de donnée Norine. Nous pointerons les avantages de l'utilisation de s2m autant dans la limitation du nombre d'erreurs ajoutées à la base par les utilisateurs, la correction des erreurs déjà présentes ainsi que l'entrée automatique de nouvelles données.
  • An eco-systems view of complex natural microbiomes

    Samuel Chaffron (Universite Nantes)
    Thursday, June 15, 2017 - 10:30
    Room Aurigny
    Talk abstract: 

    Microbial communities play crucial ecological roles on our planet, impacting all ecosystems at various levels. Notably, they sustain Earth’s biogeochemical cycles in the oceans, protect plants from pathogens, and also influence host nutrition, immunity and development in humans. Next-Generation Sequencing (NGS) and functional genomics technologies (so called omics approaches) are revolutionizing the field of environmental microbiology and are reshaping our view on microbial ecosystems. These approaches enable the study of ecological systems at the molecular scale and are revealing the under-explored diversity and complexity of microbial ecosystems. Yet our ability to understand and predict the structures and functions of these complex and dynamic microbial communities is very limited. Notwithstanding, the genomic content of naturally co-occurring microbes can now be investigated in situ, and their metabolic networks can be reconstructed and integrated to gain insights into their physiology (from an environmental genotype to its phenotype). Past and on-going work presented here will ultimately lead to the design of integrative models through a microbial metabolic modeling platform integrating omics data, ecological information and metabolic networks reconstruction to further understand and predict microbial communities and ecosystems in and around us. This Microbial Systems Ecology (ECOSYSMIC) platform will enable to go beyond the simple description of natural microbial communities by building computational models to gain a predictive understanding of community function and dynamics, and acquire a mechanistic understanding of microbial species interactions and ecosystem functioning.

Pages