Symbiose seminars

  • Genome assembly and bioinformatics with haplotypes

    Bernardo Clavijo (Earlham Institute)
    Thursday, February 15, 2018 - 10:30
    Room Aurigny
    Talk abstract: 

    Producing and analysing de novo assemblies of complex organisms is now common across all life sciences. Still, these assemblies are mostly collapsed mosaics representing all haplotypes in single assembled regions. An excessive focus on contiguity has left precision and haplotype phasing as secondary concerns, despite advances in sequencing technologies that generate unprecedented amounts of information about haplotype composition.Here we will explore the possibilities and limitations of haplotype reconstruction on genome assembly, and the current trade-offs on assembly methods in different scenarios such as heterozygous and polyploid samples with short, long and linked reads. We will describe problems and solutions for the reconstruction and analysis of haplotypes in genome graphs. Finally, we will highlight the convergence of genetic and genomic evidence for haplotype studies and conclude with our vision of how the field could evolve in the near future. 

  • Séminaire des CDD Symbiose 2018

    Thursday, February 8, 2018 - 14:15 to 18:00
    Room Markov
    Talk abstract: 

    14h - 14h20 Présentation des équipes 


    14h 20 - 16h Présentations de quelques travaux dans Symbiose

    • Wesley Delage, "Le Benchmarking, de la bonne initiative aux dérives"
    • Lucas Bourneuf, "Comment j'ai mangé mes données"
    • Camille Marchet, "Retours sur une thèse chez GenScale"
    • Jérémy Gauthier,  "Et si on continuait à faire de la recherche ?"
    • Joseph Kervellec et Chloé Riou, présentation des services développés par Genouest
    16 h break sucré
    16h30 - 17 h Présentation association & projet (Nicomaque,SEC, journal club...)
    17h - 18h Table ronde
    • Partage d'expérience, questions relatives au monde de la recherche, vie dans Symbiose


  • Exploring metabolic modulations using genome-scale network modelling and omics data in the context of toxicological studies: application for deciphering metabolic shifts occurring during the differentiation of the human hepatic cell line HepaRG

    Nathalie Poupin (INRA)
    Thursday, February 8, 2018 - 10:30
    Room Aurigny
    Talk abstract: 

    Many man-made chemicals present as contaminants in food and/or water are strongly suspected to induce adverse metabolic effects in Human. Liver is the key organ for xenobiotics biotransformation, and the use of metabolically competent cell lines is essential to explore the mechanisms underlying the metabolic effects of these substances. The hepatic cell line HepaRG, which is increasingly used in toxicity studies, has the particularity to differentiate from progenitor to mature hepatocyte-like cells. We combined multi-omics data and in silico methods in order to better characterize the metabolic capacities of this cell line and to explore the metabolic shifts occurring during this differentiation process. We integrated transcriptomic and metabolomic data in the context of the global human genome-scale metabolic network Recon2, which gathers the metabolic reactions the organism can perform and their associated genes, to compute a relevant sub-network, more specifically representing the functional hepatic metabolic network of HepaRG cells at each developmental stages: day 3 (progenitors) and day 30 (differentiated cells). We used a modified version of the iMAT algorithm developed by Shlomi et al. to identify, based on these data, the sub-networks of reactions specifically active in HepaRG cells at each developmental stage. For each stage, we identified several sub-networks of active reactions, having an equivalent adequacy to experimental data. We applied classification analysis methods to explore intra- and inter-stages variability among these sub-networks. We showed that, for each stage, the heterogeneity between sub-networks was mainly caused by the occurrence of several alternative reactions or the relative low contribution of transcriptomic data in some pathways. To better characterize the systemic metabolic capacities of the cells, we chose, contrary to most approaches, to consider the whole set of similarly adequate sub-networks, since it allows taking into account various metabolic alternatives. Through simulations and pathway enrichment analyses, we predicted that differentiated cells would globally be able to perform a larger number of liver-specific functions (e.g., urea production) and we identified several sets of reactions that were differently active between the two stages. These reactions mostly belong to pathways specific to hepatic activity (e.g., bile acid synthesis) but also to fatty acid synthesis and oxidation pathways. About 50% of the predicted modulated reactions were not evidenced from transcriptomic data and were « newly » inferred by the computational models. Globally, we showed that combining in silico methods with omics data enables to characterize global shifts in the developing hepatic metabolic network.


  • Mise en place de panels de référence sur la population française pour aider à l’interprétation des données issues du séquençage nouvelle génération.

    Emmanuelle Genin (UMR 1078 Genetics, functional genomics and biotechnology )
    Thursday, February 1, 2018 - 10:30
    Room Minquiers
    Talk abstract: 

    Les nouvelles techniques de séquençage permettent aujourd’hui de caractériser l’ensemble des variations génétiques présentes sur tout le génome ou sa partie codante (exome) d’un individu. On peut ainsi mettre en évidence de nouveaux variants génétiques impliqués dans des maladies monogéniques ou facteurs de risque de maladies complexes. Les méthodes d’analyse et les problématiques posées pour l’étude de ces deux types de maladies sont différentes mais dans les deux cas, le défi majeur qui se pose est celui de l’interprétation de la fonctionnalité des variants découverts. En effet, chaque exome humain contient environ 100 000 variations nucléotidiques dont certaines sont rares et non répertoriées dans les bases de données. Utiliser cette information sur la fréquence pour juger du caractère potentiellement délétère de la variation pose cependant problème car les bases de données actuellement disponibles ne contiennent pas d’exomes provenant de nos régions géographiques. Or, toutes les études d’association pangénomiques réalisées ces dernières années ont montré que des variations de fréquences alléliques existent entre pays en Europe et même au sein d’un même pays selon la région géographique. Ces variations de fréquences détectables sur les variants génétiques fréquents et donc en général plus anciens doivent exister et de manière encore plus importante pour les variants génétiques rares apparus plus récemment dans les populations et n’ayant donc pas eu le temps de se disperser dans l’espace. Disposer de bases de données de génomes français semble donc être un préalable indispensable pour exploiter l’information génétique apportée par le séquençage. C’est dans ce but que nous avons mis en place différents projets nationaux que nous présenterons dans cet exposé en montrant ce qu’ils apportent par rapport aux bases de données internationales et dans le contexte de la mise en place du plan France Médecine Génomique 2025 qui vise à introduire le séquençage dans la pratique clinique. 

  • Probing virus-host interactions in complex microbial communities using DNA 3D contacts.

    Romain Koszul (Pasteur)
    Thursday, January 25, 2018 - 10:30
    Room Minquiers
    Talk abstract: 


  • Alternative strategies for diagnostic Epitranscriptomics to psychiatric applications Synthetic biology to build micromachines

    Alexandra Prieux, ALCEDIAG, SKILLCELL, Paris & Franck Molina, Sys2Diag, CNRS, ALCEDIAG, SKILLCELL Montpellier
    Thursday, January 11, 2018 - 10:30
    Room Aurigny
    Talk abstract: 

    Diagnostic may be understood in a broad sense as a mean to gain more insight into the world, including living and non-living elements. It thus includes medical diagnostic as well as the means of analysis and of understanding of our environment.Medical diagnostic tests in particular represent less than 5% of hospital cost and about 1.6 % of all health cost. Their results influence up to 60-70% medical decision. Despite this success, it remains many pathologies out of scope for medical diagnostic due to the lack of objective and relevant biomarkers or technological limitations.Crossing disciplines at Sys2diag, CNRS and two companies from ALCEN group (ALCEDIAG and SKILLCELL) developed alternative strategies for next generation diagnostic. The first example will describe new epitranscriptomic biomakers that allow to predict risk of psychiatric disorder, in particular depression and suicide. This approach is based on NGS technology and data analyses within clinical context. The second example, will show how using synthetic biology approaches we manage to design fully biological micromachines as robust diagnostic devices. All these works require tight relationships between various disciplines like biology, physic, computing, biostatisitcs.

  • Novel Pattern Mining Techniques for Genome-wide Association Studies

    Hoang Son Pham (IRISA/INRIA lab, University Rennes 1)
    Friday, December 22, 2017 - 14:00
    Room Metiviers
    Talk abstract: 
    Discovering high-order SNP combinations associated with diseases is an important task of bioinformatics.
    Once  new  genetic associations are identified, they can be used to develop better strategies to detect, treat and prevent the diseases.
    Recently, this issue has been effectively tackled with discriminative pattern mining algorithms.
    However, the number of SNPs is often very large, discovering of SNP combinations remains many challenges.
    To address these challenges this thesis has been advanced the state-of-the-art discriminative pattern mining techniques to discover SNP combinations associated with interesting phenotype.
    Different solutions have been proposed in this thesis to tackle GWAS analysis.
    These solutions focus on efficient association strength evaluation, statistically significant discriminative SNP combinations discovery and interesting SNP combinations visualization.
    The solutions proposed in this thesis are also promising for other tasks of bioinformatics such as differential gene expression discovery, phosphorylation motifs detection and regulatory motif combination mining.
  • Extraction de k-mers génomiques dans des reads longs

    Pierre Morisse
    Thursday, December 7, 2017 - 10:30
    Room Minquiers
    Talk abstract: 

    Les méthodes modernes de correction de reads longs, qu'elles soient hybrides ou non, reposent davantage sur l'utilisation de graphes de de Bruijn, plutôt que sur de multiples alignements. Dans le cas hybride, un graphe de de Bruijn fiable peut facilement être construit à partir des k-mers des reads courts. Cependant, dans le cas de l'auto-correction, construire un graphe fiable uniquement à partir des reads longs est difficile, notamment dans le cas des données Oxford Nanopore, qui sont très bruitées. En effet, à cause de leur fort taux d'erreur, une simple étude de fréquence des k-mers des reads longs ne permet pas de différencier les k-mers génomiques des k-mers contenant des erreurs de séquençage. Nous introduisons donc une nouvelle approche, visant à simuler de potentielles corrections aux erreurs d'insertions et de suppressions présentes dans les reads longs, lors de l'extraction des k-mers, afin de permettre de différencier les k-mers génomiques des k-mers contenant des erreurs.Nous nous penchons ensuite sur les mots minimaux absents des reads longs et en soulignons une propriété intéressante. Nous étudions une approche utilisant ces mots minimaux absents, et cette propriété particulière, afin de tenter d'identifier les k-mers génomique dans un ensemble de k-mers. Nous donnons également quelques pistes restant à explorer pour la correction, mais également pour l'assemblage, de reads longs avec ces mots minimaux absents.

  • Métagénomique comparative de novo à grande échelle

    Gaetan Benoit
    Wednesday, November 29, 2017 - 13:45
    Room Métiviers
    Talk abstract: 
    La métagénomique vise à étudier le contenu génomique d’un échantillon extrait d’un milieu naturel. Parmi les analyses de données métagénomiques, la métagénomique comparative a pour objectif d’estimer la similarité entre deux ou plusieurs environnements d’un point de vue génomique. L’approche traditionnelle compare les échantillons sur la base des espèces identifiées. Cependant, cette méthode est biaisée par l’incomplétude des bases de données de références.
    La métagénomique comparative est dite de novo lorsque les échantillons sont comparés sans connaissances a priori. La similarité est alors estimée en comptant le nombre de séquences d’ADN similaires entre les jeux de données. Un projet métagénomique génère typiquement des centaines de jeux de données. Chaque jeu contient des dizaines de millions de courtes séquences d’ADN de 100 à 200 nucléotides (appelées lectures). Dans le contexte du début de cette thèse, il aurait fallu des années pour comparer une telle masse de données avec les méthodes usuelles. Cette thèse présente des approches de novo pour calculer très rapidement la similarité entre de nombreux jeux de données.
    Les travaux que nous proposons se basent sur le k-mer (mot de taille k) comme unité de comparaison des métagénomes. La méthode principale développée pendant cette thèse, nommée Simka, calcule de nombreuses mesures de similarité en remplacement les comptages d’espèces classiquement utilisés par des comptages de grands k-mers (k > 21). Simka passe à l’échelle sur les projets métagénomiques actuels grâce à un nouvelle stratégie pour compter les k-mers de nombreux jeux de données en parallèle.
    Les expériences sur les données du projet Human Microbiome Projet et Tara Oceans montrent que les similarités calculées par Simka sont bien corrélées avec les similarités basées sur des comptages d’espèces ou d’OTUs. Simka a traité ces projets (plus de 30 milliards de lectures réparties dans des centaines de jeux) en quelques heures. C’est actuellement le seul outil à passer à l’échelle sur une telle quantité de données, tout en étant complet du point de vue des résultats de comparaisons.
    --- english version ---
    Large scale de novo comparative metagenomics
    Metagenomics studies the genomic content of a sample extracted from a natural environment. Among available analyses, comparative metagenomics aims at estimating the similarity between two or more environmental samples at the genomic level. The traditional approach compares the samples based on their content in known identified species. However, this method is biased by the incompleteness of reference databases.
    By contrast, de novo comparative metagenomics does not rely on a priori knowledge. Sample similarity is estimated by counting the number of similar DNA sequences between datasets. A metagenomic project typically generates hundreds of datasets. Each dataset contains tens of millions of short DNA sequences ranging from 100 to 150 base pairs (called reads). In the context of this thesis, it would require years to compare such an amount of data with usual methods.
    This thesis presents novel de novo approaches to quickly compute the similarity between numerous datasets. The main idea underlying our work is to use the k-mer (word of size k) as a comparison unit of the metagenomes. The main method developed during this thesis, called Simka, computes several similarity measures by replacing species counts by k-mer counts (k > 21). Simka scales-up today’s metagenomic projects thanks to a new parallel k-mer counting strategy on multiple datasets.
    Experiments on data from the Human Microbiome Project and Tara Oceans show that the similarities computed by Simka are well correlated with reference-based and OTU-based similarities. Simka processed these projects (more than 30 billions of reads distributed in hundreds of datasets) in few hours. It is currently the only tool able to scale-up such projects, while providing precise and extensive comparison results.