Symbiose seminars

  • TBA

    Aurelien Naldi (ENS)
    Thursday, January 9, 2020 - 10:30 to 12:00
    Room Aurigny
    Talk abstract: 

    TBA

  • TBA

    Marine Jacquier (IGDR)
    Thursday, December 12, 2019 - 10:30 to 12:00
    Room Aurigny
    Talk abstract: 

    TBA

  • Assemblage de génome et topologie algébrique

    Jean-François Gibrat (INRA)
    Thursday, December 5, 2019 - 10:30
    Room Aurigny
    Talk abstract: 

    Le séminaire présente un travail, encore préliminaire, sur l'assemblage de génome à partir de données de séquenceurs de 3e génération (PacBio et Oxford Nanopore Technology). Dans un premier temps, je présenterai un algorithme efficace pour assembler ces lectures,  basé sur l'analyse d'un graphe OLC (Overlap-Layout-Consensus). Dans un second temps, je montrerai comment on peut utiliser certains concepts de topologie algébrique (les nombres de Betti) pour analyser les caractéristiques du graphe OLC et déterminer à l'avance si l'assemblage sera simple ou s'il faudra rechercher les "noeuds" et identifier les "boucles" dans le graphe occasionnées par les régions répétées non résolues du génome.

  • Séminare DKM. SAT : résoudre un problème difficile pour les résoudre tous

    Laurent Simon (LABRI)
    Thursday, November 28, 2019 - 10:30
    Room Markov
    Talk abstract: 

    Les progrès autour de la résolution pratique du problème SAT, le problème NP-Complet canonique, ont été spectaculaires dans certains domaines applicatifs. Même si des limites fortes existent toujours sur quelques problèmes fortement combinatoires, nous présenterons, dans cet exposé, quelques applications clés qui ont bénéficié de ces progrès.Nous présenterons également comment la logique propositionnelle, au coeur de SAT, permet de modéliser et de résoudre des problèmes de raisonnement bien au delà de ce formalisme initial. Ainsi, l'exposé se conclura par la présentation des progrès récents en compilation de connaissance, formalisme puissant, général et élégant pour le raisonnement.

  • TBA

    Lydie Lane (SIB)
    Thursday, November 21, 2019 - 10:30
    Room Aurigny
    Talk abstract: 

    TBA

  • Les conséquences génomiques de l’évolution vers la reproduction sexuée facultative

    Sylvain Glémin (Ecobio)
    Thursday, November 14, 2019 - 10:30 to 12:00
    Room Aurigny
    Talk abstract: 

    La très grande majorité des espèces d’eucaryotes se reproduisent de façon sexuée impliquant deux partenaires. Cependant, de façon récurrente des modes de reproduction exclusivement ou très majoritairement uniparentale évoluent. Chez de nombreuses plantes par exemple, l’évolution de l’allofécondation vers l’autofécondation (individus hermaphrodites se reproduisant seuls) est très fréquente. Une autre transition fréquente est celle vers la parthénogenèse (femelles se reproduisant sans mâle via différentes modification de la méiose). Bien que pouvant être avantageuses à court terme, ces stratégies reproductives sont considérées comme des culs de sacs évolutifs et on ne connait pas de grand groupe d’organismes complètement asexués. Les conséquences génétiques et génomiques de ces modes de reproduction sont nombreuses -en particulier l’arrêt ou la réduction de la recombinaison - et souvent négatives. Elles expliqueraient que ces lignées autofécondantes et asexuées soient vouées rapidement à l’extinction. Après une présentation du contexte théorique générale sur l’évolution des systèmes de reproduction je développerai deux exemples: 1) les conséquences génomiques de l’évolution vers l’autofécondation chez les espèces sauvages apparentées au blé (genres Aegilops et Triticum) et 2) les conséquences génomiques de l’évolution vers l’automixie (forme de parthénogenèse) chez les artémies (Crustacées).

  • Learning clinical networks from medical records based on information estimates in mixed-type data

    Hervé Isambert (Institut Curie)
    Thursday, October 17, 2019 - 10:30
    Room Aurigny
    Talk abstract: 

    Network reconstruction aims at disentangling direct from indirect dependences in information-rich data and has become ubiquitous to analyze the rapidly expanding resources of genomic and clinical data. However, direct and indirect interdependences in mixed-type (continuous / categorical) clinical data are notoriously difficult to assess. To this end, we developed and implemented an efficient computational approach to simultaneously compute and assess the significance of multivariate information between any combination of mixed-type variables. The method is then used to uncover direct, indirect and possibly causal relationships between mixed-type data from medical records, by extending a recent machine learning method to reconstruct graphical models beyond simple categorical datasets. The method is shown to outperform existing tools on benchmark mixed-type datasets, before being applied to analyze the medical records of eldery patients with cognitive disorders from La Pitié-Salpêtrière Hospital, Paris, and breast cancer patients from Institut Curie hospitals.

  • Estimation des communautés microbiennes impliquées dans un procédé de méthanisation des biodéchets

    Patrick Dabert (IRSTEA)
    Thursday, October 3, 2019 - 10:30
    Room Aurigny
    Talk abstract: 

    La valorisation des déchets organiques par le processus de méthanisation est en plein essor. Elle permet de capter les émissions gazeuses naturelles des déchets pour en faire une source d’énergie renouvelable, le biogaz. Elle produit aussi un résidu organique stabilisé utilisable en agriculture, le digestat. La méthanisation est un processus biologique de dégradation de la matière organique en absence d’oxygène. Sur le plan microbiologique, il s’agit d’une chaine trophique qui met en œuvre des centaines d’espèces microbiennes qui « travaillent » en synergie ou en compétition. Malgré des développements technologiques importants et une connaissance accrue des voies métaboliques impliquées, notre maitrise des communautés microbiennes reste insuffisante pour piloter correctement les procédés. Après une présentation rapide des enjeux et des connaissances actuelles sur les voies métaboliques de la méthanisation, l’exposé présentera les résultats obtenus lors du suivi du fonctionnement d’un procédé de méthanisation de biodéchets pendant un an (Suivi des indicateurs de performance: biogaz, pH, acides gras volatiles, etc.; Caractérisation des communautés microbiennes par séquençage haut débit des ADNr 16S) et les travaux réalisés par Théo Combe (stage M1 en collaboration avec S. Blanquart et A. Siegel) pour tenter d’identifier les espèces nécessaires au fonctionnement du procédé, d'inférer les voies métaboliques potentielles de ces espèces sur la base de leur séquence ADNr16S et d'analyser l’évolution de la communauté microbienne en fonction des paramètres de fonctionnement du procédé. Enfin, cet exemple d’étude sera utilisé pour présenter les verrous et questionnements actuels des écologues microbiens sur l’interprétation des données de séquençage haut débit des ADNr16S. Mots clés : digestion anaérobie, microbiome, ARNr 16S, métabolisme

  • Depicting microbial genomic diversity via a Partitioned Pangenome Graph

    Guillaume Gautreau (genoscope)
    Thursday, September 26, 2019 - 10:30
    Room Aurigny
    Talk abstract: 

    Thanks to the fascinating gush of newly sequenced genomes, genomics studies in microbiology now frequently rely on the comparison of hundreds to thousands of genomes of a single species. A consensus representation of multiple genomes would provide a better analytical framework than using individual reference genomes. This leads to a paradigm shift from the usual linear representation of reference genomes to a pangenome graph representation bringing together all the different known variations as multiple alternative paths. Classical pangenomic approaches (Medeni et al. 2005, Tettelin et al. 2005) use isolated sets of gene families partitioned in core (genes present in all the genomes of a species) or accessory genome (genes present in at least one genome of a species). Inspired by the methods released in the last few years, we propose to update the Tettelin's insights by organizing gene families in a pangenome graph to depict the microbial diversity. Some approaches have been developed to factorize pangenomes at the sequence level only (reviewed in Marschall et al. 2016). However, these approaches lack of direct information about genes, complicating the functional analyses from the study of the graph. The method introduced here, named PPanGGOLiN, can be considered as the missing link between the usual pangenomics approach (set of isolated gene families) and the pangenome graph at the sequence level.In current pangenomics approaches, core genes are most often defined as the set of ubiquitous genes in a clade. However, this definition has 2 major flaws: it is not robust against poorly sampled data because it is highly reliant on the presence/absence of genes in a single genome; it misses many core genes  because of the high probability to lose at least one of the core genes due to sequencing, assembly or annotation artifacts. In consequence, the core genome obtained from a large set of genomes can be very low requiring a relaxed definition of a core genome (generally using a fixed threshold of presence equals to 95% of the genomes). Unlike the few statistical approaches available to estimate a relaxed core genome without fixing an arbitrary threshold, PPanGGOLiN does not relies on the frequencies of gene family presence but uses the patterns of presence/absence and the pangenome graph to make the partitioning. This original approach is able to discriminate 2 sets of genes having the same frequencies of presence albeit coming from 2 different subsets of genomes. Moreover, the usual dichotomy between core and accessory genomes does not faithfully reports the diverse ranges of gene frequencies in a pangenome. Thereby, as proposed by Koonin et al. 2008 and formally modeled by Collins et al. 2012, the pangenome can be split into 3 groups. This choice helps to shed light on genes potentially associated with positive environmental adaptations while avoiding to confound them with potentially randomly acquired ones. For that purpose, based on the patterns of presence/absence and the pangenome graph, PPanGGOLiN divides the pangenome into (1) persistent genome, equivalent to a relaxed core genome (genes conserved in almost all genomes); (2) shell genome, moderately conserved genes potentially associated with environmental adaptation capabilities; (3) cloud genome, rare genes.Based on this partitioned pangenome representation, we can annotate nodes in the graph to highlight alternative paths and associate relevant metadata to them. Someway, drawing genomes on rails like a subway map may help biologists to browse the pangenome and compare their genomes of interest to the overall pangenomic diversity.

  • bistro: a library to build large-scale workflows in computational biology

    Philippe Veber (LBBE)
    Thursday, June 13, 2019 - 10:30 to 11:00
    Room Aurigny
    Talk abstract: 

    Computational pipelines for analyzing high-throughput genomics datasets typically consist of tens to hundreds of shell commands, generating thousands of files and running for days or weeks. While becoming rather complex pieces of software, they are most of the time still programmed using rudimentary tools like shell scripts, which offer very little help to develop large and reusable programs. In addition to being error-prone, implementing computational pipelines using shell scripts leaves lots of tedious aspects to the programmer, diverting her/his attention from data analysis considerations. In this work, I propose to leverage a modern, statically typed programming language to implement as a simple library a comfortable environment to develop bioinformatics pipelines. This library is named bistro and is written in the OCaml language. Among other features, it provides dependency tracking, parallel execution, resume-on-failure, automatic naming of intermediate files, easy deployment of pipelines using Docker or Singularity for enhanced reproducibility. Thanks to the compiler type checker, errors on file formats or typos in command arguments are detected at compile-time, that is even before running the pipeline. I'll show various benefits of embedding a pipeline development framework in a generalist language. Among other things, it becomes very easy to integrate a pipeline into a web server, or write extensible libraries of highly configurable pipelines.

Pages