Symbiose seminars

  • Protein Multiple Alignments: Sequence-based vs Structure-based Programs

    Mathilde Carpentier (MNHN)
    Thursday, January 30, 2020 - 10:30 to 12:00
    Room Aurigny
    Talk abstract: 

    Motivation: Multiple sequence alignment programs have proved to be very useful and have already been evaluated in the literature yet, not alignment programs based on structure or both sequence and structure. In the present article we wish to evaluate the added value provided through considering structures. Results: We compared the multiple alignments resulting from 25 programs either based on sequence, structure, or both, to reference alignments deposited in five databases (BALIBASE 2 and 3, HOMSTRAD, OXBENCH and SISY- PHUS). On the whole, the structure-based methods compute more reliable alignments than the sequence-based ones, and even than the sequence+structure-based programs whatever the databases. Two programs lead, MAMMOTH and MATRAS, nevertheless the performances of MUSTANG, MATT, 3DCOMB, TCOFFEE+TM ALIGN and TCOFFEE+SAP are better for some alignments. The advantage of structure-based methods increases at low levels of sequence identity, or for residues in regular secondary structures or buried ones. Concerning gap management, sequence-based programs set less gaps than structure-based programs. Concerning the databases, the alignments of the manually built databases are more challenging for the programs.

  • Assemblage de génome et topologie algébrique

    Jean-François Gibrat (INRA)
    Thursday, January 16, 2020 - 10:30
    Room Aurigny
    Talk abstract: 

    Le séminaire présente un travail, encore préliminaire, sur l'assemblage de génome à partir de données de séquenceurs de 3e génération (PacBio et Oxford Nanopore Technology). Dans un premier temps, je présenterai un algorithme efficace pour assembler ces lectures,  basé sur l'analyse d'un graphe OLC (Overlap-Layout-Consensus). Dans un second temps, je montrerai comment on peut utiliser certains concepts de topologie algébrique (les nombres de Betti) pour analyser les caractéristiques du graphe OLC et déterminer à l'avance si l'assemblage sera simple ou s'il faudra rechercher les "noeuds" et identifier les "boucles" dans le graphe occasionnées par les régions répétées non résolues du génome.

  • Qualitative modeling of the immune response: from mechanisms to populations

    Aurelien Naldi (ENS)
    Thursday, January 9, 2020 - 10:30 to 12:00
    Room Aurigny
    Talk abstract: 

    Qualitative dynamical models, based on generalized Boolean functions, have been used over the last decades to study complex biological systems. As a reasoning tool for researchers in biology, they facilitate the identification of missing or inconsistent knowledge, and can ultimately guide experimental design. We are interested in particular in the regulation of the immune response. In this context, we assembled and analyzed a comprehensive model of the differentiation and plasticity of regulatory T cells, which are heavily define the nature and amplitude of this response. However, these cells are not isolated actors, they interact with each other and with several other types of cells through chemical signals. We are currently extending existing modelling tools to account for large-scale populations of mechanical models. In the long term, we aim to reduce the gap between mechanistic models at the single cell scale and phenomenological ones at the population scale.

  • Modélisation de la régulation hormonale de la prise alimentaire et du poids corporel

    Marine Jacquier (IGDR)
    Thursday, December 12, 2019 - 10:30 to 12:00
    Room Aurigny
    Talk abstract: 

    La modélisation de la dynamique de poids corporel est utilisée notamment dans le cadre de l'évaluation de traitements, tels que la restriction calorique ou l'utilisation de médicaments anti-obésité. En temps normal, la prise alimentaire, la dépense énergétique et le poids corporel sont régulés, en particulier par des hormones, afin de limiter des changements importants de poids corporels. Je vais présenter deux modèles basés sur des équations différentielles ordinaires et à retard, décrivant la dynamique de prise alimentaire, poids corporel et dépense énergétique, en fonction de taux de différentes hormones. Les résultats de ces modèles sont comparés à des données expérimentales chez le rat, et permettent de reproduire et prédire l'évolution du poids notamment en réponse à des modifications de l'alimentation. Je montrerai également que des perturbations de la prise alimentaire ou des taux d'hormones peuvent entrainer une résistance à l'effet des hormones et par conséquent le développement d'obésité.

  • Séminare DKM. SAT : résoudre un problème difficile pour les résoudre tous

    Laurent Simon (LABRI)
    Thursday, November 28, 2019 - 10:30
    Room Markov
    Talk abstract: 

    Les progrès autour de la résolution pratique du problème SAT, le problème NP-Complet canonique, ont été spectaculaires dans certains domaines applicatifs. Même si des limites fortes existent toujours sur quelques problèmes fortement combinatoires, nous présenterons, dans cet exposé, quelques applications clés qui ont bénéficié de ces progrès.Nous présenterons également comment la logique propositionnelle, au coeur de SAT, permet de modéliser et de résoudre des problèmes de raisonnement bien au delà de ce formalisme initial. Ainsi, l'exposé se conclura par la présentation des progrès récents en compilation de connaissance, formalisme puissant, général et élégant pour le raisonnement.

  • neXtProt : la plateforme de connaissance de l’Institut Suisse de Bioinformatique sur les protéines humaines Lydie Lane et l’équipe neXtProt

    Lydie Lane (SIB)
    Thursday, November 21, 2019 - 10:30
    Room Aurigny
    Talk abstract: 

    La base de connaissance neXtProt (www.nextprot.org) a été créée en 2011 pour faire face à l’afflux de données « omiques » sur les protéines humaines (1). Elle reprend l’ensemble des séquences humaines d’UniProtKB/Swiss-Prot et des annotations associées, et y ajoute de nombreuses données de génomique, transcriptomique et protéomique sélectionnées sur des critères de qualité particulièrement stricts. La version actuelle de neXtProt comprend plus de 6 millions de variants génétiques, près de 2 millions de peptides identifiés par spectrométrie de masse, et de nombreuses données sur la localisation et la fonction des protéines humaines (2). Libre et gratuite d’accès (sous licence « Creative Commons Attribution »), neXtProt a été choisie en 2013 comme base de données de référence pour le « Human Proteome Project » du consortium HUPO (3)(4). Le modèle de données RDF de neXtProt, son interface de programmation applicative (API) et son point d’accès SPARQL permettent une bonne interopérabilité avec d’autres ressources. Pour faciliter l’écriture des requêtes SPARQL par nos utilisateurs, nous offrons une liste de près de 200 requêtes prêtes à être modifiées (5)(6). Toutefois, nous aimerions encore améliorer l’ergonomie de notre moteur de recherche et sommes ouverts à des collaborations dans ce domaine.

    Lydie Lane et l’équipe neXtProt.
    Groupe CALIPHO, SIB Institut Suisse de Bioinformatique & Département de Microbiologie et médecine moléculaire, Université de Genève, Suisse

    1. Lane,L., Argoud-Puy,G., Britan,A., Cusin,I., Duek,P.D., Evalet,O., Gateau,A., Gaudet,P., Gleizes,A., Masselot,A., et al. (2012) NeXtProt: A knowledge platform for human proteins. Nucleic Acids Res., 40.
    2. Gaudet,P., Michel,P.-A., Zahn-Zabal,M., Britan,A., Cusin,I., Domagalski,M., Duek,P.D., Gateau,A., Gleizes,A., Hinard,V., et al. (2017) The neXtProt knowledgebase on human proteins: 2017 update. Nucleic Acids Res., 45, D177–D182.
    3. Gaudet,P., Argoud-Puy,G., Cusin,I., Duek,P., Evalet,O., Gateau,A., Gleizes,A., Pereira,M., Zahn-Zabal,M., Zwahlen,C., et al. (2013) NeXtProt: Organizing protein knowledge in the context of human proteome projects. J. Proteome Res., 12.
    4. Omenn,G.S., Lane,L., Overall,C.M., Corrales,F.J., Schwenk,J.M., Paik,Y.-K., Van Eyk,J.E., Liu,S., Pennington,S., Snyder,M.P., et al. (2019) Progress on Identifying and Characterizing the Human Proteome: 2019 Metrics from the HUPO Human Proteome Project. J. Proteome Res., 10.1021/acs.jproteome.9b00434.
    5. Duek,P., Gateau,A., Bairoch,A. and Lane,L. (2018) Exploring the Uncharacterized Human Proteome Using neXtProt. J. Proteome Res., 17, 4211–4226.
    6. Zahn-Zabal,M. and Attwood,T.K. (2019) A Critical Guide to the neXtProt knowledgebase: querying using SPARQL. F1000Research, 8.

  • Les conséquences génomiques de l’évolution vers la reproduction sexuée facultative

    Sylvain Glémin (Ecobio)
    Thursday, November 14, 2019 - 10:30 to 12:00
    Room Aurigny
    Talk abstract: 

    La très grande majorité des espèces d’eucaryotes se reproduisent de façon sexuée impliquant deux partenaires. Cependant, de façon récurrente des modes de reproduction exclusivement ou très majoritairement uniparentale évoluent. Chez de nombreuses plantes par exemple, l’évolution de l’allofécondation vers l’autofécondation (individus hermaphrodites se reproduisant seuls) est très fréquente. Une autre transition fréquente est celle vers la parthénogenèse (femelles se reproduisant sans mâle via différentes modification de la méiose). Bien que pouvant être avantageuses à court terme, ces stratégies reproductives sont considérées comme des culs de sacs évolutifs et on ne connait pas de grand groupe d’organismes complètement asexués. Les conséquences génétiques et génomiques de ces modes de reproduction sont nombreuses -en particulier l’arrêt ou la réduction de la recombinaison - et souvent négatives. Elles expliqueraient que ces lignées autofécondantes et asexuées soient vouées rapidement à l’extinction. Après une présentation du contexte théorique générale sur l’évolution des systèmes de reproduction je développerai deux exemples: 1) les conséquences génomiques de l’évolution vers l’autofécondation chez les espèces sauvages apparentées au blé (genres Aegilops et Triticum) et 2) les conséquences génomiques de l’évolution vers l’automixie (forme de parthénogenèse) chez les artémies (Crustacées).

  • Learning clinical networks from medical records based on information estimates in mixed-type data

    Hervé Isambert (Institut Curie)
    Thursday, October 17, 2019 - 10:30
    Room Aurigny
    Talk abstract: 

    Network reconstruction aims at disentangling direct from indirect dependences in information-rich data and has become ubiquitous to analyze the rapidly expanding resources of genomic and clinical data. However, direct and indirect interdependences in mixed-type (continuous / categorical) clinical data are notoriously difficult to assess. To this end, we developed and implemented an efficient computational approach to simultaneously compute and assess the significance of multivariate information between any combination of mixed-type variables. The method is then used to uncover direct, indirect and possibly causal relationships between mixed-type data from medical records, by extending a recent machine learning method to reconstruct graphical models beyond simple categorical datasets. The method is shown to outperform existing tools on benchmark mixed-type datasets, before being applied to analyze the medical records of eldery patients with cognitive disorders from La Pitié-Salpêtrière Hospital, Paris, and breast cancer patients from Institut Curie hospitals.

  • Estimation des communautés microbiennes impliquées dans un procédé de méthanisation des biodéchets

    Patrick Dabert (IRSTEA)
    Thursday, October 3, 2019 - 10:30
    Room Aurigny
    Talk abstract: 

    La valorisation des déchets organiques par le processus de méthanisation est en plein essor. Elle permet de capter les émissions gazeuses naturelles des déchets pour en faire une source d’énergie renouvelable, le biogaz. Elle produit aussi un résidu organique stabilisé utilisable en agriculture, le digestat. La méthanisation est un processus biologique de dégradation de la matière organique en absence d’oxygène. Sur le plan microbiologique, il s’agit d’une chaine trophique qui met en œuvre des centaines d’espèces microbiennes qui « travaillent » en synergie ou en compétition. Malgré des développements technologiques importants et une connaissance accrue des voies métaboliques impliquées, notre maitrise des communautés microbiennes reste insuffisante pour piloter correctement les procédés. Après une présentation rapide des enjeux et des connaissances actuelles sur les voies métaboliques de la méthanisation, l’exposé présentera les résultats obtenus lors du suivi du fonctionnement d’un procédé de méthanisation de biodéchets pendant un an (Suivi des indicateurs de performance: biogaz, pH, acides gras volatiles, etc.; Caractérisation des communautés microbiennes par séquençage haut débit des ADNr 16S) et les travaux réalisés par Théo Combe (stage M1 en collaboration avec S. Blanquart et A. Siegel) pour tenter d’identifier les espèces nécessaires au fonctionnement du procédé, d'inférer les voies métaboliques potentielles de ces espèces sur la base de leur séquence ADNr16S et d'analyser l’évolution de la communauté microbienne en fonction des paramètres de fonctionnement du procédé. Enfin, cet exemple d’étude sera utilisé pour présenter les verrous et questionnements actuels des écologues microbiens sur l’interprétation des données de séquençage haut débit des ADNr16S. Mots clés : digestion anaérobie, microbiome, ARNr 16S, métabolisme

  • Depicting microbial genomic diversity via a Partitioned Pangenome Graph

    Guillaume Gautreau (genoscope)
    Thursday, September 26, 2019 - 10:30
    Room Aurigny
    Talk abstract: 

    Thanks to the fascinating gush of newly sequenced genomes, genomics studies in microbiology now frequently rely on the comparison of hundreds to thousands of genomes of a single species. A consensus representation of multiple genomes would provide a better analytical framework than using individual reference genomes. This leads to a paradigm shift from the usual linear representation of reference genomes to a pangenome graph representation bringing together all the different known variations as multiple alternative paths. Classical pangenomic approaches (Medeni et al. 2005, Tettelin et al. 2005) use isolated sets of gene families partitioned in core (genes present in all the genomes of a species) or accessory genome (genes present in at least one genome of a species). Inspired by the methods released in the last few years, we propose to update the Tettelin's insights by organizing gene families in a pangenome graph to depict the microbial diversity. Some approaches have been developed to factorize pangenomes at the sequence level only (reviewed in Marschall et al. 2016). However, these approaches lack of direct information about genes, complicating the functional analyses from the study of the graph. The method introduced here, named PPanGGOLiN, can be considered as the missing link between the usual pangenomics approach (set of isolated gene families) and the pangenome graph at the sequence level.In current pangenomics approaches, core genes are most often defined as the set of ubiquitous genes in a clade. However, this definition has 2 major flaws: it is not robust against poorly sampled data because it is highly reliant on the presence/absence of genes in a single genome; it misses many core genes  because of the high probability to lose at least one of the core genes due to sequencing, assembly or annotation artifacts. In consequence, the core genome obtained from a large set of genomes can be very low requiring a relaxed definition of a core genome (generally using a fixed threshold of presence equals to 95% of the genomes). Unlike the few statistical approaches available to estimate a relaxed core genome without fixing an arbitrary threshold, PPanGGOLiN does not relies on the frequencies of gene family presence but uses the patterns of presence/absence and the pangenome graph to make the partitioning. This original approach is able to discriminate 2 sets of genes having the same frequencies of presence albeit coming from 2 different subsets of genomes. Moreover, the usual dichotomy between core and accessory genomes does not faithfully reports the diverse ranges of gene frequencies in a pangenome. Thereby, as proposed by Koonin et al. 2008 and formally modeled by Collins et al. 2012, the pangenome can be split into 3 groups. This choice helps to shed light on genes potentially associated with positive environmental adaptations while avoiding to confound them with potentially randomly acquired ones. For that purpose, based on the patterns of presence/absence and the pangenome graph, PPanGGOLiN divides the pangenome into (1) persistent genome, equivalent to a relaxed core genome (genes conserved in almost all genomes); (2) shell genome, moderately conserved genes potentially associated with environmental adaptation capabilities; (3) cloud genome, rare genes.Based on this partitioned pangenome representation, we can annotate nodes in the graph to highlight alternative paths and associate relevant metadata to them. Someway, drawing genomes on rails like a subway map may help biologists to browse the pangenome and compare their genomes of interest to the overall pangenomic diversity.

Pages