Symbiose seminars

  • Inférence des voies métaboliques chez les espèces non-modèles: de la génomique à la métabolomique

    Gabriel Markov (Tuebingen)
    Tuesday, April 15, 2014 - 10:30
    Room Aurigny
    Talk abstract: 

    Actuellement, pour savoir si une voie métabolique connue est présente chez une espèce non-modèle, les bioinformaticiens se concentrent sur la recherche d'enzymes orthologues dans l'espèce modèle la plus proche. Souvent, la présence de quelques enzymes orthologues est considérée comme une preuve suffisante de la conservation de la voie métabolique d'intérêt, mais ce raccourci n'est pas toujours justifié. Quelles sont les informations que fournit la génomique comparative sur la conservation des voies métaboliques, et en quoi la métabolomique s'avère-t-elle un complément indispensable pour l'étude à haut débit de la diversité métabolique chez les espèces non-modèles? 

  • La prédiction du noyau du repliement des protéines globulaires

    Jacques Chomilier (BiBiP, IMPMC, Université Pierre et Marie Curie, Paris)
    Thursday, April 10, 2014 - 10:30
    Room Aurigny
    Talk abstract: 

    Il existe plusieurs modèles pour décrire le repliement des protéines, c’est à dire la formation d’un globule compact après la synthèse de la chaîne peptidique dans le ribosome. Parmi ceux-ci, le modèle de nucléation-condensation stipule que sous l’effet de l’agitation thermique, des fluctuations du squelette mettent en contact des acides aminés répartis le long de la séquence. Ils constituent alors le noyau du repliement et nous nous intéressons à leur prédiction à partir de la séquence, par une simulation du repliement dans un espace discret avec une technique de Monte Carlo. Nous avons appelé MIR (Most Interacting Residues) les positions occupées par des acides aminés engagés dans un grand nombre de contacts non covalents. Leur comparaison avec les données expérimentales sera présentée.

  • Formalisation de réseaux de signalisation en logique

    Christine Froideveaux (LRI - INRIA AMIB - Université Paris Sud )
    Thursday, March 27, 2014 - 10:30
    Room Aurigny
    Talk abstract: 

    Dans la première partie de l'exposé nous présenterons une méthode basée sur la connaissance du domaine, qui permet de construire la topologie de réseaux moléculairesen exploitant des données expérimentales et des règles générales de raisonnement fournies par des experts.Nous montrerons comment cette méthode appliquée à des réseaux de signalisation permet de découvrir de nouvelles relations dans le réseau FSH.Dans une deuxième partie, nous introduirons une traduction du langage standard Systems Biology Graphical Notation Activity Flow (SBGN-AF) en programmation logique. Nous montrerons comment cette traduction peut être utilisée pour analyser la dynamique des réseaux SBGN-AF.

  • Operator-valued kernels for network inference

    Florence d'Alché-Buc (Université d’Evry-Val d’Essonne)
    Thursday, March 20, 2014 - 10:30
    Room Aurigny
    Talk abstract: 

    Reverse engineering of gene regulatory networks remainsa central challenge in computational systems biology, despite recent advances facilitated by benchmark in-silico challenges that have aidedin calibrating their performance. A number of approaches using either perturbation (knock-out) or wild-type time series data have appeared in the literature addressing this problem, with the latter employing linear temporal models.Nonlinear dynamical models are particularly appropriate for this inference task given the generation mechanism of the time series data. In this study, we introduce a novel nonlinear autoregressive model based on operator-valued kernels that simultaneously learns themodel parameters, as well as the network structure. As all kernel-based methods, this new model benefits from the regularization framework and a great flexibility. The empirical estimation of the  model's Jacobian matrix provides an estimation of the network structure.We propose a new learning method based on boosting.The performance of the proposed algorithm is evaluated on a number of benchmark data sets from the DREAM3 challenge and then, on real datasets related to the IRMA and T-cell networks. 

  • A framework based on probabilistic context-free grammars and a genetic algorithm for analysis of protein sequences

    Witold Dyrka (Inria Bordeaux)
    Thursday, February 27, 2014 - 10:30
    Room Aurigny
    Talk abstract: 

    Hidden Markov Models power many state-of-the-art tools in the field of protein bioinformatics. While excelling in their tasks, these methods of protein analysis do not convey directly information on medium and long-range residue-residue interactions. This requires an expressive power of at least context-free grammars. However, application of more powerful grammar formalisms to protein analysis has been surprisingly limited. To address this problem, we have developed a probabilistic grammatical framework for problem-specific protein languages. The core of the model consists of a probabilistic context-free grammar (PCFG), automatically inferred by a genetic algorithm from only a generic set of expert-based rules and positive training sequences represented by physico-chemical properties. We tested the PCFG framework in the context of detection of ligand binding sites [1] and classfication of helix‐helix contact sites, where it outperformed the state-of-the-art [2]. Recently, we used the model to distinguish between amyloidogenic and non-amyloidogenic protein fragments and achieved good results (AUROC up to 0.80). A significant feature of the PCFG approach is the explanatory power of grammar rules and parse trees, which could provide biologically meaningful information. This is a joint work with Jean-Christophe Nebel, Malgorzata Kotulska and Florence Thirion.
    [1] Dyrka and Nebel. BMC Bioinformatics 2009, 10:323
    [2] Dyrka et al. Algorithms for Molecular Biology 2013, 8:31

  • Beyond N-gram modelling of documents

    Matthias Gallé (Xerox Grenoble)
    Thursday, February 6, 2014 - 10:30
    Room Aurigny
    Talk abstract: 

    The traditional way of modeling textual documents for text analytics is the bag-of-words or bag-of-ngrams approach. Besides the good performance of this lossy representation in machine learning applications it has some well known shortcomings due to the independence assumption of each n-gram.We propose an alternative representation based on repeated substrings of unbounded length (infinity-grams). In this talk we will show some applications, show how to overcome some computational challenges and will concentrate on the problem of recovering bigger chunks of texts when the only available information are n-grams.

  • San analogy between symbolic extensions and the multiscale structure of genomes

    Alejandro Maass (University of Chile)
    Thursday, January 30, 2014 - 10:30
    Room Aurigny
    Talk abstract: 

    A genome of a living organism consists of a long string of symbols over a finite alphabet carrying critical information for the organism. This includes its ability to control post natal growth, homeostasis, adaptation to changes in the surrounding environment, or to biochemically respond at the cellular level to various specific regulatory signals. In this sense, a genome represents a symbolic encoding of a highly organized system of information whose functioning may be revealed as a natural multilayer structure in terms of complexity and prominence. In this talk we use the mathematical theory of symbolic extensions trying "to speculate” a framework to shed light onto how this multilayer organization is reflected in the symbolic coding of the genome. The distribution of data in an element of a standard symbolic extension of a dynamical system has a specific form: the symbolic sequence is divided into several subsequences (which we call layers) encoding the dynamics on various "scales". We propose that a similar structure resides within the genomes, building our analogy on some of the most recent findings in the field of regulation of genomic DNA functioning.  

  • The evolution of tandem repeats in eukaryotic proteomes

    Elke Schaper (Institute for Integrative Biology, ETH Zurich)
    Thursday, January 23, 2014 - 10:30
    Room Aurigny
    Talk abstract: 

    Tandem repeats (TRs) are a major element of protein and nucleic sequences in all domains of life.  High generation-scale duplication and deletion rates were reported for nucleic TR units. However, it is not known whether protein TR units can also be frequently lost or gained - perhaps providing a source of variation for rapid adaptation of protein function, or alternatively, tend to have conserved TR unit configurations over long evolutionary times.  To obtain a systematic picture for proteins TRs, we performed a proteome-wide analysis of the mode of evolution of eukaryotic TRs. 

    In my talk, I’ll walk you through our analysis:

    - What are the obstacles with genome wide TR detection & annotation, what can be done about it?
    - How to detect orthologous TRs unbiased to perform a comparative analysis?
    - How did we use TR unit phylogenies to discern the mode of evolution of TRs?
    - And finally the surprise: What were the results of our analyses - How fast do eukaryotic protein TRs evolve, and why is it so?


  • Analogie Formelle : Proportion analogique, Analogie et Analyse Formelle de Concepts.

    Nelly Barbot, Laurent Miclet (IRISA) et Henri Prade (IRIT)
    Thursday, January 16, 2014 - 10:30
    Room Aurigny
    Talk abstract: 

    Ce travail a pour objet de définir comment la notion de proportion analogique
    peut s'appliquer dans un treillis de concepts obtenu à partir d'un contexte formel.
    Rappelons qu'une proportion analogique s'énonce : "a est à b comme c est à d", avec quatre éléments de même nature,
    comme par exemple "le veau est au taureau ce que le poulain est à l'étalon" pour quatre mammifères.

    La notion de proportion analogique est désormais bien explorée dans le cas des treillis booléens,
    pour lesquels la propriété de distributivité induit de bonnes propriétés. Par exemple
     le nombre de solutions à une équation analogique (trouver x tel que "a est à b comme c est à x")
    y est toujours 0 ou 1. De plus, si x existe, on sait le calculer explicitement.

    Dans un treillis de concepts, il n'y a pas en général de distributivité et pas de proportion analogique
    au sens de la définition dite de "factorisation" introduite par Yvon et Stroppa.
    On propose donc une définition plus faible ("Weak Analogical Proportion"),
    qui s'énonce ainsi :
    (a,b,c,d) sont en WAP ssi
    (a join d) = (b join c) et (a meet d) = (b meet c).

    On s'intéresse en particulier aux cas où les quatre concepts ne sont reliés par aucune relation d'inclusion.
    Dans ce cas, on montre qu'il existe un contexte minimal produisant une WAP entre concepts.

    On s'intéresse aussi à la notion d'analogie qui s'énonce aussi
    "a est à b comme c est à d", mais avec seulement a et c d'une part, et b et d, d'autre part, de même nature,
    par exemple "la nageoire est au poisson ce que le l'aile est à l'oiseau".
    Il semble que le cadre des contextes formels permette de modéliser assez naturellement cette figure de style.

    Les buts pratiques de cette étude concernent l'utilisation de la proportion analogique et de l'analogie
    en raisonnement et en apprentissage, dans le cadre de la théorie des concepts formels.

  • MACSE, MapNH et HomeoSplitter : 3 outils pour l’analyse de séquences nucléotidiques codantes (exons, CDS)

    Vincent Ranwez (Montpellier SupAgro)
    Thursday, January 9, 2014 - 10:30
    Room Aurigny
    Talk abstract: 

    Ce séminaire sera l’occasion de présenter les bases méthodologiques et des exemples d’applications (sur les mammifères et sur le blé dur) de 3 outils que nous avons récemment développés pour l’analyse de séquences nucléotidiques codantes. Ces outils sont tous téléchargeables gratuitement :,, MACSE (Multiple Alignment of Coding SEquences) [1] est une solution algorithmique spécialement conçue pour l’alignement multiple de séquences nucléotidiques codantes. MACSE prend en compte la traduction en acides aminés de ces séquences pour les aligner tout en autorisant l’apparition de changements de cadre de lecture et de codons stop (Ranwez et al. 2011). L’intérêt de MACSE réside dans sa capacité à aligner des séquences contenant des changements de cadre de lecture réels (ex. pseudogènes) ou apparents (erreurs de séquençage). Puisqu’ils préservent le cadre de lecture, les alignements inférés par MACSE peuvent notamment être directement utilisés pour faire des études de dN/dS ou de πN/ πS.MapNH [2] permet d’inférer, sur la base d’un modèle d’évolution homogène, les différents changements nucléotidiques qui se sont vraisemblablement produits sur chacune des branches d’une phylogénie [1]. MapNH permet ainsi d’obtenir des estimations de dN/dS aussi fiables qu’avec PAML mais de manière beaucoup plus rapide.En utilisant MACSE et MapNH nous avons conduit une étude sur l’évolution des CDS des génomes de mammifères qui indique que l’ancêtre des mammifères était vraisemblablement une espèce longévive [3]. Avec les outils de séquençage haut débit, l’assemblage de CDS et la détection de SNP sont devenues des taches relativement routinières pour les espèces diploïdes. Elles restent cependant problématiques pour les espèces polyploïdes, notamment suite aux confusions entre locus homéologues qui peuvent être assemblés de manière erronée en un seul contig.HomeoSplitter [4] utilise une approche par maximum de vraisemblance pour séparer efficacement de tels contigs chimériques en deux contigs homologues sur la base de leur différentiel d’expression. Nous avons validé HomeoSplitter sur des données RNAseq réelles issues de trente accessions de blé dur (Triticum turgidum, tétraploïde contenant les génomes A et B, 2n=4x=28). Les transcriptomes des espèces diploïdes donneuses des génomes élémentaires, Aegilops speltoides (proche du génome B) et Triticum urartu (proche du génome A) ont été utilisés comme élément de comparaison afin de valider la méthode. HomeoSplitter constitue une solution pratique résolvant les problèmes de mélange des homéo-génomes pour les espèces allo-tétraploïdes, et permet une détection des SNP plus performante chez ces espèces. 1. MACSE : Multiple Alignment of Coding SEquences accounting for frameshifts and stop codons. Vincent Ranwez, Sébastien Harispe, Frédéric Delsuc, Emmanuel JP Douzery Plos One 6(9) : e22594.2. Fast and robust characterization of time-heterogeneous sequence evolutionary processes using substitution mapping. Jonathan Romiguier, Emeric Figuet, Nicolas Galtier, Emmanuel JP Douzery, Bastien Boussau, Julien Y Dutheil, Vincent Ranwez. Plos One (2012) 7(3): e33852.3. Genomic Evidence for Large, Long-Lived Ancestors to Placental Mammals. J. Romiguier, V. Ranwez, E.J.P. Douzery, N. Galtier. Molecular Biology and Evolution  (2013) 30(1):5-134. Disentangling homeologous contigs in allo-tetraploid assembly: application to durum wheat. V Ranwez, Y Holtz, G Sarah, M Ardisson, S Santoni, S Glémin, M Tavaud-Pirra . BMC Bioinformatics 14 (Suppl 15), S15 (RECOMB-CG 2013 special issue).