Symbiose seminars

  • Operator-valued kernels for network inference

    Florence d'Alché-Buc (Université d’Evry-Val d’Essonne)
    Thursday, March 20, 2014 - 10:30
    Room Aurigny
    Talk abstract: 

    Reverse engineering of gene regulatory networks remainsa central challenge in computational systems biology, despite recent advances facilitated by benchmark in-silico challenges that have aidedin calibrating their performance. A number of approaches using either perturbation (knock-out) or wild-type time series data have appeared in the literature addressing this problem, with the latter employing linear temporal models.Nonlinear dynamical models are particularly appropriate for this inference task given the generation mechanism of the time series data. In this study, we introduce a novel nonlinear autoregressive model based on operator-valued kernels that simultaneously learns themodel parameters, as well as the network structure. As all kernel-based methods, this new model benefits from the regularization framework and a great flexibility. The empirical estimation of the  model's Jacobian matrix provides an estimation of the network structure.We propose a new learning method based on boosting.The performance of the proposed algorithm is evaluated on a number of benchmark data sets from the DREAM3 challenge and then, on real datasets related to the IRMA and T-cell networks. 

  • A framework based on probabilistic context-free grammars and a genetic algorithm for analysis of protein sequences

    Witold Dyrka (Inria Bordeaux)
    Thursday, February 27, 2014 - 10:30
    Room Aurigny
    Talk abstract: 

    Hidden Markov Models power many state-of-the-art tools in the field of protein bioinformatics. While excelling in their tasks, these methods of protein analysis do not convey directly information on medium and long-range residue-residue interactions. This requires an expressive power of at least context-free grammars. However, application of more powerful grammar formalisms to protein analysis has been surprisingly limited. To address this problem, we have developed a probabilistic grammatical framework for problem-specific protein languages. The core of the model consists of a probabilistic context-free grammar (PCFG), automatically inferred by a genetic algorithm from only a generic set of expert-based rules and positive training sequences represented by physico-chemical properties. We tested the PCFG framework in the context of detection of ligand binding sites [1] and classfication of helix‐helix contact sites, where it outperformed the state-of-the-art [2]. Recently, we used the model to distinguish between amyloidogenic and non-amyloidogenic protein fragments and achieved good results (AUROC up to 0.80). A significant feature of the PCFG approach is the explanatory power of grammar rules and parse trees, which could provide biologically meaningful information. This is a joint work with Jean-Christophe Nebel, Malgorzata Kotulska and Florence Thirion.
    [1] Dyrka and Nebel. BMC Bioinformatics 2009, 10:323
    [2] Dyrka et al. Algorithms for Molecular Biology 2013, 8:31

  • Beyond N-gram modelling of documents

    Matthias Gallé (Xerox Grenoble)
    Thursday, February 6, 2014 - 10:30
    Room Aurigny
    Talk abstract: 

    The traditional way of modeling textual documents for text analytics is the bag-of-words or bag-of-ngrams approach. Besides the good performance of this lossy representation in machine learning applications it has some well known shortcomings due to the independence assumption of each n-gram.We propose an alternative representation based on repeated substrings of unbounded length (infinity-grams). In this talk we will show some applications, show how to overcome some computational challenges and will concentrate on the problem of recovering bigger chunks of texts when the only available information are n-grams.

  • San analogy between symbolic extensions and the multiscale structure of genomes

    Alejandro Maass (University of Chile)
    Thursday, January 30, 2014 - 10:30
    Room Aurigny
    Talk abstract: 

    A genome of a living organism consists of a long string of symbols over a finite alphabet carrying critical information for the organism. This includes its ability to control post natal growth, homeostasis, adaptation to changes in the surrounding environment, or to biochemically respond at the cellular level to various specific regulatory signals. In this sense, a genome represents a symbolic encoding of a highly organized system of information whose functioning may be revealed as a natural multilayer structure in terms of complexity and prominence. In this talk we use the mathematical theory of symbolic extensions trying "to speculate” a framework to shed light onto how this multilayer organization is reflected in the symbolic coding of the genome. The distribution of data in an element of a standard symbolic extension of a dynamical system has a specific form: the symbolic sequence is divided into several subsequences (which we call layers) encoding the dynamics on various "scales". We propose that a similar structure resides within the genomes, building our analogy on some of the most recent findings in the field of regulation of genomic DNA functioning.  

  • The evolution of tandem repeats in eukaryotic proteomes

    Elke Schaper (Institute for Integrative Biology, ETH Zurich)
    Thursday, January 23, 2014 - 10:30
    Room Aurigny
    Talk abstract: 

    Tandem repeats (TRs) are a major element of protein and nucleic sequences in all domains of life.  High generation-scale duplication and deletion rates were reported for nucleic TR units. However, it is not known whether protein TR units can also be frequently lost or gained - perhaps providing a source of variation for rapid adaptation of protein function, or alternatively, tend to have conserved TR unit configurations over long evolutionary times.  To obtain a systematic picture for proteins TRs, we performed a proteome-wide analysis of the mode of evolution of eukaryotic TRs. 

    In my talk, I’ll walk you through our analysis:

    - What are the obstacles with genome wide TR detection & annotation, what can be done about it?
    - How to detect orthologous TRs unbiased to perform a comparative analysis?
    - How did we use TR unit phylogenies to discern the mode of evolution of TRs?
    - And finally the surprise: What were the results of our analyses - How fast do eukaryotic protein TRs evolve, and why is it so?


  • Analogie Formelle : Proportion analogique, Analogie et Analyse Formelle de Concepts.

    Nelly Barbot, Laurent Miclet (IRISA) et Henri Prade (IRIT)
    Thursday, January 16, 2014 - 10:30
    Room Aurigny
    Talk abstract: 

    Ce travail a pour objet de définir comment la notion de proportion analogique
    peut s'appliquer dans un treillis de concepts obtenu à partir d'un contexte formel.
    Rappelons qu'une proportion analogique s'énonce : "a est à b comme c est à d", avec quatre éléments de même nature,
    comme par exemple "le veau est au taureau ce que le poulain est à l'étalon" pour quatre mammifères.

    La notion de proportion analogique est désormais bien explorée dans le cas des treillis booléens,
    pour lesquels la propriété de distributivité induit de bonnes propriétés. Par exemple
     le nombre de solutions à une équation analogique (trouver x tel que "a est à b comme c est à x")
    y est toujours 0 ou 1. De plus, si x existe, on sait le calculer explicitement.

    Dans un treillis de concepts, il n'y a pas en général de distributivité et pas de proportion analogique
    au sens de la définition dite de "factorisation" introduite par Yvon et Stroppa.
    On propose donc une définition plus faible ("Weak Analogical Proportion"),
    qui s'énonce ainsi :
    (a,b,c,d) sont en WAP ssi
    (a join d) = (b join c) et (a meet d) = (b meet c).

    On s'intéresse en particulier aux cas où les quatre concepts ne sont reliés par aucune relation d'inclusion.
    Dans ce cas, on montre qu'il existe un contexte minimal produisant une WAP entre concepts.

    On s'intéresse aussi à la notion d'analogie qui s'énonce aussi
    "a est à b comme c est à d", mais avec seulement a et c d'une part, et b et d, d'autre part, de même nature,
    par exemple "la nageoire est au poisson ce que le l'aile est à l'oiseau".
    Il semble que le cadre des contextes formels permette de modéliser assez naturellement cette figure de style.

    Les buts pratiques de cette étude concernent l'utilisation de la proportion analogique et de l'analogie
    en raisonnement et en apprentissage, dans le cadre de la théorie des concepts formels.

  • MACSE, MapNH et HomeoSplitter : 3 outils pour l’analyse de séquences nucléotidiques codantes (exons, CDS)

    Vincent Ranwez (Montpellier SupAgro)
    Thursday, January 9, 2014 - 10:30
    Room Aurigny
    Talk abstract: 

    Ce séminaire sera l’occasion de présenter les bases méthodologiques et des exemples d’applications (sur les mammifères et sur le blé dur) de 3 outils que nous avons récemment développés pour l’analyse de séquences nucléotidiques codantes. Ces outils sont tous téléchargeables gratuitement :,, MACSE (Multiple Alignment of Coding SEquences) [1] est une solution algorithmique spécialement conçue pour l’alignement multiple de séquences nucléotidiques codantes. MACSE prend en compte la traduction en acides aminés de ces séquences pour les aligner tout en autorisant l’apparition de changements de cadre de lecture et de codons stop (Ranwez et al. 2011). L’intérêt de MACSE réside dans sa capacité à aligner des séquences contenant des changements de cadre de lecture réels (ex. pseudogènes) ou apparents (erreurs de séquençage). Puisqu’ils préservent le cadre de lecture, les alignements inférés par MACSE peuvent notamment être directement utilisés pour faire des études de dN/dS ou de πN/ πS.MapNH [2] permet d’inférer, sur la base d’un modèle d’évolution homogène, les différents changements nucléotidiques qui se sont vraisemblablement produits sur chacune des branches d’une phylogénie [1]. MapNH permet ainsi d’obtenir des estimations de dN/dS aussi fiables qu’avec PAML mais de manière beaucoup plus rapide.En utilisant MACSE et MapNH nous avons conduit une étude sur l’évolution des CDS des génomes de mammifères qui indique que l’ancêtre des mammifères était vraisemblablement une espèce longévive [3]. Avec les outils de séquençage haut débit, l’assemblage de CDS et la détection de SNP sont devenues des taches relativement routinières pour les espèces diploïdes. Elles restent cependant problématiques pour les espèces polyploïdes, notamment suite aux confusions entre locus homéologues qui peuvent être assemblés de manière erronée en un seul contig.HomeoSplitter [4] utilise une approche par maximum de vraisemblance pour séparer efficacement de tels contigs chimériques en deux contigs homologues sur la base de leur différentiel d’expression. Nous avons validé HomeoSplitter sur des données RNAseq réelles issues de trente accessions de blé dur (Triticum turgidum, tétraploïde contenant les génomes A et B, 2n=4x=28). Les transcriptomes des espèces diploïdes donneuses des génomes élémentaires, Aegilops speltoides (proche du génome B) et Triticum urartu (proche du génome A) ont été utilisés comme élément de comparaison afin de valider la méthode. HomeoSplitter constitue une solution pratique résolvant les problèmes de mélange des homéo-génomes pour les espèces allo-tétraploïdes, et permet une détection des SNP plus performante chez ces espèces. 1. MACSE : Multiple Alignment of Coding SEquences accounting for frameshifts and stop codons. Vincent Ranwez, Sébastien Harispe, Frédéric Delsuc, Emmanuel JP Douzery Plos One 6(9) : e22594.2. Fast and robust characterization of time-heterogeneous sequence evolutionary processes using substitution mapping. Jonathan Romiguier, Emeric Figuet, Nicolas Galtier, Emmanuel JP Douzery, Bastien Boussau, Julien Y Dutheil, Vincent Ranwez. Plos One (2012) 7(3): e33852.3. Genomic Evidence for Large, Long-Lived Ancestors to Placental Mammals. J. Romiguier, V. Ranwez, E.J.P. Douzery, N. Galtier. Molecular Biology and Evolution  (2013) 30(1):5-134. Disentangling homeologous contigs in allo-tetraploid assembly: application to durum wheat. V Ranwez, Y Holtz, G Sarah, M Ardisson, S Santoni, S Glémin, M Tavaud-Pirra . BMC Bioinformatics 14 (Suppl 15), S15 (RECOMB-CG 2013 special issue).

  • EXOCANCER : Recherche par exome de nouveaux gènes de prédisposition en oncogénétique

    Marie de Tayrac (IGDR, Rennes1)
    Thursday, December 12, 2013 - 10:30
    Room Aurigny
    Talk abstract: 

    Lors des consultations d’oncogénétique, la recherche des gènes de prédisposition aux cancers est proposée dans le cadre d’une histoire familiale lourde ou de la survenue d’un cancer rare ou à un âge inapproprié. Pour 85% des patients, les résultats de ces recherches sont non-concluants et traduisent l’existence de gènes de prédisposition encore inconnus à ce jour. A l’heure actuelle, le développement des technologies de séquençage nouvelle génération ouvre la possibilité d’étendre systématiquement cette recherche à l’ensemble des séquences codantes du génome (exome). Ce type d’analyse s’avère en effet particulièrement adapté à la découverte de nouveaux gènes impliqués dans ces situations et par conséquent permettra l’amélioration de la prise en charge des patients et de leurs familles. Ainsi, nous développons deux approches, l’une vise à identifier les variants génétiques en cause dans la survenue de cancers sporadiques rares chez l’adulte jeune ou chez l’enfant (recherche de mutation de novo par étude de trio père-mère-enfant) ; l’autre s’appuie sur l’étude de rares cas de famille possédant plusieurs membres atteints de tumeurs cérébrales particulièrement agressives, afin d’identifier les variants génétiques en cause dans la survenue de ces tumeurs. En parallèle de ces recherches sur l’ADN constitutionnel des patients et de leur famille, nous étudions l’ADN somatique des patients afin d’établir une cartographie des altérations caractéristiques de leur tumeur (SNVs, INDELs, CNVs, LOH, translocations…). La combinaison de ces différentes approches fournira une meilleure compréhension des voies moléculaires impliquées dans l’initiation tumorale et permettra l’amélioration du conseil génétique par la mise au point de tests diagnostiques étendus, mais également, l’orientation des patients vers une thérapeutique ciblée, si elle existe.  

  • Sensitive detection of large structural variants in the tumor samples: from algorithms to the detection of chromothripsis in neuroblastoma.

    Valentina Boeva (Inserm / Curie)
    Thursday, December 5, 2013 - 10:30
    Room Aurigny
    Talk abstract: 

    In addition to point mutations, cancer genomes often display large genetic abnormalities: copy number alterations (CNAs) and structural variants (SVs) (Hanahan and Weinberg, 2011). Genetic abnormalities in specific regions may be related to the aggressiveness of a cancer and be associated with clinical outcomes. In cancer, tumor suppressor genes can be deleted or mutated, whereas oncogenes can be amplified or mutated with a gain of function. At the same time, translocations can result in cancer-causing fusion proteins (BCR/ABL fusion in CML, BCL1/IGH in multiple myeloma, EWS/FLI1 in Ewing sarcoma, etc.)
    With the arrival of new high-throughput sequencing technologies, our current power to detect genetic abnormalities has significantly improved. Genomic breakpoints of large structural variants (i.e., translocations or large duplications and deletions) can be identified using two complementary approaches: (1) analysis of ‘discordant’ mate-paired/paired-ends mappings (PEMs) and (2) calculation segmentation of copy number and allelic content profiles and.
    To analyze PEM data, we developed a clustering-based approach SVDetect [2]. SVDetect finds clusters of ‘abnormal’ PEMs and uses all the characteristics of reads inside the clusters (orientation, order and clone insert size) to identify structural variant type. SVDetect allows identification of a large spectrum of rearrangements including large insertions-deletions, duplications, inversions, insertions of genomic shards and balanced/unbalanced intra/inter-chromosomal translocations. It calculates several parameters of reads inside putative SVs (e.g., percentage of discordant pairs) that allow the user to filter out false predictions.
    There is possibility to improve the selectivity of SVDetect predictions by combining SVDetect with Control-FREEC [3, 4] – our tool for identification of genomic regions of gain and loss. Control-FREEC is able to analyze over-diploid tumor samples and samples contaminated by normal cells. If sequencing coverage is large enough (>15x) Control-FREEC is able to calculate allelic content profiles and consequently predict loss of heterozygosity regions. The intersection of outputs produced by Control-FREEC and SVDetect allows (1) refining coordinates of CNAs using PEM data and (2) improving confidence in calling true positive rearrangements (particularly, in ambiguous satellite/repetitive regions).
    We applied this combined strategy to study SVs in neuroblastoma tumors [5]. Neuroblastoma is embryonal cancer of the sympathetic nervous system observed in early childhood. Structural chromosome aberrations are recurrently observed in aggressive cases of neuroblastoma. In this study, we investigated somatic rearrangements in two neuroblastoma cell lines and two primary tumors using paired-end sequencing of mate-pair libraries. In one cell line and in the two primary tumors, this approach confirmed the localization of the majority of rearrangements within one or two chromosomes, consistent with the phenomenon of chromothripsis. We further characterized 51 rearrangements at the base pair resolution. We concluded that both non-homologous end joining-mediated repair and replicative processes may account for genomic rearrangements in neuroblastoma.
    1. Hanahan, D. and Weinberg, R.A. (2011) Hallmarks of cancer: the next generation, Cell, 144, 646-674.
    2. B. Zeitouni et al. (2010) SVDetect - a bioinformatic tool to identify genomic structural variations from paired-end next-generation sequencing data, Bioinformatics, 26: 1895-1896.
    3. V. Boeva et al. (2011) Control-free calling of copy number alterations in deep-sequencing data using GC-content normalization, Bioinformatics, 27(2):268-9.
    4. V. Boeva et al. (2012) Control-FREEC: a tool for assessing copy number and allelic content using next generation sequencing data, Bioinformatics, 28(3):423-5.
    5. V. Boeva et al. (2013) Breakpoint features of genomic rearrangements in neuroblastoma with unbalanced translocations and chromothripsis. PLoS One. 8(8):e72182.

  • Extrêmophiles des fonds océaniques & Assemblage des communautés microbiennes

    Lois Maignien & Mohamed Jebbar (UBO - ifremer)
    Thursday, November 28, 2013 - 10:30
    Room Aurigny
    Talk abstract: 

    Deux exposés:

    Les microorganismes extrêmophiles des fonds océaniques : diversité et intérêt

    Prof. Mohamed JEBBAR

    Laboratoire de Microbiologie des environnements extrêmes UMR 6197, UBO-CNRS-Ifremer, IUEM, place Nicolas Copernic, Technopole Brest-Iroise, 29280 Plouzané, France,

    Tél : +33 298 498 817, Email : ; web :


    Depuis une vingtaine d’années, le Laboratoire de Microbiologie des Environnements extrêmes (LM2E, Brest) a exploré les environnements océaniques profonds et étudié les communautés microbiennes associées. Dans un premier temps il s’est intéressé aux sources hydrothermales et depuis une dizaine d’années il a étendu son champ d’investigation aux zones d’émission de fluides froids (des marges continentales, actives et passives) et aux sédiments marins profonds. Outre la profondeur, et donc l’omniprésence du paramètre pression, ces environnements ont en commun d’être pratiquement indépendants de l’énergie solaire et de la production primaire photosynthétique. Certes, l’oxygène des fonds océaniques provient de la photosynthèse, mais les procaryotes de ces écosystèmes basés sur la chimiosynthèse microbienne utilisent fréquemment d’autres accepteurs d’électrons. De même, la matière organique enfouie dans les sédiments profonds a une origine photosynthétique, mais il s’agit d’un stock ancien et non d’un apport contemporain. Enfin, certains microorganismes chimio-litho-autotrophes utilisent des sources d’énergie comme l’hydrogène, dont une partie est d’origine abiotique. Le LM2E a décrit une centaine d’espèces d’Archaea et de Bacteria issues principalement des sources hydrothermales. Il dispose d’une collection de 407 espèces et isolats d’Archaea et 693 espèces et isolats de Bacteria. Parmi les espèces décrites ou co-décrites par le LM2E et les laboratoires préexistants, plusieurs souches ont présenté, soit du fait de leur position dans l'arbre du vivant, de leur résistance à des conditions extrêmes ou de leur intérêt biotechnologique potentiel, suffisamment d'intérêt pour voir leur génome complètement séquencé (Pyrococcus abyssi, Thermococcus gammatolerans, Thermococcus barophilus MP, Thermococcus sp TV2, Thermococcus barophilus CH1 et CH5, Pyrococcus yayanosii, Palaeococcus pacificus, Marinitoga piezophila).


    Mécanismes d’assemblage des communautés microbiennes : des communautés aux gènes fonctionnels.

    Loïs Maignien

    Maitre de conférence

    Laboratoire de microbiologie des environnements extrêmes

    Université de Brest.


               «Tout est partout, mais l’environnement sélectionne» Cette citation de Baas-Becking (1934) est une idée fondatrice de l’écologie et de la biogéographie microbienne. L’intégration des NGS à la microbiologie environnementale, 80 ans plus tard, permet d’aborder ce type de question et mieux comprendre les mécanismes écologiques qui contrôlent la structure et la dynamique des communautés microbiennes. Nous avons utilisé la phyllosphere (les communautés associées aux parties aériennes des plantes) afin de déterminer la contribution relatives de mécanismes déterministes, tels que les paramètres environnementaux dont la prévalence est suggérée par Baas-Becking, mais aussi des processus stochastiques ou neutres, lors de l’assemblage de communautés microbiennes fonctionnelles.  L’analyse d’une série temporelle de 70 jours sur 32 plantes (Arabidopsis thaliana) a montré une convergence de la composition de la phyllosphere avec le temps, confirmant un rôle du recrutement sélectif par l’hôte au sein du microbiome de l’air. Cependant, l’abondance relative de chacun des taxa spécifiques de la phyllosphere est distribué de façon plus aléatoire, et dépend des chemins de dispersion via l’air. Le concept de metacommunauté permet de mieux expliquer le développement, à pression sélective égale, de communautés microbiennes différentes. De telles structures alternatives de communautés suggèrent que la sélection par l’hôte pourrait se faire moins au niveau des organismes que des gènes fonctionnels bactériens qui les composent. Après avoir comparé la structure des communautés de la phyllosphere, nous avons donc séquencé 23 metagenomes issus de cette série temporelle, et travaillons actuellement sur les méthodes de comparaison de metagenomes à partir des séquences brutes, de leur assemblage en contigs, ou de leur annotation fonctionnelles.

               Ces questions écologiques, ainsi que les méthodes développées dans le cadre de ce projet, seront appliquées à l’étude de l’assemblage des communautés extrêmophiles dans les grands fonds marins au sein du LM2E de Brest.