Symbiose seminars

  • Design algorithmique de proteines, Optimisation Combinatoire et Comptage

    Thomas Schiex (Inra Toulouse)
    Thursday, May 21, 2015 - 10:30
    Room Minquiers
    Talk abstract: 

    Depuis une dizaine d'années, un nombre croissant de nouvelles protéines ont été créées en suivant un processus de conception semi-rationnel. Le but ultime du "Computational Protein Design"  est d'obtenir une séquence d'acides aminés qui se repliera selon une structure choisie. Le plus souvent, il s'agit d'obtenir une nouvelle enzyme, parfois, une nouvelle structure pour les nanotechnologies. Avec 20 acides aminés, l'espace des séquences est très combinatoire et son exploration systématique, voire "dirigée", par des voies expérimentales est peu efficace. Pour focaliser cette recherche, l'approche rationnelle consiste à modéliser la protéine comme un objet tridimensionnel soumis à des forces variées (internes, van der Waals, électrostatiques et interactions avec le milieu) et à rechercher une séquence la plus stable possible étant donnée un squelette fixé. Même avec des hypothèses simplificatrices fortes, c'est un problème d'optimisation combinatoire extrêmement difficile à modéliser, et à résoudre. Au cœur d'une grande partie des approches actuelles réside cependant un problème d'optimisation de formulation simple, avec un squelette rigide, une flexibilité des chaînes latérales représentées par une librairie de conformations (rotamères) et un champ d'énergie décomposable. Nous verrons que ce problème peut se modéliser mathématiquement dans une grande variété de formalismes usuels pour l'optimisation et que la programmation par contraintes pondérée (ou réseaux de fonctions de coûts) semble particulièrement efficace. Une brève introduction aux principaux outils algorithmiques utilisés dans ce domaine sera présentée.

  • Variant detection and assembly via maximal clique enumeration

    Alexander Schoenhuth (CWI)
    Thursday, April 30, 2015 - 10:30
    Room Minquiers
    Talk abstract: 
    Abstract: When searching for genetic variants in genomes or assembling them, the ploidy inherent to the organism can pose severe challenges. Often, techniques are desired that can assign reads to the haplotypes from which they stem. Here, we suggest to make use of overlap-like graphs where nodes represent reads and/or their alignments, and edges indicate, based on sound statistical considerations, that two reads may, sufficiently likely, stem from locally similar haplotypes. By varying the precise definition of the edges, we can identify maximal cliques in the graphs as either groups of reads that indicate single variants, or, alternatively (by a stricter edge definition), to indeed indicate that reads stem from sequentially locally identical haplotypes. We have implemented these two ideas in form of two algorithms, CLEVER and HaploClique, which we will discuss.
    
  • Diversité de communautés de reads et structure de nuages de points

    Alain Franc (Inra Bordeaux)
    Thursday, April 2, 2015 - 10:30
    Room Minquiers
    Talk abstract: 

    P { margin-bottom: 0.21cm; }
    Il y a une quarantaine d'années, la phytosociologie (étude des communautés de plantes) et le traitement des données (notramment l'AFC) se sont rapprochés, ainsi que la taxonomie et les méthodes de classification, pour construire ce qui est devenu l'écologie statistique. Les outils et méthodes, comme la dimension des tableaux de données, étaient de l'ordre de quelques centaines d'individus tout au plus, limités tant par le coût d'aquisition des données (organismes reconnus et inventoriés) que la puissance ds calculs. Quarante ans plus tard, le paysage a profondément changé. Les données sont devenues moléculaires, avec un coût d'acquisition faible pour des millions de specimens. De plus, les paradigmes biologiques liés à la diversité ont également changé, avec un rapprochement non achevé entre la génétique des populations et l'écologie des communautés, dans un cadre évolutif. Je présenterai une chaîne de traitement pour décrire et comprendre la structure de la diversité moleculaire en prenant comme exempe un ensemble de reads (un métagénome) issus d'un séquançage NGS sur amplicons (une même région), du marqueur rbcL, d'une communautés de diatomées. Le passage à l'échelle est en cours, et non abouti. C'est l'objet du travail présenté. Tout commence par une distance. La distance liée à l'alignement local de deux séquences a été choisie ici, avec un travail en parallèle sur les distances évolutives (âge de l'ancêtre commun le plus proche). Le lien entre distance ulamétrique et taxonomie est naturel. L'idée ancienne est de construire un nuage de points tels que leurs distances euclidiennes soient aussi proche que possible des distances génétiques. La construction de la matrice de distances, le traitement par multidimensional scaling, ou par classification, sont en compexité cubique ou quadratique vis à vis du jeu de données. Je présenterai quelques variants connus mais peu utilisés de la MDS, ainsi qu'un lien entre classification et composantes connexes de graphes induits par les matrices de distances, pour aller vers des méthodes de complexité linéaire avec la taille du jeu de données. Une idée est de ne travailler qu'avec des distances entre voisins, et non sur l'ensemble des paires possibles, et de disposer d'un algorithme en temps linéaire pour décider si deux séquences sont voisines ou non. Cette notion de voisinage permet de présenter un lien dont l'étude se développe depuis une dizaine d'années entre traitement de données et la géométrie des variétés. Une question abordée également est le choix de la dimension de l'espace de travail : une grande dimension permet des représentatons exactes, mais on tombe dans la malédiction de la dimension, et une dimension faible permet une bonne sécurité des algorithmes de classification par exemple, mais sur une image approchée du nuage de points. 

    P { margin-bottom: 0.21cm; }
    Alain Franc & al., Equipe Pleiade, INRIA, & UMR BioGeCo, INRA, Bordeaux 

  • Handling large logical models: the role of model reduction

    Aurélien Naldi
    Wednesday, April 1, 2015 - 10:30
    Room Aurigny
    Talk abstract: 
    Logical (discrete) models have been used to study numerous
    biological regulatory networks over the last 40 years.
    The increasing size of the networks of interest calls
    for formal methods for their dynamical analysis.
    Model reduction aims at constructing "simpler" version
    of the models by taking out selected components while
    preserving important dynamical properties.
    Here we will discuss the effect of model reduction on
    the dynamical behaviour of logical models, in particular
    the attractors and their reachability, as well as its
    connections with other formal methods.
  • Easy identification of generalized common and conserved nested intervals

    Mathieu Raffino (LIAFA)
    Monday, March 23, 2015 - 14:00
    Room Aurigny
    Talk abstract: 


    In this presentation I will explain how to easily compute gene clusters
    formalized by generalized nested common or conserved intervals between
    a set of K genomes represented as K permutations. A b-nested
    common (resp. conserved) interval I of size |I| is either an
    interval of size 1 or contains another b-nested common
    (resp. conserved) interval of size at least |I|-b. When b=1, this
    corresponds to the original notion of nested interval. We exhibit two
    simple algorithms to output all b-nested common or conserved
    intervals between K permutations in O(Kn+nocc) time,
    where nocc is the total number of such intervals. We eventually
    explain how to count all b-nested intervals in O(Kn) time. Joint work with
    Fabien de Mongolfier (LIAFA, Paris-7) and Irena Rusu (LINA, Univ. of Nantes).

  • Génomique du cancer : Identification d'altérations génétiques du mélanome chez le modèle canin par Exome et RNAseq

    Christophe Hitte (IGDR - CNRS)
    Thursday, March 19, 2015 - 10:30
    Room Turing/Petri
    Talk abstract: 
    Le mélanome est un cancer de la peau agressif dont l’incidence est en hausse avec plus de 76000 nouveaux cas par an aux États-Unis et 7400 en France. Il existe plusieurs types de mélanomes, le type cutané induit par l’exposition solaire et plusieurs types non-induits par les UV qui se classent et caractérisent selon leurs histologie et localisation anatomique. Il existe également des formes familiales suggérant une prédisposition génétique et des facteurs de risque constitutifs. Le chien est un bon modèle naturel des mélanomes, fondé sur des prédispositions génétiques et le développement de tumeurs spontanées aux propriétés similaires à celles des tumeurs humaines. Nous avons produit et analysé 150 exomes (échantillons tumoral et contrôle pairés) d'une cohorte de 75 chiens de trois races atteints de mélanome muqueux dans le but de déterminer les mutations somatiques acquises au cours du processus tumoral. Nous avons détecté l’ensemble des mutations somatiques notamment celles de faible fréquence car présentes dans un sous-ensemble des cellules du tissu tumoral. La prise en compte de la significativité statistique, de l’annotation des variants, de la prédiction de leur impact fonctionnel, et de leur niveau d’expression permet de discriminer les gènes ‘driver’ contribuant à la progression tumorale des gènes ‘passengers’. Nous avons identifié plus de 40 gènes ‘driver’ mutés de manière significative et récurrent dans plusieurs tumeurs. L’analyse en pathways et des termes GO suggèrent que les principales voies mutées contribuent à l'oncogenèse et la progression tumorale. 
  • Reconstructing the history of speciation from NGS data, accounting for genome-wide heterogeneity in introgression rates

    Nicolas Bierne (CNRS Montpellier)
    Thursday, March 5, 2015 - 10:30
    Room Minquiers
    Talk abstract: 

    Methods to reconstruct the history of divergence and gene flow between populations of closely related taxa with molecular data do not cease improving. It has recently become possible to account for genome-wide heterogeneity (GWH) in introgression rates. Not only this has proven to have profound impacts on the biological conclusions drawn from the inference, but when applied to large NGS datasets can also provide an estimate of the proportion of the genome impeded by the barrier to gene flow. We have evaluated the relative performance of two highly flexible methods on NGS data: (i) a composite maximum likelihood (CML) method that uses diffusion approximation of the joint site frequency spectrum (JSFS) and (ii) an Approximate Bayesian Computation (ABC) method. The CML method makes a number of assumptions that are likely to be violated and also miss some important information of RNA-seq data to account for GWH. The ABC method is much computationally intensive but allows to relax some assumptions and to better extract the between-contig variation that can be important to correctly infer GWH. Methods are applied to RNA-seq datasets of 70 pairs of taxa of animals that were not initially chosen to champion one or another model of speciation (e.g. sympatry vs. allopatry). We show that GWH is widespread, that divergence times are underestimated when GWH is not accounted for, and initiate a description of the relationship between divergence and genome porosity from this kind of analysis.

     

  • Graines approchees pour la recherche de courts motifs, application aux microARN

    Hélène Touzet (Inria Lille)
    Thursday, February 26, 2015 - 10:30
    Room Minquiers
    Talk abstract: 

    Les méthodes de comparaison de séquence les plus populaires utilisent
    une approche par filtrage, en deux temps: recherche de petits motifs
    communs, appelés graines, puis combinaison de ces motifs pour former
    un alignement. Ce paradigme se décline de manière variable en fonction
    du modèle combinatoire utilisé pour la graine: graine contigue, graine
    espacée, graine avec erreurs, etc.  Ce choix conditionne la
    sensibilité, la spécificité et l'efficacité de la recherche.

    Dans cet exposé, nous présenterons un nouveau type de graines,
    appelées graines 01*0, qui autorisent des erreurs de type insertion,
    délétion et substitution. Ces graines sont particulièrement bien
    adaptées à la recherche de courts motifs bruités. Nous montrerons deux
    exemples d'application issus du monde des microARN: la recherche de
    cibles de microARN, et la recherche de microARN homologues.

  • Knowledge-based generalization for metabolic models

    Anna Zhukova (IBGC Bordeaux)
    Thursday, February 12, 2015 - 10:30
    Room Minquiers
    Talk abstract: 

    Genome-scale metabolic models describe the relationships between thousands of reactions and biochemical molecules, and are used to improve our understanding of organism’s metabolism. They found applications in pharmaceutical, chemical and bioremediation industries.

    The complexity of metabolic models hampers many tasks that are important during the process of model inference, such as model comparison, analysis, curation and refinement by human experts. The abundance of details in large-scale networks can mask errors and important organism-specific adaptations. It is therefore important to find the right levels of abstraction that are comfortable for human experts. These abstract levels should highlight the essential model structure and the divergences from it, such as alternative paths or missing reactions, while hiding inessential details.

    To address this issue, we defined a knowledge-based generalization that allows for production of higher-level abstract views of metabolic network models. We developed a theoretical method that groups similar metabolites and reactions based on the network structure and the knowledge extracted from metabolite ontologies, and then compresses the network based on this grouping. We implemented our method as a python
    library, that is available for download from metamogen.gforge.inria.fr.

    To validate our method we applied it to 1 286 metabolic models from the Path2Model project, and showed that it helps to detect organism-, and domain-specific adaptations, as well as to compare models.

    Based on discussions with users about their ways of navigation in metabolic networks, we defined a 3-level representation of metabolic networks: the full-model level, the generalized level, the compartment level. We combined our model generalization method with the zooming user interface (ZUI) paradigm and developed Mimoza, a user-centric tool for zoomable navigation and knowledge-based exploration of metabolic networks that produces this 3-level representation. Mimoza is available both as an on-line tool and for download at mimoza.bordeaux.inria.fr.

  • Internal coarse-graining of molecular systems

    Jérôme Feret (ENS Ulm)
    Monday, February 9, 2015 - 10:30
    Room Minquiers
    Talk abstract: 
    Modelers of molecular signaling networks must cope with the
    combinatorial explosion of protein states generated by
    post-translational modifications and complex formation. Rule-based
    models provide a powerful alternative to approaches that require an
    explicit enumeration of all possible molecular species of a system. Such
    models consist of formal rules stipulating the (partial) contexts for
    specific protein-protein interactions to occur. These contexts specify
    molecular patterns that are usually less detailed than molecular
    species. Yet, the execution of rule-based dynamics requires stochastic
    simulation, which can be very costly. It thus appears desirable to
    convert a rule-based model into a reduced system of differential
    equations by exploiting the lower resolution at which rules specify
    interactions. We present a formal (and automated) abstract
    interpretation-based method for constructing a coarse-grained and
    self-consistent dynamical system aimed at molecular patterns that are
    distinguishable by the dynamics of the original system as posited by the
    rules. The method is formally sound and never requires the execution of
    the rule-based model. The coarse-grained variables do not depend on the
    values of the rate constants appearing in the rules, and typically form
    a system of greatly reduced dimension that can be amenable to numerical
    integration and further model reduction techniques.

Pages