Symbiose seminars

  • L'hétérozygotie, problème technique ou objet d'étude ?

    Jean-François Flot (Evolutionary Biology & Ecology - Université Libre de Bruxelles)
    Thursday, January 14, 2016 - 10:30
    Room Aurigny
    Talk abstract: 

    Dans les études de phylogénie et de génomique il est courant de considérer l'hétérozygotie des organismes diploïdes comme un problème nuisible dont on cherche à se débarrasser afin d'obtenir des données exploitables. Si les séquences obtenues à partir d'individus hétérozygotes sont certes complexes, elles renferment néanmoins des trésors d'informations hélas trop peu souvent exploitées. A partir d'exemples divers (notamment coraux, amphipodes et rotifères), j'illustrerai certaines approches bioinformatiques permettant de tirer partie de l'hétérozygotie des organismes pour jeter un regard nouveau sur l'évolution et sur la dynamique de leur génome. 

  • L'assemblage de grands génomes à base des séquence PacBio vu des données

    Christophe Klopp
    Thursday, January 7, 2016 - 10:30
    Room Aurigny
    Talk abstract: 

    L'assemblage de génomes de grande taille est, depuis les débuts de la génomique, un sujet de grand intérêt pour les biologistes et de recherche pour les informaticiens. Une première génération d'assembleurs de type OLC (overlap layout consensus) a été développée pour le traitement des séquences de première génération appelées aussi séquences Sanger. La stratégie était alors le plus souvent de découper le génomes en morceaux (fosmides, BAC) et d'assembler les lectures provenant de ces morceaux avant de joindre ces premiers assemblages pour produire des morceaux de chromosomes. La diminution du coût de séquençages due à l'apparition des machines de seconde génération a poussé au développement de nouveaux algorithmes, souvent basés sur des graphes de de Bruinj, capables de traiter ces grandes masses de données. La troisième génération de séquenceurs est maintenant entrée dans une phase de maturité avec la capacité de produire d'assez grandes quantités de séquences très longues. Ceci remet en selle la première stratégie d'assemblage et certaines suites logicielles anciennes ayant été adaptées à ces nouvelles données. Les séquences étant de très faible qualité, il a toutefois été nécessaire d'ajouter une étape de correction en amont de l'assemblage. L'exposé présente l'évolution des stratégies d'assemblage en faisant un focus sur celles utilisant les séquences de troisième génération. l'évolution de la qualité des séquences aux différentes étapes de l'assemblage permettra de montrer impact de la correction mais aussi ses limites actuelles. L'exposé comprend des exemples issus d'assemblages de données publiques ou privées afin d'analyser à chaque étape la qualité des données en entrée et en sortie de manière à aussi trouver de possibles améliorations du processus.

  • Orthology-based genome annotation and interpretation

    Robert Waterhouse
    Thursday, December 3, 2015 - 10:30
    Room Métivier
    Talk abstract: 

    The OrthoDB catalogue of orthologues at www.orthodb.org [Kriventseva, et al. 2015], represents a comprehensive resource of comparative genomics data to help researchers make the most of their newly-sequenced genomes. OrthoDB’s sets of Benchmarking Universal Single-Copy Orthologues, BUSCO [Simão, et al. 2015], provide a rich source of data to assess the quality and completeness of these genome assemblies and their gene annotations. These resources and tools enable improved and extended orthology-based genome annotation and interpretation in a comparative genomics framework that incorporates the rapidly growing numbers of newly-sequenced genomes. Such comparative approaches are well-established as immensely valuable for gene discovery and characterization, helping to build resources to support biological research. Orthology delineation is a cornerstone of comparative genomics, offering evolutionarily-qualified hypotheses on gene function by identifying “equivalent” genes in different species, as well as highlighting shared and unique genes that offer clues to understanding species diversity and provide the means to begin to investigate key biological traits – for both large-scale evolutionary biology research and targeted gene and gene family studies. The success of such interpretative analyses relies on the comprehensiveness and accuracy of the input data, making BUSCO quality assessment an important part of the process of genome sequencing, assembly, and annotation. Orthology-based approaches therefore offer not only a vital means by which to begin to interpret the increasing quantities of genomic data, but also to help prioritize improvements, and to ensure that initial “draft” genomes develop into high-quality resources that benefit the entire research community.

     

     

    Affiliations & contacts;

    University of Geneva Medical School & Swiss Institute of Bioinformatics, Geneva, Switzerland.

    Massachusetts Institute of Technology & Broad Institute of MIT and Harvard, Cambridge, USA.

    Robert.Waterhouse@unige.ch

    www.rmwaterhouse.org

     

  • Whole genome assembly of the parasitoid wasp Lysiphlebus fabarum

    Alice Dennis
    Thursday, November 19, 2015 - 10:30
    Room Turing Petri
    Talk abstract: 

    Lysiphlebus fabarum is one of the most abundant parasitoid wasps in Europe, primarily targeting aphids in the genus Aphis. To facilitate work that will include studies of adaptive gene expression and the basis of contagious parthenogenesis, we are assembling a draft whole-genome sequence of L. fabarum. Initial assemblies conducted using Illumina data, followed by scaffolding using PacBio sequences produced an alignment with a high N50, and good return of both CEGMA and BUSCO genes. Interesting features of this L. fabarum genome thus far include a very low GC content and evidence of historical integrations of viral sequences. However, initial evaluation of this assembly suggests that it contains a number of errors, and this has hindered our construction of linkage groups. I will present a summary of our work to date in evaluating this genome assembly, and in comparing it to several new assemblies using both Illumina and PacBio focused alignment methods.

     

    Authors:

    Alice Dennis, Jens Bast, Zoé Dumas, Giancarlo Russo, Tanja Schwander, Christoph Vorburger

  • Le séquençage et l'assemblage de génomes de référence à partir de données PacBio

    Jerome Gouzy (Laboratoire des Interactions Plantes Micro-organismes (LIPM) - INRA/CNRS)
    Thursday, November 5, 2015 - 10:30
    Room Métivier
    Talk abstract: 



    Depuis bientôt deux ans, les dernières avancées de la technologie de séquençage PacBio ont bouleversé les projets de séquençages génomiques. Non seulement les chromosomes bactériens mais également les chromosomes de nombreux génomes eucaryotes peuvent s’assembler en une seule séquence ou dans le pire des cas en bras chromosomiques. La qualité des assemblages atteint si ce n’est dépasse les assemblages de références Sanger des années 2000, les centromères et télomères alors souvent non résolus sont désormais analysables.  Les résultats sur plusieurs espèces de bactéries, champignons et plantes seront présentés afin d’illustrer les réussites de cette rupture technologique mais aussi les cas qui restent encore non parfaitement résolus.

  • Looking for mutations in PacBio cancer data: an alignment-free method

    Justine Rudewicz (Labri Bordeaux)
    Thursday, October 1, 2015 - 10:30
    Room Métivier
    Talk abstract: 

    L’étude clinique EORTC 10994 a été mise en place afin de déterminer si le statut de p53 permet de sélectionner la thérapie des patientes atteintes de cancers du sein. L’identification des mutations du gène TP53 par séquençage NGS des ARNm de TP53 s’est révélée efficace lors d’une étude pilote effectuée. Afin de déterminer les mutations TP53 présentes chez l’ensemble des patientes (~1500), l’ARNm TP53 tumoral a été séquencé par la technologie de séquençage de troisième génération "Pacific Bioscences". Cependant, ni le pipeline de l'étude pilote, ni ceux utilisant GATK se sont révélés appropriés pour ce type de données. En effet, au fort taux d’erreurs de séquençage généré par PacBio (~15%) s’ajoute la contamination des échantillons tumoraux par le tissus sain. Le faible taux de mutation attendu pour certains échantillons rend impossible la différenciation des erreurs de séquençage des réelles mutations par les outils standards. Afin de contourner ce problème, nous avons mis en place une méthodologie de détection de mutations par utilisation des graphes de De Bruijn que nous allons vous présenter.

  • Design algorithmique de protéines et Optimisation Combinatoire

    Thomas Schiex (INRA Toulouse)
    Thursday, September 24, 2015 - 10:30
    Room Aurigny
    Talk abstract: 
    Depuis une dizaine d'années, un nombre croissant de nouvelles
    protéines ont été créées en suivant un processus de conception
    semi-rationnel. Le but ultime du "Computational Protein Design"  est
    d'obtenir une séquence d'acides aminés qui se repliera selon une
    structure choisie. Le plus souvent, il s'agit d'obtenir une nouvelle
    enzyme, parfois, une nouvelle structure pour les nanotechnologies.
    Avec 20 acides aminés, l'espace des séquences est très combinatoire et
    son exploration systématique, voire "dirigée", par des voies
    expérimentales est peu efficace. Pour focaliser cette recherche,
    l'approche rationnelle consiste à modéliser la protéine comme un objet
    tridimensionnel soumis à des forces variées (internes, van der Waals,
    électrostatiques et interactions avec le milieu) et à rechercher une
    séquence la plus stable possible étant donnée un squelette fixé. Même
    avec des hypothèses simplificatrices fortes, c'est un problème
    d'optimisation combinatoire difficile à modéliser et à résoudre. Au
    cœur d'une grande partie des approches actuelles réside cependant un
    problème d'optimisation de formulation simple, avec un squelette
    rigide, une flexibilité des chaînes latérales représentées par une
    librairie de conformations (rotamères) et un champ d'énergie
    décomposable. Nous verrons que ce problème peut se modéliser
    mathématiquement dans une grande variété de formalismes usuels pour
    l'optimisation et que la programmation par contraintes pondérée (ou
    réseaux de fonctions de coûts) semble particulièrement efficace. Une
    brève introduction aux principaux outils algorithmiques utilisés dans
    ce domaine sera présentée.
    
  • Apports de la génétique et de la génomique pour la conservation des populations de poissons anadromes

    Guillaume Evanno (Inra Rennes)
    Thursday, September 10, 2015 - 10:30
    Room Minquiers
    Talk abstract: 

    Les poissons anadromes tels que les saumons, aloses et lamproies se reproduisent en eau douce et les juvéniles effectuent une migration vers la mer où ils séjournent jusqu’à leur maturité sexuelle. La plupart de ces espèces sont en déclin suite à la dégradation de leur habitat et / ou à une surexploitation des stocks. En conséquence, de nombreux repeuplements à l’aide de diverses souches ont été effectués dans les populations sauvages. Nous avons utilisé des outils de génétique des populations pour 1) quantifier l’introgression des populations naturelles de saumon par les poissons de repeuplement et 2) délimiter des unités spatiales de conservation. Nous avons aussi étudié l’évolution de l’anadromie chez les lamproies et les truites car chez ces espèces, des formes (ou écotypes) résidentes en eau douces et d’autres migratrices anadromes, coexistent dans les mêmes cours d’eau. Les outils de séquençage NGS nous ont permis d’étudier la divergence génomique entre ces formes.

  • Towards a model-free classification of spindle elongation

    Yann Le Cunff (Irisa)
    Thursday, July 2, 2015 - 10:30
    Room Minquiers
    Talk abstract: 

    TBA

  • Mesurer la dispersion : que peuvent apporter les NGS ?

    Eric Petit (Inra Rennes)
    Thursday, June 25, 2015 - 10:30
    Room Minquiers
    Talk abstract: 
    La dispersion est un trait commun à  toutes les formes de vie, qui
    affecte tous les niveaux d'organisation du vivant, et est par ailleurs
    identifié comme étant fondamental dans la capacité des organismes à
    répondre aux changements globaux. Principal véhicule des flux de gènes,
    la dispersion peut être quantifiée à partir de l'observation de
    variations de fréquences alléliques. la diversité des patrons de
    dispersion sera illustrée à partir d'exemples pris chez les Mammifères,
    révélant la diversité des pressions de sélection qui peuvent agir sur ce
    trait. J'expliquerai et évaluerai ensuite, en m'appuyant sur des
    résultats de simulations, ce que les nouvelles technologies de
    séquençage peuvent apporter à l'étude de la dispersion.

Pages