Bioinformatique : annotation d'une séquence d'ADN

Bioinformatique : annotation d'une séquence d'ADN

Crédits : Encyclopædia Universalis France

L'analyse de la séquence d'ADN (fig. 2 et cadre A) avec le logiciel Artemis (The Wellcome trust Sanger Institute, Cambridge, Royaume-Uni) a permis de proposer des sites potentiels codant pour des protéines. Il faut utiliser des données supplémentaires pour confirmer ces prédictions. Ainsi, le logiciel GC Frame Plot donne le pourcentage de présence de guanine (G) ou de cytosine(C) dans la troisième base de chaque codon sous forme de trois courbes (une pour chaque phase du brin direct) visualisées dans le cadre C. On a remarqué que, pour certains organismes, cette valeur atteignait 92 p.100 dans les régions codantes. Ici, la présence de pics proches de 100 p.100 pour la phase 1 (courbe rouge) du brin direct correspond à des séquences protéiques. Dans le cadre B apparaissent des flèches (en mauve) marquées BLASTN HIT qui sont le résultat de recherche de similarité par le programme BLASTN à travers une banque nucléique, pour mettre en évidence des motifs nucléiques connus sur les deux brins de l'ADN. Le programme BLASTCDS a été activé pour rechercher des phases ouvertes déjà décrites dans les banques ; le résultat est figuré par des flèches rouges dans le cadre B.