Bioinformatique : analyse d'une séquence d'ADN

Bioinformatique : analyse d'une séquence d'ADN

Crédits : Encyclopædia Universalis France

Une fois la séquence d'ADN déchiffrée (fig.1), elle est analysée afin d'y déterminer les protéines codées. Pour cela, le programme utilise le code génétique pour traduire chaque codon (groupement de trois bases nucléiques) en peptide ou acide aminé (cadre A). Si on commence par les grouper par trois à partir de la première base . ici, de droite à gauche, pour le brin direct, GGA, TCT, CGT.., on obtient la phase 1 ; si on commence par la deuxième, troisième et quatrième bases . ici GAT puis CTC, CGT.., on obtient la phase 2 ; si on commence par la troisième, quatrième et cinquième bases . ici, ATC, TCG. ., on obtient la phase 3. Cette traduction en trois phases correspond au brin direct. Un travail similaire est effectué pour chaque codon du brin complémentaire. En localisant ensuite les séquences ouvertes, c'est-à-dire les séquences susceptibles de coder une protéine (grandes zones blanches localisées entre les barres verticales . représentant les codons de fin de transcription . inscrites pour chaque phase dans le cadre B), et en interrogeant les différentes bases de données protéiques (ou nucléiques) existantes, on peut mettre en évidence les séquences codantes ou les protéines probables et connaître leurs caractéristiques (indiquées dans le cadre C qui regroupe les données des différentes banques).