SÉQUENÇAGE HAUT DÉBIT DE L'ADN
Carte mentale
Élargissez votre recherche dans Universalis
Ordonner les données de séquençage
Le NGS requiert systématiquement un traitement bio-informatique pour gérer le type, la qualité et la quantité de données générées – les capacités de stockage et de traitement de l’information doivent être adéquates ! – afin de pouvoir les interpréter. Les fichiers bruts contenant des milliers voire des millions de séquences sont filtrés afin d’éliminer les données de mauvaise qualité. Le plus souvent, les séquences restantes (reads ou « lectures ») sont ensuite alignées par rapport à un génome ou un transcriptome de référence annoté et présent dans les bases de données (mapping). Si ce n’est pas le cas, ce qui est de plus en plus rare, elles peuvent être alignées seulement entre elles afin de reconstruire la séquence de l’ADN (ou de l’ARN) initiale que l’on souhaite étudier en exploitant leurs zones de chevauchement. Ces alignements peuvent être facilités si le séquençage a été fait dans les deux sens (paired end) sur les fragments de la librairie, et d’autant plus si la librairie a été construite avec une taille calibrée supérieure à 2 kb (technologie mate pair).
Alignement des séquences d’ADN déterminées
Les séquences déterminées correspondent à une multitude de fragments issus de la molécule d'ADN initiale. L'assemblage de ces séquences « courtes » et aléatoires (petits traits multicolores) se fait en utilisant leurs zones de chevauchement (schématisées par des « boîtes » sur...
Crédits : Encyclopædia Universalis France
Il est préférable que chaque base de la séquence de départ à analyser ait été lue de nombreuses fois pour avoir une certaine profondeur de séquençage (exprimée en X). Ainsi, une base lue 30 fois (à travers 30 lectures) aura une profondeur de 30X et donc une certaine fiabilité, surtout si les lectures ont été faites dans les deux sens. En fonction des applications, une profondeur moyenne minimale sera requise, par exemple 25X pour du séquençage de novo, 10-15X pour effectuer la recherche de SNP – single nucleotide polymorphism, variation d’une seule base au niveau des chromosomes homologues d’un individu ou entre individus de la même espèce. De même, la totalité de la séquence à analyser ne sera pas nécessairement retrouvée à travers toutes les lectures disponibles (notion de « couverture »). Si, sur un fragment de 25 Mb, seulement 20 Mb comportent une information de séquence fiable, on dit que la couverture est de 80 p. 100.
1
2
3
4
5
…
pour nos abonnés,
l’article se compose de 8 pages
Écrit par :
- Véronique BLANQUET : professeur de génétique, université de Limoges
- Nathalie DUPRAT : ingénieure d'études en techniques biologiques
- Lionel FORESTIER : ingénieur d'études en expérimentation et techniques biologiques
Classification
Pour citer l’article
Véronique BLANQUET, Nathalie DUPRAT, Lionel FORESTIER, « SÉQUENÇAGE HAUT DÉBIT DE L'ADN », Encyclopædia Universalis [en ligne], consulté le 06 février 2021. URL : https://www.universalis.fr/encyclopedie/sequencage-haut-debit-de-l-adn/