Analysis and evaluation of different sequencing depths from 5 to 20 million reads in shotgun metagenomic sequencing, with optimal minimum depth being recommended

Abstract

Our study was to analyze and evaluate the impact of different shotgun metagenomic sequencing depths from 5 to 20 million in metagenome-wide association studies (MWASs), and to determine the optimal minimum sequencing depth. We included a set of 200 previously published gut microbial shotgun metagenomic sequencing data on obesity (100 obese vs. 100 non-obese). The reads with original sequencing depths >20 million were downsized into seven experimental groups with depths from 5 to 20 million (interval 2.5 million). Using both integrated gene cluster (IGC) and metagenomic phylogenetic analysis 2 (MetaPhlAn2), we obtained and analyzed the read matching rates, gene count, species richness and abundance, diversity, and clinical biomarkers of the experimental groups with the original depth as the control group. An additional set of 100 published data from a colorectal cancer (CRC) study was included for validation (50 CRC vs. 50 CRC-free). Our results showed that more genes and species were identified following the increase in sequencing depths. When it reached 15 million or higher, the species richness became more stable with changing rate of 5% or lower, and the species composition more stable with ICC intraclass correlation coefficient (ICC) higher than 0.75. In terms of species abundance, 81% and 97% of species showed significant differences in IGC and MetaPhlAn2 among all groups with p < 0.05. Diversity showed significant differences across all groups, with decreasing differences of diversity between the experimental and the control groups following the increase in sequencing depth. The area under a receiver operating characteristic curve, AUC, of the obesity classifier for running the obesity testing samples showed an increasing trend following the increase in sequencing depth (τ = 0.29). The validation results were consistent with the above results. Our study found that the higher the sequencing depth is, the more the microbial information in structure and composition it provides. We also found that when sequencing depth was 15 million or higher, we obtained more stable species compositions and disease classifiers with good performance. Therefore, we recommend 15 million as the optimal minimum sequencing depth for an MWAS.

Résumé

La présente étude visait à analyser et évaluer l’impact de la profondeur de séquençage (de 5 à 20 millions de lectures) dans le cadre d’analyses d’association métagénomiques (MWAS) et de déterminer une profondeur minimale optimale. Les auteurs ont inclus 200 jeux de données métagénomiques publiées du microbiome intestinal et de leur lien avec l’obésité (100 obèses vs. 100 non-obèses). Les jeux de données qui comprenaient à l’origine une profondeur de >20 million de lectures ont été sous-échantillonnés pour constituer sept groupes expérimentaux dont le nombre de lectures retenues s’échelonnaient de 5 à 20 million de lectures (par intervalles de 2,5 million). À l’aide du clusters de gènes intégrés (IGC) et du logiciel MetaPhlAn2, les auteurs ont obtenu et analysé le taux d’alignement, le décompte génique, la richesse en espèces et leur abondance, la diversité et les biomarqueurs cliniques parmi les groupes expérimentaux en employant les données complètes originales comme groupe témoin. Un autre jeu de données publiées dans le cadre d’une étude sur le cancer colorectal (CRC) a été inclus pour fins de validation (50 cas de CRC vs. 50 sans CRC). Les résultats ont montré que plus de gènes et d’espèces ont pu être identifiés en augmentant la profondeur de lecture. À compter de 15 million de lectures, la richesse en espèces s’est stabilisée, avec des augmentations de 5 % ou moins, et la composition des espèces également, la corrélation entre classes (ICC) étant de plus de 0,75. En ce qui a trait à leur abondance, 81 % et 97 % des espèces ont présenté des différences significatives (p < 0,05) entre les groupes. Des différences significatives dans la diversité ont également été observées entre les groupes expérimentaux et le groupe témoin, ces différences s’amenuisant au gré de l’augmentation du nombre de lectures employées. L’aire sous la courbe (AUC) pour le classificateur d’obésité, employé pour analyser les échantillons de cette étude, a eu tendance à augmenter en parallèle avec l’augmentation de la profondeur de séquençage (τ = 0.29). Les résultats de l’étude de validation étaient conformes à ceux décrits plus hauts. Les résultats de cette étude ont montré qu’une augmentation de la profondeur de séquençage entraîne une information plus riche sur la structure et la composition du microbiote. Les auteurs ont également trouvé qu’au-delà de 15 M de lectures, des résultats plus stables en matière de composition en espèces et une bonne performance dans la classification des échantillons étaient obtenus. Ainsi, les auteurs recommandent 15 million de lectures comme étant une profondeur minimale de séquençage optimale dans le contexte d’analyses MWAS. [Traduit par la Rédaction]

留言 (0)

沒有登入
gif