测序数据质控统计（转载）

如题所述

第1个回答 2022-07-10

随着NGS测序成本的降低，高通量测序分析变得越来越普遍。然而，在实际工作中，生信人员往往拿到测序公司提供的数据之后，就直接开始跑流程，去接头、过滤、鉴定变异位点…

然而，过滤前和过滤后的数据到底有什么不同？数据中N碱基的含量如何？低质量的数据是否居多？测序深度是否达到要求？靶标区域覆盖度如何？这一系列的问题往往被急于出分析结果的生信人员（尤其在大Boss的问[逼]候[迫]下）抛之脑后。

满心欢喜去交付自己麻溜完成的分析成果，却遭到了客户对结果的质疑。苦苦回溯分析过程，查找众多可能的出错步骤，最终发现是测序数据质量不过关。前功尽弃，何其郁闷哉…

为保证分析结果的可靠性，对测序数据进行质量控制统计分析意义重大。尤其在临床二代测序检测领域，分析结果的可靠性与否关乎医生的诊断和病人的安危。

参照《临床分子病理实验室二代基因测序检测专家共识》、《二代测序（NGS）技术应用于临床肿瘤精准医学诊断的共识》中要求的指标，以及实际测序数据分析经验，GeneDock的小伙伴为全外显子组和全基因组产品增加了质控统计步骤，主要包括：（1）过滤前后FASTQ文件的基本测序质量统计；（2）比对后BAM文件的基本统计。

根据reads中每个位置碱基 A、T、G、C、N 所占的比例，绘制碱基含量分布图。根据碱基互补原理，A和T、G和C的含量应该基本一致，前几bp出现抖动情况是由于随机引物、测序反应开始酶和底物结合不太稳定导致，属于测序本身所带来的正常抖动。碱基含量分布与建库、测序和物种相关。
碱基含量分布图：

图中，横坐标为reads中的碱基位置，纵坐标为碱基所占的比例，不同颜色代表不同的碱基类型，左右两侧分别为双端测序序列两条reads的碱基分布情况。

根据reads中每个位置碱基的平均测序质量值，绘制测序质量分布图。测序片段末端的碱基质量一般会比前端的低，但测序质量主要会分布在 Q20 以上，才能为后续数据分析提供保证。
测序质量分布图：

图中，横坐标为reads中的碱基位置，纵坐标为每个位置的平均测序质量值，左右两侧分别为双端测序序列两条reads的质量值分布情况。

根据不同测序质量值的碱基数目情况，绘制碱基总体质量分布图。对于二代测序，一般要求达到Q20的碱基比例 >95%（最差 >=90%），Q30的碱基比例 >85%（最差 >=80%）。
图3：碱基总体质量分布图：

图中，横坐标为测序质量值，纵坐标为该质量值处的碱基数目。

测序错误率与碱基质量负相关，受测序仪本身、测序试剂、样品等多个因素共同影响。一般来说，测序片段末端的错误率会偏高。
图4：测序错误率分布图：

图中，横坐标为reads中的碱基位置，纵坐标为单碱基错误率，左右两侧分别为双端测序序列两条reads的测序错误率分布情况。</center>

根据目标区域每个位点的覆盖度，绘制测序深度分布图，可直观展示平均测序深度情况，同时用来衡量目标区域测序的随机性。当平均测序深度和峰值重合时，测序的随机性较好。

目标区域测序深度图图中，横坐标为测序深度，纵坐标为该测序深度碱基位点所占的百分比，其中红色和黄色箭头分别代表测序深度平均值和中位数。

根据测序深度累积曲线，可直观得到大于某测序深度时的碱基覆盖率。和目标区域测序深度图一样，可用于指导后续数据分析时的参数的设置。例如：检测SNP时，至少需要多少reads的支持。
图6：测序深度累积曲线：

图中，横坐标为累积型测序深度，纵坐标为累积型测序深度所占的百分比。

测序质量的好坏直接影响下游的数据分析，对测序数据进行质控统计意义重大。GeneDock 公有云平台目前为 WES Germline，WGS Germline 和 WGS Somatic三套分析流程均提供了质控统计步骤，为您的数据分析提供前提保障。
原文：测序数据质控统计

相似回答

基因组Survey(二代测序数据质控)答：3.Survey 数据质控软件 4.重点总结碱基的质量都是以ASCII值表示的，根据测序时采用的质量方案的不同，计算十进制的质量值的方法也有所区别，常见的计算方法如下所示：展示方式：Phred+33和Phred+64，这里的33和64就是指ASCII值转换为得分该减去的数值（1）Phred+64:质量字符的ASCII值 -64 （2）P...

二代测序的数据的分析——质量控制答：质量控制的测序质量检测是通过FastQC软件实现。fastqc可以不设置任何参数运行，这样会直接在当前目录下生成一个质量报告的压缩文件和文件夹，报告是网页格式。也可以设置输出目录和是否解压缩(--noextract)，默认设置会解压缩。命令如下：其中 --noextract 命令是不解压缩输出文件。 -t 参数是指定使用线程数...

RNA-Seq数据分析——原始数据质量控制(QC)答：RNA-Seq原始数据质量控制(QC)是非常重要的一个环节，由于各种原因，例如测序平台、实验操作等，原始测序数据可能存在不少问题，如低质量读段、接头序列、污染序列等。为了确保后续分析的准确性，需要先进行质量控制。一、常用工具：常用的质量控制工具有FastQC、MultiQC等，这些工具能提供测序数据的基本统计信...

2020-01-21 测序数据的质控和过滤答：Fastqc(用于测序数据质控)，MultiQC（用于质控结果整合和解读）Trimmomatic（用于测序数据修剪和过滤）fastqc运行结果图：运行结束后，每个fq.gz文件会产生两个文件，一个是zip压缩文件，一个是html文件，将所有样品的文件转移到新的文件夹中。如，可以将所有的zip文件和html文件转移到名字为fastqc的文件夹中...

单细胞RNA系列专题之一:单细胞RNA测序中质控之重要细节 (上篇)答：单细胞RNA测序是目前的一大热门。通过单细胞RNA测序，能够带给我们原来 bulk RNA （群体RNA）测序所得不到的信息，对于研究发育生物学、肿瘤生物学、免疫等有着极其重要的价值。单细胞测序的核心就是T-sne降维，以及聚类。那么在做这些工作之前的质控，会影响到整个分析的成败。这篇文章我就来给大家讲讲...

单细胞RNA系列专题之一:单细胞RNA测序中质控之重要细节 (下篇)答：单细胞测序的核心就是t-SNE降维，以及聚类。那么在做这些工作之前的质控，关乎到整个分析的成败。这篇文章我就继续给大家讲讲单细胞质控的那些事儿。整个单细胞分析的核心其实就是确定cell types/ lineages。而在此之前的一步就是数据质控(QC, quanlity control)。我们在得到表达矩阵之后，会做Data ...

高通量测序各参数计算方法(一)答：在高通量测序的世界里，数据的质控是关键。首先，我们来深入理解测序深度这个核心参数。测序深度解析：测序深度是指测序数据与参考基因组比对后，目标区域每个碱基被测序的次数。如人类基因组的30亿碱基，30X测序意味着每个位置平均测30次，理论产生900亿碱基数据，每碱基占用1字节，即90GB。反向推算，若测...

转录组数据分析RNA-seq答：1.数据质量控制：检查原始测序数据的质量，去除低质量的读段（reads）。2.序列比对：将质量控制后的读段与参考基因组或转录本数据库比对，以确定它们的位置。3.定量分析：统计每个基因的读段数，通常表达为FPKM（每千个碱基的片段数每百万映射读数）或TPM（每百万转录本的片段数）等标准化指标，以消除...

转录组分析(3) - 质量控制答：% 以上。Fastqc每次对一个样本进行质量控制并生成评估报告，当样本数量过多时，查看报告显然极不方便。Multiqc能将fastqc生成的多个报告整合成一个报告（HTML和PDF格式），方便的查看所有测序数据的质量。Multiqc支持多种分析类型的质控结果查看，包括：RNAseq、Whole-Genome Seq、Bisulfite Seq、Hi-C等。

大家正在搜

测序数据质量转录组测序数据量数据的获得和质控质控数据偏移怎么算如何进行室内质控数据的评价数据质控员职责是 ATAC测序的数据高通量测序数据测序数据量