测序数据质控统计(转载)

如题所述

第1个回答  2022-07-10
随着NGS测序成本的降低,高通量测序分析变得越来越普遍。然而,在实际工作中,生信人员往往拿到测序公司提供的数据之后,就直接开始跑流程,去接头、过滤、鉴定变异位点…

然而,过滤前和过滤后的数据到底有什么不同?数据中N碱基的含量如何?低质量的数据是否居多?测序深度是否达到要求?靶标区域覆盖度如何?这一系列的问题往往被急于出分析结果的生信人员(尤其在大Boss的问[逼]候[迫]下)抛之脑后。

满心欢喜去交付自己麻溜完成的分析成果,却遭到了客户对结果的质疑。苦苦回溯分析过程,查找众多可能的出错步骤,最终发现是测序数据质量不过关。前功尽弃,何其郁闷哉…

为保证分析结果的可靠性,对测序数据进行质量控制统计分析意义重大。尤其在临床二代测序检测领域,分析结果的可靠性与否关乎医生的诊断和病人的安危。

参照《临床分子病理实验室二代基因测序检测专家共识》、《二代测序(NGS)技术应用于临床肿瘤精准医学诊断的共识》中要求的指标,以及实际测序数据分析经验,GeneDock的小伙伴为全外显子组和全基因组产品增加了质控统计步骤,主要包括:(1)过滤前后FASTQ文件的基本测序质量统计;(2)比对后BAM文件的基本统计。

根据reads中每个位置碱基 A、T、G、C、N 所占的比例,绘制碱基含量分布图。根据碱基互补原理,A和T、G和C的含量应该基本一致,前几bp出现抖动情况是由于随机引物、测序反应开始酶和底物结合不太稳定导致,属于测序本身所带来的正常抖动。碱基含量分布与建库、测序和物种相关。
碱基含量分布图:

图中,横坐标为reads中的碱基位置,纵坐标为碱基所占的比例,不同颜色代表不同的碱基类型,左右两侧分别为双端测序序列两条reads的碱基分布情况。

根据reads中每个位置碱基的平均测序质量值,绘制测序质量分布图。测序片段末端的碱基质量一般会比前端的低,但测序质量主要会分布在 Q20 以上,才能为后续数据分析提供保证。
测序质量分布图:

图中,横坐标为reads中的碱基位置,纵坐标为每个位置的平均测序质量值,左右两侧分别为双端测序序列两条reads的质量值分布情况。

根据不同测序质量值的碱基数目情况,绘制碱基总体质量分布图。对于二代测序,一般要求达到Q20的碱基比例 >95%(最差 >=90%),Q30的碱基比例 >85%(最差 >=80%)。
图3:碱基总体质量分布图:

图中,横坐标为测序质量值,纵坐标为该质量值处的碱基数目。

测序错误率与碱基质量负相关,受测序仪本身、测序试剂、样品等多个因素共同影响。一般来说,测序片段末端的错误率会偏高。
图4:测序错误率分布图:

图中,横坐标为reads中的碱基位置,纵坐标为单碱基错误率,左右两侧分别为双端测序序列两条reads的测序错误率分布情况。</center>

根据目标区域每个位点的覆盖度,绘制测序深度分布图,可直观展示平均测序深度情况,同时用来衡量目标区域测序的随机性。当平均测序深度和峰值重合时,测序的随机性较好。

目标区域测序深度图图中,横坐标为测序深度,纵坐标为该测序深度碱基位点所占的百分比,其中红色和黄色箭头分别代表测序深度平均值和中位数。

根据测序深度累积曲线,可直观得到大于某测序深度时的碱基覆盖率。和目标区域测序深度图一样,可用于指导后续数据分析时的参数的设置。例如:检测SNP时,至少需要多少reads的支持。
图6:测序深度累积曲线:

图中,横坐标为累积型测序深度,纵坐标为累积型测序深度所占的百分比。

测序质量的好坏直接影响下游的数据分析,对测序数据进行质控统计意义重大。GeneDock 公有云平台目前为 WES Germline,WGS Germline 和 WGS Somatic三套分析流程均提供了质控统计步骤,为您的数据分析提供前提保障。
原文: 测序数据质控统计
相似回答