高通量测序中的Barcode 介绍

如题所述

高通量测序中的Barcode:精确定位数据的“身份证”



在高通量测序技术的世界里,illumina公司的测序平台,如Hiseq-2000,以其强大的测序能力引领着行业发展。每个flowcell的8条lane,每条lane的测序数据量高达44G,然而,对于特定类型的测序任务,如外显子组测序,其只需要大约64M的测序区域和200X的深度,总计仅13G数据。这意味着一个lane足以同时处理多个样品,这就引出了一个关键问题:如何在海量数据中精准区分不同的样本?这就是Barcode的登场时刻。



测序数据的语言与单位



测序数据的基石是碱基序列,由“A、T、G、C”这四种基本组成单元表示。数据量通常用k(10^3)、M(10^6)和G(10^9)来衡量,以人全基因组为例,其大小约为3G。而计算机存储单位则遵循1024进制,这使得测序数据与计算机存储空间有了直观的对应关系,尽管两者单位换算有所不同。



Barcode的必要性



为了避免测序资源的浪费,多个样品被混合在一个lane上进行测序。这就需要一种“标签”,即Barcode,来标记每一份样品,确保在后续数据分析时能够准确地分离和识别出不同的样本数据。Barcode就像是测序中的样本“身份证”,确保每一份数据都能找到自己的归属。



测序原理与实践



以illumina的Hiseq平台为例,测序前的步骤包括构建library(文库):首先对mRNA进行片段化,然后筛选出特定大小的片段(例如RNA-seq的200bp,DNA-seq的500bp),接着加上正向和反向接头,通过PCR扩增后再进行测序。每个Barcode的设计既要兼顾碱基平衡又要满足激光平衡,以确保最佳的分离效果。



选择最佳Barcode的准则



碱基平衡要求Barcode的四种碱基(A、T、G、C)比例均衡,如理想情况下为1:1:1:1,以保证所有样本的区分。激光平衡则是指每个碱基位的组合应尽可能保持A+C与G+T的平衡,以适应测序仪的激光系统。当样本数少于4种时,需要调整策略,确保至少包含激光平衡的Barcode组合,如Illumina推荐的12个或更复杂的3重、6重组合。



实例解析与扩展



例如,Illumina的推荐barcode组合,如ATCACG、CGATGT等,每个位置的碱基比例接近理想状态。而在样本数不足时,采用2重、3重或6重组合,如6号barcode和12号barcode的内核组合,保证了基本的样本分离。除此之外,还有其他研究机构如康奈尔大学和华中农业大学也提供了针对不同酶的Barcode设计,展现出了Barcode选择的多样性和灵活性。



总的来说,Barcode在高通量测序中扮演着至关重要的角色,它确保了数据的精确识别和有效利用,是实现多样本测序的关键技术。通过精心设计和选择,我们能在海量数据中找到每个样本的独一无二的“身份证”。

温馨提示:答案为网友推荐,仅供参考
相似回答