二代测序那些事

如题所述

第1个回答  2022-07-21

聊一聊最常用的二代测序那些事: 转录组分析进阶 20170319-第01期-Illumina测序原理

主要是看一下 : 备注:黑色区域为P7;红色区域为P5;假设P5->P7 为正向

图示如下:

​ adapter在中文是适配器或者接口的意思,在前面的内容中已经提到将测序序列打碎成片断后要将末端补平然后添加adapter,用于与flowcell上的oligo匹配固定并为后续桥式PCR做准备,而前面提到的Index与adapter之间的位置关系一般为adapter1-Index-fragment-adapter2,adapter2通过与oligo互补连接在flowcell上,在进行完桥式PCR之后进行测序时,添加primer,这一段primer的序列是与Index互补的而非adapter1,所以最终拿到的测序结果应该是Index+fragment+adapter2或者Index+部分fragment :

​ 我们知道samplp index (单端index):一条lane能测得的数据量在30G左右,而一个样品的测序量一般不会这么大,所以在建库的时候对每一种样品的接头加上不同的标签序列,这个标签就叫做Index,有了index就可以同时在一个lane中测多种数据了,后期可以根据index将数据分开 .

​ 某些时候我们也需要组合的双端标记 :对low_input signal cell sequencing(如signal cell ChIP-seq 建库)过程中需要双端index (CDI 组合方法/UDI )进行标记,进行区分不同细胞;对于droplet 技术,通过Barcode 进行区分就好。

​ 如下图:DNA insert 两侧添加了i7/i5 接头,所以read 上会有index信息。

如CoBATCH 实验流程:由于Tn5 一般为8bp 序列,但做T5/T7 的barcode 只有1-2百种,不是2**8(需要满足一定条件的碱基,才可以单作barcode),需要采用的i5 /i7 的排列组合进行标记细胞。

​ 目前有各种各样的seq技术,大多是建库方法不一样,测序过程绝大多数对DNA测序,单端及其双端两种。目前来看单端数据比双端价格便宜,尽量的选择双端测序,想想测序就是为了进行比对,单双端比对差异可以理解成:

RNA-seq几乎都是双端测序,去除小RNA(数据长度比较短,单端就可以测通);ChIP-seq 对DNA 进行比对,不存在可变剪切问题,单端数据应该是可以的,一般来说序列长度大于30bp 就可以比较精确度定位到human 基因组了。

​ rTn5转座酶是野生型Tn5转座酶的高活性突变体,可以高效的将Tn5转座子插入到目标序列。Tn5转座酶识别Tn5转座子酶序列的内端(insideend,IE)、外端(outsideend,OE)和嵌合端(mosaicend,ME)序列,含有ME序列片段的体外转座效率最高。rTn5转座酶的插入位点具有很高的随机性,因此被广泛的用于体外转基因(外源基因整合到宿主细胞)和二代测序建库等领域。

​ rTn5转座酶可以将含有成对识别序列的双链DNA片段(如下图所示)随机整合到宿主细胞的基因组中。整合的过程分为两步:首先,rTn5转座酶同含有选择标记和识别序列的目标基因片段结合,形成转座体(Transposome);之后,通过转化的方式将转座体导入宿主细胞,利用选择标记筛选成功整合目标基因的宿主细胞。

​ 当 s5 s7 在片段的两端,在后续步骤能够被有效扩增 .

当下应用最火热的是10X Genomics公司的解决方案

10x genomes 有10万个barcode,一般一个细胞存在1个barcode.通过barcode 进行拆封read,也存在一个barcode 对应了多个细胞,最好少于1万个细胞。也可以进行跨物种分析,查看collusion 比例。 10X分析单细胞表达

一个细胞大约有40000-80000个UMI,平均一个基因有10个UMI,进而进行分析.

5'- AAGCAGTGGTATCAACGCAGAGT ACTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTVN -3'

5'- AAGCAGTGGTATCAACGCAGAGT ACATrGrG +G -3'

5′- AAGCAGTGGTATCAACGCAGAGT -3′

5'- AGATGTGTATAAGAGACAG -3'

5'- <u> TCGTCGGCAGCGTC </u> -3'

5'- GTCTCGTGGGCTCGG -3'

5'- AATGATACGGCGACCACCGAGATCTACAC -3'

5'- * CAAGCAGAAGACGGCATACGAGAT* -3'

5'- AATGATACGGCGACCACCGAGATCTACAC [8-bp i5 index]<u> TCGTCGGCAGCGTC </u> -3'

5'- * CAAGCAGAAGACGGCATACGAGAT* [8-bp i7 index] GTCTCGTGGGCTCGG -3'

5'- <u> TCGTCGGCAGCGTC </u>AGATGTGTATAAGAGACAG -3'

5'- CTGTCTCTTATACACATCT CCGAGCCCACGAGAC -3'

5'- GTCTCGTGGGCTCGG AGATGTGTATAAGAGACAG -3'

​ scit-ChIP-Seq 建库策略: Truseq library preparation method for low-input and single-cell itChIP .

a, Overview of the design of mosaic Truseq library preparation for a sequencing using Illumina’s standard recipe. T5 and T7 barcodes are introduced during barcoded Tn5 tagmentation to distinguish between single cells. PCR indexes are introduced during the 2nd PCR to separate itChIP libraries. The resulting libraries are sequenced by PE150 on Novaseq 6000 or Hiseq X-Ten platforms (Illumina). nt, nucleotides

​ 意思说:通过Tn5 进行加入标签来区分不同细胞;再通过1st PCR 加入序列扩增引物;再通过2st PCR 加入测序接头: (有没有发现和smart-seq2 P5/P7 接头序列非常相似,可能illumia测序都用的这种测序接头)

P5( 5'- AATGATACGGCGACCACCGAGATCT -3' )

P7( 5'- CAAGCAGAAGACGGCATACGAGAT -3' ),

PCR index(和普通的建库index一样可能,单index 用于标记lane中多个文库;而不是用单index 区分细胞)

相似回答