HB190313
测序数据不好?是不是建库出了问题?!
——从测序数据看文库构建
高通量测序中的文库构建指的是在DNA两端连接特定的接头从而使其符合测序平台要求的过程,在高通量测序过程中,文库质量直接影响最终测序数据的质量,打个比方,如果文库上机测序的浓度很低,样本在FlowCell上扩增所形成的DNA样本簇就会很少,测序数据量也将减少,这就可能导致测序失败,所以我们说文库的质量控制和质量评估也是NGS中的关键步骤。
文库如何质控?
评估文库质量的方法有哪些?
n 文库质控:文库在上机之前都有会进行质量检测,质量检测合格的文库才会上机测序。文库上机之前的文库质控主要包括文库片段大小和文库浓度的质控,具体质控标准和实验设计见往期推送:文库质检方案的合理设计--文库分布、文库浓度、文库质量(超链接:https://mp.weixin.qq.com/s/iM5eMweP1By6MoqrxOEBfw)。
n 文库评估:文库评估方法除了文库大小和浓度之外,还包括文库转化率、文库复杂度、均一性、准确性和覆盖度等。
1)文库转化率:是评估文库质量的重要指标,它指的是文库中两端都连上接头的目的片段占总片段数的比值,也代表测得产量与理论最高产量之间的比值,这里的理论最高产量考虑了PCR的扩增效率问题及纯化产生的损失。计算方法如下:
理论最高产量=输入量×(1+PCR扩增效率)(PCR循环数)×(纯化回收率)(clean up数)
为什么说文库转化率是重要指标呢?这是因为只有双端都连接上接头的目的片段才能在FlowCell上面通过桥式扩增形成簇,最终完成测序过程,而不是双端都连上接头的目的片段最终都不能完成测序过程,视为无效片段,如果这样的片段过多直接影响最终输出数据的过少,甚至可能直接导致测序的失败。
图1.双端带接头的DNA片段在Flowcell上扩增图
2)文库复杂度:指的是文库中DNA序列的复杂程度,一定的文库复杂度对后期测序数据的分析尤为重要,复杂度高的文库测序得到的数据重复读数少,可以带来更多有意义的信息,反之,低复杂度的文库在信号读取时往往产生簇信号混杂,易产生低质量的测序数据。
文库复杂度与Input样本质量、文库的转化率、文库扩增时循环数有关。当文库的转化率越高时,能从样品种捕获更多的特异分子,文库复杂度就越高;当输入样本量越低或文库扩增循环数越多时,文库中不能带来有意义信息的重复读数就会增多,则文库的复杂度越低。
表1.测序数据关键参数比较
Sample Input |
Library Prep |
Uniquely Mapped |
Duplication Rate |
Transcripts Detected |
Genes Detected |
4 μg |
A* |
69% |
31% |
111.370 |
20.547 |
B* |
76% |
24% |
112.136 |
21.016 |
|
500 μg |
A* |
64% |
36% |
109.810 |
20.134 |
B* |
71% |
29% |
110.690 |
20.644 |
3)均一性:指的是读取数据在基因组或目标区域的分布均一程度。其生信分析图如图2所示,一般认为覆盖越均匀,达到特定深度所需的测序数据就越少,覆盖均一性的偏向通常是在文库制备和文库扩增步骤中引入的,也就是说,覆盖均一性很多时候取决于GC含量。
图2.测序数据均一性
4)准确性:
NGS文库制备的准确性越高,你对变异报告的信任程度就越高。核苷酸错误通常在PCR扩增以及测序过程中引入。测序错误通常低于1%。通过使用高保真PCR试剂,可尽量减少文库扩增的错误。NGS对照样品也有助于评估NGS流程的准确性。
图3.PCR扩增存在一定的错配率
5)测序深度和覆盖度:
假设对长1000 bp的目标区域进行捕获测序,每个read长10 bp,总共得到3000个reads,把所有的reads对比到目标区域后,1000 bp的目标区域中有990 bp的位置至少有1个read覆盖到,换言之剩余的10bp没有1个read覆盖。
则此时:
测序深度(depth)3000*10/1000=30 也就是说测序深度为30*
覆盖度(coverage)990/1000*100%=99% 这次测序覆盖度为99%
同理:
假设对长100bp的目标区域进行捕获测序,每个read长5bp,总共得到200个reads,把所有的reads对比到目标区域后,100bp的目标区域中有98bp的位置至少有1个read覆盖到,换言之剩余的2bp没有1个read覆盖。
深度(depth)200*5/1000=10 也就是说测序深度为 10*
覆盖度(coverage)98/100*100%=98% 这次测序覆盖度为98%
文库构建中的哪些步骤会直接影响测序质量?
NGS的最终目的就是得到优秀测序数据助力于下游科学研究或实际应用,其中文库构建是测序数据的重要影响因素,文库构建一般包括以下几类步骤(以DNA为例):样本片段化、接头连接、分选/纯化、文库扩增。文库对测序数据的影响,具体到文库构建的每个步骤,参考表2。
表2.建库步骤对测序结果的影响
步骤 |
评估指标 |
对测序结果的影响 |
样本片段化 |
打断随机性 |
文库质量;测序数据的均一性和覆盖度 |
片段大小是否集中 |
文库浓度;测序数据覆盖度 |
|
接头连接 |
接头连接效率 |
文库转化率;文库复杂度;均一性;准确性和覆盖度 |
分选/纯化 |
片段大小的一致性 |
片段大小与测序仪大小不匹配将无法上机测序 |
回收效率 |
文库浓度;测序数据覆盖度 |
|
文库扩增 |
扩增偏好性 |
文库复杂度;均一性 |
扩增效率 |
文库浓度;文库复杂度 |