测序数据不好？是不是建库出了问题？！ ——从测序数据看文库构建-分析方法-资讯-生物在线

测序数据不好？是不是建库出了问题？！ ——从测序数据看文库构建

作者：翌圣生物科技（上海）股份有限公司 2020-04-09T00:00 (访问量:11433)

HB190313

测序数据不好？是不是建库出了问题？！

——从测序数据看文库构建

高通量测序中的文库构建指的是在DNA两端连接特定的接头从而使其符合测序平台要求的过程，在高通量测序过程中，文库质量直接影响最终测序数据的质量，打个比方，如果文库上机测序的浓度很低，样本在FlowCell上扩增所形成的DNA样本簇就会很少，测序数据量也将减少，这就可能导致测序失败，所以我们说文库的质量控制和质量评估也是NGS中的关键步骤。

文库如何质控？

评估文库质量的方法有哪些？

n 文库质控：文库在上机之前都有会进行质量检测，质量检测合格的文库才会上机测序。文库上机之前的文库质控主要包括文库片段大小和文库浓度的质控，具体质控标准和实验设计见往期推送：文库质检方案的合理设计--文库分布、文库浓度、文库质量（超链接：https://mp.weixin.qq.com/s/iM5eMweP1By6MoqrxOEBfw）。

n 文库评估：文库评估方法除了文库大小和浓度之外，还包括文库转化率、文库复杂度、均一性、准确性和覆盖度等。

1）文库转化率：是评估文库质量的重要指标，它指的是文库中两端都连上接头的目的片段占总片段数的比值，也代表测得产量与理论最高产量之间的比值，这里的理论最高产量考虑了PCR的扩增效率问题及纯化产生的损失。计算方法如下：

理论最高产量=输入量×（1+PCR扩增效率）^{（PCR循环数）}×（纯化回收率）^{（clean up数）}

为什么说文库转化率是重要指标呢？这是因为只有双端都连接上接头的目的片段才能在FlowCell上面通过桥式扩增形成簇，最终完成测序过程，而不是双端都连上接头的目的片段最终都不能完成测序过程，视为无效片段，如果这样的片段过多直接影响最终输出数据的过少，甚至可能直接导致测序的失败。

图1.双端带接头的DNA片段在Flowcell上扩增图

2）文库复杂度：指的是文库中DNA序列的复杂程度，一定的文库复杂度对后期测序数据的分析尤为重要，复杂度高的文库测序得到的数据重复读数少，可以带来更多有意义的信息，反之，低复杂度的文库在信号读取时往往产生簇信号混杂，易产生低质量的测序数据。

文库复杂度与Input样本质量、文库的转化率、文库扩增时循环数有关。当文库的转化率越高时，能从样品种捕获更多的特异分子，文库复杂度就越高；当输入样本量越低或文库扩增循环数越多时，文库中不能带来有意义信息的重复读数就会增多，则文库的复杂度越低。

表1.测序数据关键参数比较

Sample Input	Library Prep	Uniquely Mapped	Duplication Rate	Transcripts Detected	Genes Detected
4 μg	A*	69%	31%	111.370	20.547
4 μg	B*	76%	24%	112.136	21.016
500 μg	A*	64%	36%	109.810	20.134
500 μg	B*	71%	29%	110.690	20.644

3）均一性：指的是读取数据在基因组或目标区域的分布均一程度。其生信分析图如图2所示，一般认为覆盖越均匀，达到特定深度所需的测序数据就越少，覆盖均一性的偏向通常是在文库制备和文库扩增步骤中引入的，也就是说，覆盖均一性很多时候取决于GC含量。

图2.测序数据均一性

4）准确性：

NGS文库制备的准确性越高，你对变异报告的信任程度就越高。核苷酸错误通常在PCR扩增以及测序过程中引入。测序错误通常低于1%。通过使用高保真PCR试剂，可尽量减少文库扩增的错误。NGS对照样品也有助于评估NGS流程的准确性。

图3.PCR扩增存在一定的错配率

5）测序深度和覆盖度：

假设对长1000 bp的目标区域进行捕获测序，每个read长10 bp，总共得到3000个reads，把所有的reads对比到目标区域后，1000 bp的目标区域中有990 bp的位置至少有1个read覆盖到，换言之剩余的10bp没有1个read覆盖。

则此时：

测序深度（depth）3000*10/1000=30 也就是说测序深度为30*

覆盖度（coverage）990/1000*100%=99% 这次测序覆盖度为99%

同理：

假设对长100bp的目标区域进行捕获测序，每个read长5bp，总共得到200个reads，把所有的reads对比到目标区域后，100bp的目标区域中有98bp的位置至少有1个read覆盖到，换言之剩余的2bp没有1个read覆盖。

深度（depth）200*5/1000=10 也就是说测序深度为 10*

覆盖度（coverage）98/100*100%=98% 这次测序覆盖度为98%

文库构建中的哪些步骤会直接影响测序质量？

NGS的最终目的就是得到优秀测序数据助力于下游科学研究或实际应用，其中文库构建是测序数据的重要影响因素，文库构建一般包括以下几类步骤（以DNA为例）：样本片段化、接头连接、分选/纯化、文库扩增。文库对测序数据的影响，具体到文库构建的每个步骤，参考表2。

表2.建库步骤对测序结果的影响

步骤	评估指标	对测序结果的影响
样本片段化	打断随机性	文库质量；测序数据的均一性和覆盖度
样本片段化	片段大小是否集中	文库浓度；测序数据覆盖度
接头连接	接头连接效率	文库转化率；文库复杂度；均一性；准确性和覆盖度
分选/纯化	片段大小的一致性	片段大小与测序仪大小不匹配将无法上机测序
分选/纯化	回收效率	文库浓度；测序数据覆盖度
文库扩增	扩增偏好性	文库复杂度；均一性
文库扩增	扩增效率	文库浓度；文库复杂度

翌圣生物科技（上海）股份有限公司商家主页

地址：上海市浦东新区天雄路166弄一号楼三层南单元

联系人：李自转

电话： 400-6111-883、021-34615995-8075

传真： 021-34615995-188

Email：lizizhuan@yeasen.com