NEWS
新闻资讯
|
泰裤辣!NGS数据过滤:从“大怨种”到“高质量数据”做NGS(下一代测序/高通量测序)实验时,我们总盼着测序仪“吐”出的原始数据能直接用——毕竟从样本制备到上机测序,每一步都耗费了时间和经费。但现实是,刚拿到的原始数据里藏着不少“杂质”,直接用来分析只会让结果跑偏。 今天就跟大家聊透NGS数据分析的“第一关”——数据过滤。搞懂这一步,才能让后续的比对、变异检测、差异分析更靠谱~ 测序过程会产生多种类型的低质量或干扰性数据,主要包括:
如果不先清理,这些问题会放大到下游的每一步:比对率下降、假阳性上升、变异检测灵敏度受损等。因此,拿到 FASTQ 后的第一步,就是做“干净、可用”的数据过滤。 数据过滤不是“一刀切”,而是有针对性地剔除几类特定的“问题序列”,常见的过滤目标主要有4种: 1. 低质量碱基与低质量reads 每个测序碱基都会有一个质量值用Qhred值表示(简称Q值),其与测序错误率 E的换算关系为: Qphred = −10 log10 E Q值越高,说明这个碱基的识别越准确:
过滤时,会先扫描每个reads的碱基质量分布:如果reads末端的Q值持续低于阈值(比如Q20),就会截断这部分低质量序列(叫“截尾”);如果截尾后reads的长度太短(比如短于36bp),就直接剔除这个reads;另外,整个reads的平均质量值低于阈值的,也会被过滤掉。 2. 接头污染序列 建库时,为了让DNA片段能结合到测序芯片上,会给片段两端连接特定的“接头序列”。理想情况下,测序只针对目标片段,但实际中难免会测到接头序列——这些接头序列不属于样本本身,必须剔除。 如果不剔除接头,后续比对时,这些“外来序列”可能会错误地比对到基因组上,导致假阳性结果。现在的过滤工具(比如Trimmomatic)能精准识别接头序列,并将其从reads中切除。 3. N含量过高的reads “N”代表测序仪无法识别的碱基——如果一个reads里N的比例过高(比如超过5%),说明这个reads的可信度极低,后续分析无法利用,直接过滤即可。 4. 冗余重复reads 测序过程中会产生大量完全相同或高度相似的重复reads(比如PCR扩增时的偏好性导致某些序列被过度扩增)。这些重复reads不仅会增加服务器的计算负担,还可能导致基因表达定量偏高、变异检测假阳性升高。 过滤时,会通过去重工具(比如Picard MarkDuplicates)识别并标记这些重复reads,后续分析时忽略它们的影响。 搞懂了过滤目标,接下来就是“怎么操作”。生信领域有很多成熟的开源工具,不用自己写代码,掌握核心参数就能用,常见的有这几个: 1. Trimmomatic(最常用的通用过滤工具) 支持单端(SE)和双端(PE)测序数据,功能全面,能同时完成接头切除、质量截尾、低质量reads过滤。 2. FastQC 严格来说,FastQC不是过滤工具,而是“过滤前的质检工具”——它能生成详细的质量报告,包括碱基质量分布、接头含量、N含量、重复序列比例等。建议在过滤前后分别运行FastQC:过滤前用于诊断数据问题,指导参数设定;过滤后用于验证过滤效果。 3. Picard MarkDuplicates 主要用于去除PCR重复和测序重复reads,尤其适合全基因组测序(WGS)、全外显子测序(WES)数据。它会通过比对后的坐标信息,识别重复reads并标记,后续分析软件会自动忽略标记的reads。 数据过滤看似简单,但参数设置不当,很可能“筛掉有用的数据”或“留下有害的杂质”,这3个坑一定要避开: 比如把质量阈值设得过高、最短reads长度设得太长,可能会导致有效数据量大幅减少,尤其是样本本身测序深度不高的情况,会影响后续分析的统计效力。建议根据数据质量和研究目的设置阈值。 如果是双端测序(PE,即一个DNA片段的两端都测序),过滤时要保证一对reads的完整性:如果其中一条reads被剔除,另一条也要一起剔除,否则会导致后续比对时出现“单条reads”,影响分析结果。Trimmomatic等工具会自动处理双端数据的同步问题,不用手动操作。 记录过滤前后的reads数量、质量分布、接头切除比例等信息,便于质量评估、过程追溯与研究复现。 其实数据过滤的逻辑很简单:“去伪存真”——通过针对性剔除低质量、污染、冗余的序列,让数据更“干净”、更可靠。这一步虽然基础,但直接决定了后续分析的成败,千万不能省略或敷衍~
【1】Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics, 30(15), 2114-2120. 【2】Andrews, S. (2010). FastQC: a quality control tool for high throughput sequence data. Babraham Bioinformatics, 1(1), 1-11. 【3】Martin, M. (2011). Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet.journal, 17(1), 10–12. 【4】Chen, S., et al. (2018). fastp: an ultra-fast all-in-one FASTQ preprocessor. Bioinformatics, 34(17), i884–i890.
项目咨询
|


