NEWS
新闻资讯
|
全景解析|从FASTQ到变异位点:一文读懂重测序的底层逻辑与应用自1977 年Sanger测序技术问世以来,伴随科学技术的迭代升级与测序需求的多元化发展,各类基因组测序技术相继被研发并投入应用。由于不同测序策略技术原理的不同,它们各有其适用场景与局限性(图1)。 但当某一物种具备高质量的参考基因组时,重测序技术在大规模、高效率的遗传变异检测与分析方面的优势便得以充分凸显。它跳过了耗时费力的从头组装步骤,直接通过序列比对实现变异挖掘,从而能够在个体与群体水平上,系统解析从点突变到结构变异的多层次遗传差异,为群体遗传学与分子遗传育种提供直接、可靠的数据基础。 ![]() 图1基因组测序对比 01 重测序数据 要理解重测序,首先需明确其数据的产生与处理流程。样品经建库与高通量测序后,得到原始测序数据—fastq文件(图2),其中可能包含仪器误差或建库引入的干扰。因此,需先借助 FastQC 进行质量评估,再通过fastp过滤低质量读段和接头序列,从而获得高质量的clean data(图3)。 ![]() 图2 fastq文件示例 注:从@开始每四行为一个read的信息,@行是read的名字;第二行是该read的碱基序列信息;第四行是测序read的质量值,第三行为空。 ![]() 图3 clean data质控结果示例 图a为碱基质量分布图。横坐标为在read中的位置,纵坐标为测序质量值,理想情况:所有位置的质量线中位数都在绿色区域。图b为碱基含量分布图。其中,四色的线段代表四种碱基的含量。由于二代测序的本身特性,前面部分碱基含量会存在波动。从碱基含量分布图中可以看出,在前面部分碱基之后,A与T、G与C含量基本一致,数据碱基含量合格。图c展示了在测序过程中,无法被准确识别的碱基(以“N”表示)所占的百分比,理想情况下该值为0%。图d clean data结果统计表,主要关注:Q20与Q30分别为测序错误率为1%和0.1%的碱基占总碱基的比例。 由于文库构建时将DNA随机片段化,clean data中的读段已失去其在基因组中的原始位置信息。此时,需使用 BWA 等比对工具,以参考基因组为“地图”,将每条读段比对回正确位置。随后,通过 samtools 将比对结果由SAM格式转换为压缩的BAM格式,并按坐标排序、建立索引,以便快速定位目标区域。同时,利用 Picard 标记PCR重复片段(图4)。 ![]() 图4 PCR重复示意图 数据预处理完成后,采用 GATK工具进行变异检测:先识别样本与参考基因组之间的单核苷酸多态与插入缺失等差异,生成gVCF文件;再通过联合分型得到群体变异数据集,并经过硬过滤以剔除低质量位点,最终输出高质量的VCF文件(图5)。为进一步赋予变异数据生物学意义,可使用 ANNOVAR 等工具对其进行注释,从基因组位置、功能影响与人群频率等维度添加解读信息(图6),从而将原始的碱基差异转化为可用于下游功能分析或育种决策的结构化知识。 ![]() 图5 VCF文件示例 注:CHROM:染色体;POS:变异所在位置;ID:SNP ID,一般为空;REF:参考基因组该位点的碱基;ALT:该位点样本基因组与参考基因组不一样的碱基;QUAL:SNP质量值;FILTER:该位点的snp有没有通过过滤;INFO:SNP具体信息;FORMAT:各个样本SNP信息简称;HLP:此列后续N列为各个样本SNP信息。
图6 变异注释结果文件示例 注:注释文件中重点关注:Chr:突变所在的染色体;Start:突变所在起始位置;End:突变所在终止位置;Ref:突变在参考基因组的碱基;Alt:突变之后的碱基;Func.ref:突变所在基因功能元件;Gene.ref:突变所在基因;ExonicFunc.ref:变异在外显子上的突变类型;AAChange.ref:变异在外显子上的详细信息。 02 重测序的应用分析 获得高质量、经深度注释的变异数据集(VCF文件)仅是重测序研究的开端。这些数据蕴藏着揭示生命规律与驱动产业创新的关键信息,其价值还需通过系统性的下游分析方能充分释放。重测序的应用分析主要围绕两大方向展开:群体遗传学研究与分子育种。 在群体遗传学领域,借助重测序数据可深入解析物种的遗传背景与进化历程。通过主成分分析、群体结构聚类与系统发育树构建,能够清晰刻画种群间的分化关系与遗传格局;借助基因流分析、群体分化指数检验与选择信号扫描,则可追溯种群历史动态,并定位在自然或人工条件下受到强烈选择的基因组区域与关键基因。
图7 群体遗传结构分析示例 在分子育种应用中,重测序数据为分子育种提供了核心驱动力。利用全基因组关联分析,可高效定位与重要农艺性状相关的遗传位点;通过基因组选择模型,能基于SNP标记对个体育种值进行早期、准确预测;结合单倍型分析与基因型填充技术,可进一步优化标记利用效率,实现优良等位基因的精准聚合与背景选择。这一完整的技术体系,系统构建了从遗传变异解析到育种决策制定的高效通路,持续推动作物与畜禽遗传改良的进程。 ![]() 图9 利用重测序数据定位育种位点 现如今,以完整参考基因组(如 T2T-CHM13)为支撑的重测序技术,正重新定义人类进化与古基因组研究的精度。从精细化检测现代人类中的尼安德特人渗入序列,到构建 ASH可视化数据库实现古基因组片段的高效探索,其不仅修正了传统参考基因组导致的映射偏差,更让种群混合历史、古人类基因交流等关键问题有了更精准的答案。这种 “技术迭代- 数据精准- 认知深化”的逻辑,不仅适用于人类演化研究,更可延伸至其他物种的进化解析。未来,重测序将持续作为探索物种起源与种群动态的核心工具,推动我们对生命演化历程的认知迈向新高度。
项目咨询
|









