NEWS
新闻资讯
|
高通量测序,你需要认识的那些关键术语你是不是也曾对着高通量测序(Next-Generation Sequencing,NGS)报告一头雾水?是不是也在文献中遇到过一堆看不懂的专业术语?别担心,今天我们就来聊聊NGS测序中最核心的那些关键词术语,让你轻松入门下一代测序技术!
在高通量测序过程中,测序仪器能够读取的核酸序列片段被称为Reads。Reads的长度取决于所使用的测序平台和技术。例如,Illumina平台的Reads长度通常在50-300bp之间,而PacBio和Oxford Nanopore平台的Reads长度可以达到数千甚至数万bp。较长的Reads有助于提高基因组组装的准确性和完整性,但同时也可能带来更高的测序成本和更复杂的数据分析挑战。
图.Reads示意图
PE即双端测序,是指对DNA片段的两端同时进行测序。这种方法能够提供更多的序列信息,有助于提高基因组组装的准确性和完整性,尤其在基因组重测序、转录组测序等项目中应用广泛。SE即单端测序,只对DNA片段的一端进行测序。单端测序获得的序列信息较少,通常用于一些对序列信息要求不高的项目,如small RNA测序。
图.PE与SE示意
文库是指经过特定处理和富集后的核酸样本,用于后续的测序反应。文库构建是高通量测序的关键步骤之一,包括核酸的提取、片段化、末端修复、接头连接等多个环节。文库的质量直接影响测序结果的准确性和可靠性,因此在文库构建过程中需要严格控制实验条件,确保文库的质量。
图.普通转录组建库流程
在文库构建过程中,插入到载体中的核酸片段的长度称为插入片段大小。插入片段大小的选择取决于测序目的和测序平台,不同的测序项目和平台对插入片段大小有不同的要求。例如,在全基因组测序中,插入片段大小可能在300-500bp左右,而在转录组测序中,插入片段大小可能会更小。合适的插入片段大小能够提高测序效率和数据质量。
Index 是高通量测序(NGS)中用于标记和区分不同样本的短DNA序列,通常添加到测序文库的接头(Adapter)上。在多样本混合测序时,Index序列使得测序完成后能够根据这些标记将数据准确分选回对应的样本,从而实现高通量和低成本的测序。Index分为单端Index和双端Index,后者通过在DNA片段两端添加Index序列,提供更高的样本区分能力和数据分选准确性,广泛应用于全基因组测序(WGS)、全外显子组测序(WES)、转录组测序(RNA-seq)等多种测序项目中。
覆盖度是指测序获得的Reads覆盖目标区域的程度,通常用倍数表示。覆盖度越高,测序结果的准确性和可靠性越高,但成本也越高。例如,10×覆盖度表示平均每个碱基被测序了10次。在全基因组测序中,通常需要较高的覆盖度以确保基因组的全面覆盖;而在一些特定区域的测序项目中,覆盖度可以根据研究目的进行调整。
测序深度是指测序获得的Reads数量与目标区域长度的比值,反映了测序的深度和广度。测序深度越高,能够检测到的变异和表达差异等信息就越丰富。在不同的测序项目中,对测序深度的要求也有所不同。例如,在寻找罕见的基因突变时,需要较高的测序深度以确保能够检测到低频变异。
质量分数用于评估测序数据的质量,通常用Phred质量分数表示。质量分数越高,表示测序数据的准确性越高。例如,Phred质量分数为30表示测序错误的概率为1/1000。高质量的数据是后续分析的基础,因此在数据分析过程中,通常会对低质量的Reads进行过滤和修正,以提高数据的整体质量。
在基因组学研究中,Peak是指在基因组的某些区域,信号强度显著高于周围区域。例如,在ChIP-seq(染色质免疫沉淀测序)实验中,Peak表示转录因子或组蛋白修饰在基因组上的结合位点。这些结合位点对于理解基因调控机制至关重要。通过Peak calling工具,如MACS(Model-based Analysis of ChIP-Seq)或HOMER,可以精确地识别这些Peak区域,从而揭示基因调控的分子机制。
图.reads在Peak区城分布示例图(ChIP-seq)
Motif是指在DNA、RNA或蛋白质序列中,具有特定模式的短序列片段。这些短序列片段通常具有生物学功能,如转录因子结合位点、RNA结合位点等。在基因组学研究中,Motif分析可以帮助识别转录因子的结合偏好,从而理解基因表达的调控机制。通过Motif finding工具,如MEME(Multiple EM for Motif Elicitation)或HOMER,可以从大量序列数据中识别出具有统计学意义的Motif。
图.motif示例
Illumina平台是目前应用最广泛的高通量测序平台之一,具有高通量、高准确率、测序成本低等优点。它基于可逆终止化学反应原理,通过循环合成和成像步骤逐步读取DNA序列信息。该平台适用于多种测序项目,如全基因组测序、转录组测序、小RNA测序等。
华大平台(MGI 2000/DNBSEQ-T7)是一种基于DNA纳米球(DNB)技术的高通量测序系统,具有高通量、高准确性和低重复率的特点。它通过原位合成和荧光标记技术实现测序,能够生成高质量的测序数据,同时显著降低测序成本。该平台支持多种测序模式,包括单端测序(SE)和双端测序(PE),适用于全基因组测序、全外显子组测序和转录组测序等应用,尤其在大规模测序项目中表现出色,为生命科学研究和临床应用提供了高效、经济的解决方案。
图MGI2000和T7测序仪
FASTQ格式是高通量测序数据的标准格式,包含了测序得到的序列信息和质量分数信息。FASTQ文件通常以.fq或.fastq为后缀,每一行表示一个Reads的信息,包括序列名称、序列本身和质量分数。FASTQ格式的数据是后续数据分析的基础,因此在数据处理和存储过程中需要确保其完整性和准确性。
图.测序数据文件格式
SAM(Sequence Alignment/Map)格式和BAM(Binary Alignment/Map)格式是比对结果的标准格式,用于存储Reads比对到参考基因组后的信息。SAM是文本格式,BAM是二进制格式,BAM格式通过压缩存储,能够有效减少文件大小,便于数据存储和传输。这两种格式的文件包含了Reads的比对位置、比对质量、配对信息等重要信息,是后续数据分析的关键数据源。 高通量测序技术的快速发展为生命科学研究带来了前所未有的机遇。希望这篇文章能帮助大家更好地理解和应用这些关键术语,在高通量测序的道路上越走越远!
项目咨询 了 解 更 多 { 往 期 精 彩 回 顾 }
|








