标题
更多

关于我们



武汉爱基百客生物科技有限公司(简称爱基百客),位于武汉高农生物园,办公面积逾3000m2,是一家专业提供单细胞与空间组学测序分析、表观组学科研服务和高通量测序分析的新型生物科技服务企业。

公司旨在为客户提供最专业的科研服务,运营至今合作的科研客户近千家,涵盖国内知名科研院所、高校以及相关生物企业,运营至今销售额超1亿元,科研成果曾多次在Cancer Cell、Plant Cell、Nature Communications、J HEMATOL ONCOL等国际高水平学术期刊发表,受到了客户广泛好评,是国内成长最迅速的高通量测序科研服务企业之一。

加入我们

NEWS

新闻资讯

详细内容

转录组专题 | 保姆级教程,手把手教你看懂真核转录组测序结果

转录组研究作为揭示基因表达和功能的重要工具,可以促进我们对特定生物过程和分子机制的理解。但对于刚接触转录组测序的小伙伴来说,当你刚拿到转录组测序结果和结题报告的时候,是不是满脸问号,不知道从何下手呢?今天小编给大家带来一篇保姆级解读教程,让我们一起来看一下吧!


一个完整的结果分为3部分:测序数据fastq结题报告以及本地分析结果。Fastq主要用于发表文章时将其上传至NCBI数据库(或其他数据库)保存,结题报告主要是对本地结果的介绍与简单解读,本地分析结果则为完整的分析内容。
转录组分析结果主要包含质控、比对、表达分析、差异分析与富集分析(图1),当然有时候还可以进行SNP和可变剪切分析,今天就不作为重点描述啦。接下来,我们将对真核转录组的分析报告进行解读。
image.png


图1. 转录组结果文件夹展示



 一、数据的质控


拿到分析结果后,我们首先看到的是原始数据整理与质量评估,数据量的大小与测序质量的好坏是评判测序数据可靠性的重要标准,是保证可以得到理想结果的必要条件。一般原始数据用Raw data来表示,对于绝大部分真核生物来说,转录组测序6G数据量即可,若老师需要获得更多低丰度基因的信息,测序数据量可达到10G甚至更多。

原始数据通常需要过滤得到Clean Data,Clean Data的数据评估中主要包括碱基质量、碱基分布以及碱基含量。图2是数据统计表,其中Raw reads和Clean reads分别代表原始测序 reads 数和过滤得到的 reads 数,Raw Bases 和Clean reads分别代表原始数据的总碱基数和过滤后的总碱基,CleanRatio则代表 clean reads 所占比例,理论上越高越好。

在Clean Data质量分析中我们通常会看到Q20和Q30这两个概念(类似于产品合格率),它们分别代表碱基错误识别率为1% 和0.1%。我们通常选择Q30作为碱基质量评价标准,Q30的值越大越好,一般大于85%结果会比较好,对应到图3a整体碱基质量分数在绿色区域(>28)是比较好的结果。碱基含量即ATGC四种碱基所占的比例,一般除了前一小段碱基位置之外(大概10bp左右,这是二代测序的通病),4种碱基的含量线条应呈现出平行且接近的状态(图3b)。此外,在测序过程中识别不了的碱基(N碱基)的含量越少越好,一般接近于0(图3c)。

image.png

图2.数据统计表


image.png


图3.数据评估结果展示



二、数据比对与定量


接下来,我们看数据分析结果,这部分包括基因组比对分析、表达定量分析、PCA 分析、样本间相关性分析、reads在基因功能元件上分布、差异表达分析、差异基因的GO分析以及 KEGG 分析。其中差异基因的鉴定与功能富集分析是转录组文章的重点内容,数据挖掘与分析也是基于这两个模块进行。

image.png

图4.比对结果统计

在这一部分,我们首先来看基因组比对分析,就是将 Clean reads 数据使用 hisat2 软件 (version: 2.0.1-beta) 比对到参考基因组,比对结果会出现如图4所示,在表中我们需要关注mapRate,除了样本污染的非常规因素,比对率主要与参考基因组与目标物种的适配度有关,参考基因组的选择也是转录组分析比较重要的影响因素(详情可参考爱基百客公众号《如何填写测序项目信息分析表》)。

image.png


图5. 基因表达定量结果


接下来,我们来看基因表达定量分析。在得到有效 reads 之后,我们使用 featureCounts软件 (version: v1.6.0) 根据基因组的注释文件统计出 reads 落在基因上的数目,由于每个样本的测序量不一样,为了能横向比较同一基因不同样本间的表达量差异,我们需要对基因的 reads 数进行标准化,这里采用的标准化方式为FPKM,代表每千个碱基的转录每百万映射读取的fragments,主要是针对pair-end测序表达量进行计算。其实,我们通常还会看到另一种标准化的表达方式叫RPKM(R代表reads),这其实跟FPKM类似,它们的区别就在于FPKM适用于双端测序文库,RPKM适用于单端测序文库。

image.png

FPKM实际上是一个相对定量,通过横向对比可以得出不同样品之间同一基因表达量的差异。

image.png

图6. PCA 分析和样本间相关性分析

生物学重复之间的相关性高低与差异基因鉴定的准确性息息相关,我们通常采用两种算法进行重复性的评估(图6)。主成分分析(PCA)是设法将原来众多具有一定相关性的指标(如reads 的分布特征),重新组合成一组新的互相无关的综合指标,从而降低问题的复杂性,来研究样品间的主成分关系。二维PCA图将主成分 1(PC1)和主成分 2(PC2)分别作为 X 轴和 Y轴的散点图,图内每个点代表 1 个样本。如果两个样本距离越远,则说明两个样本 reads分布的差异越大。反之,则说明相应样本 reads 整体分布模式越接近。理想情况下,生物学重复的样本应该聚类在一起,而处理组间应该可以清晰区分开(图6a)。除PCA外, pearson相关性分析热图也是用于衡量生物学重复的方法,热图中会展示相关性具体数值,并用不同的颜色进行标注,相关性越高颜色越深。正常情况下,组内重复的相关性最好是大于不同组之间的相关性。

image.png

图7. reads 在基因功能元件上分布

同时我们将比对到基因组上的有效 reads 按照功能元件进行统计,把基因组分为CDS、 5UTR、 3UTR、 Intron 和 Intergenic 区域分别统计落在其上的 reads 比例。正常情况下, RNA-seq 的reads 大部分会落在 CDS 区域,统计结果如图7。

image.png

image.png

图8. 差异表达分析



三、差异基因分析与富集分析


最后,来到我们转录组测序结果最核心的部分,差异基因的鉴定与功能富集分析。首先,为了比较不同样本间的基因表达量差异,我们通过R包edgeR进行差异表达分析,筛选阈值设定为FDR < 0.05&| FoldChange | > 2 ,结果如上表2.5所示,FDR为错误发现率,一定程度上对p值的假阳性进行了校正,而FoldChange则表示差异倍数,在文章或结果中常见以log2FC进行展示。差异基因的可视化一般以火山图进行展示(图8a),绿色代表下调基因,红色代表上调基因,对FDR取了负log,负log就越大,两个基因之间的差异也越显著,所以在火山图里,越外层的岩浆差异越大,火山图可以更加形象的展示出整体表达差异信息。图8b 代表差异基因heatmap图,这张图中的红色和蓝色分别代表基因的上调和下调,颜色的深浅代表基因的上下调程度,通过差异基因heatmap图我们可以得到不同处理样品之间基因表达的差异。

image.png

image.png

image.png

图9. 差异基因的 GO分析

将GO注释对应的gene数目,进行统计然后按照分子功能 (Molecular Function)、细胞组分 (Cellular Component) 和生物学过程 (Biological Process) 分类绘图,结果如图9a所示,基因可以通过ID对应或者序列注释的方法找到与之对应的GO号,而GO号可对应到具体的term,即功能类别或者细胞定位,这也是GO富集的一个基础。而富集的目的就是从差异显著的基因中挑选出我们需要的基因,并分析挑选结果是否可信。GO 富集柱状图和富集气泡图(图9b、c),它们都是GO 富集结果直观展示。气泡图气泡的大小代表基因的数目,颜色代表P值,P值越小基因数目越多代表我们得到的结果越可信。总之,通过差异基因的GO 分析,可以找到富集差异基因的GO分类条目,从而寻找不同样品的差异基因可能与哪些基因功能的改变有关。

image.png


图10. 差异基因的KEGG分析
KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是目前公认的、最权威的基因功能数据库,具体来说,就是用来系统分析基因产物在细胞中的代谢途径以及这些基因产物功能的数据库,它可以帮助我们把基因及表达信息作为一个整体的网络进行研究。


image.png

图11. KEGG代谢通路富集分析

通路分析:Pathway是指在系统水平上完成生物的某一功能的基本单元或者局部子网络,这其中的 Pathway是内容是 KEGG 的核心。目前针对 Pathway 的分析、注释,大多数是基于 KEGG-Pathway 来做的。气泡图是 KEGG 富集分析结果的图形化展示方式。在此图中,KEGG 富集程度通过 Rh因子值和富集到此通路上的基因个数来衡量。此外,用P <0.05筛选出显著富集的通路,进而查找与研究相关的生物学途径。在此代谢通路图中,差异基因映射的位置会用彩色标示出来(图11)。总之, GO和KEGG就是两个数据库,它们里面有每个基因相关的功能信息,通过注释和富集分析就是把这些功能信息进行整合计算的一种算法。



◆ 总 结 ◆ 
本期我们主要了解了如何分析转录组测序结果,但是无论是结题报告还是分析结果,都是为我们的研究服务,当我们拿到这些数据后要根据研究目的挑选差异基因,找到关键的通路。通常,转录组分析后还会RT-PCR验证亦或者与其他组学联合分析,解决表观机制、代谢和蛋白的研究问题,例如和WGBS、单细胞测序、ATAC-seq、ChIP-seq等联合使用,我们的往期客户文章也有报道,如果老师感兴趣可以关注我们的往期文章。

好了,今天就了解到这里吧,之后我们还会持续分享测序的相关知识点,持续关注哦。爱基百客生物专注表观和单细胞测序技术服务,各种组学实验都有丰富的经验,有相关需求的老师可以联系我们。


         询服务热线


027-65522558


(市场部

18971172815


(行政部





联系我


Q Q: 270105245   1511879086   465436937           

邮箱: support@igenebook.com

地址:武汉市东湖高新区高新大道888号高农生物二期3A栋

网址: www.igenebook.com


公司主要提供表观组学技术服务、NGS测序服务、单细胞测序服务

欢迎咨询!鄂ICP备17016573号-2   技术支持:武汉网站建设

关注我们

二维码

公众号二维码



客服中心
联系方式
027-87606602
- 线上客服
微信 一对一业务咨询
seo seo