标题
更多

关于我们



武汉爱基百客生物科技有限公司(简称爱基百客),位于武汉高农生物园,办公面积逾3000平方米,是一家专业提供单细胞与空间组学测序分析、表观组学科研服务和高通量测序分析的新型生物科技服务企业。

公司旨在为客户提供最专业的科研服务,运营至今合作的科研客户近千家,涵盖国内知名科研院所、高校以及相关生物企业,运营至今销售额超1亿元,科研成果曾多次在Science、Cancer Cell、Plant Cell、Nature Communications、J HEMATOL ONCOL等国际高水平学术期刊发表,受到了客户广泛好评,是国内成长最迅速的高通量测序科研服务企业之一。

加入我们

NEWS

新闻资讯

详细内容

富集分析怎么选?GO、KEGG、GSEA、GSVA一次讲透!


做生物研究的你,是不是也被海量基因数据折磨过?辛辛苦苦做完测序、差异分析,结果面对成百上千个差异基因,一脸懵:

些基因到底在干嘛?
它们之间有啥关系?
和我的研究表型有啥联系?


这时候,富集分析就像一位“基因翻译官”,帮你把冷冰冰的基因名,翻译成我们能看懂的生物学功能、代谢通路、信号网络……不管你是研究植物开花、动物疾病,还是细胞信号,它都是解读数据的关键一步。

今天,咱们就来聊聊科研人最常用的四大富集分析工具:GOKEGGGSEAGSVA,一次性讲清楚它们的区别,以及到底该怎么选。

 一 

GO和KEGG:经典老牌,稳中带强

要说富集分析,GO和KEGG绝对是科研界的“老熟人”。它们历史悠久,使用广泛,几乎每篇涉及基因功能分析的论文里都能看到它们的身影。

1.GO分析——功能词典


GO(Gene Ontology,基因本体论)就像一本基因功能大词典,把每个基因的功能分成三大类:

  • 分子功能(MF,Molecular Function)比如这个基因编码的蛋白能“结合DNA”“催化反应”;

  • 生物学过程(BP,Biological Process):比如“细胞分裂”、“免疫应答”、“开花调控”;

  • 细胞组分(CC,Cellular Component):比如这个蛋白位于“细胞核”、“线粒体”、“细胞膜”。

举个例子,如果你研究植物开花时间,GO分析可能会告诉你,差异基因富集在“光周期响应”、“开花时间调控”这些生物学过程上,或者它们编码的蛋白位于“细胞核”,执行“转录因子”功能。

GO的好处是分类细致,能让我们从多个角度理解基因的功能。但缺点是它只关注单个基因的功能,不涉及基因之间的网络关系

2.KEGG分析——通路地图

如果说GO是“功能词典”,那KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组百科全书)就是一张“通路地图”。KEGG把基因按照它们参与的代谢通路(比如糖酵解、TCA循环)、信号转导通路(比如MAPK通路、PI3K-AKT通路)、疾病相关通路等进行了系统整理。每个通路都是一个网络图,里面包含了哪些基因、这些基因如何相互作用、最终调控什么生物学过程,都一目了然。

继续拿植物开花举例,KEGG可能告诉你,差异基因集中在“光信号转导”或“昼夜节律”通路上,还能直观看到它们在网络中的位置和关系。

KEGG的优势在于它能展示基因之间的协同作用和网络关系,特别适合研究信号传导和代谢途径。但它的缺点是通路数量有限,而且主要是已知的经典通路,对于一些新发现的机制可能覆盖不够。

01.png

02.png

GO/KEGG富集可视化形式:柱状图,气泡图,网络图,Upset图

3.GO和KEGG怎么选?


  • 如果你想知道:“这些差异基因主要参与哪些具体的生物学功能?”(比如是跟代谢有关,还是跟细胞分裂有关?)那就选GO

  • 如果你想知道:“这些基因在哪些经典的代谢或信号通路里起作用?它们之间是怎么相互影响的?”(比如是否集中在某条明星通路上?)那就选KEGG

  • 最佳实践:很多时候,GO和KEGG会一起用先用GO了解大致功能方向,再用KEGG深入探究具体的通路机制

往期干货分享:
1.富集分析不求人,零代码可视化GO/KEGG分析结果
2.善用KEGG数据库挖掘目的基因
 二 

GSEA和GSVA:灵活进阶,适合复杂场景


当你的研究问题更复杂,或者你手头的数据不适合直接用GO/KEGG时,GSEAGSVA这两个进阶选手就派上用场了。

1.GSEA——无阈值捕捞


传统的富集分析(比如GO/KEGG的常规用法),往往需要我们先设定一个差异基因的阈值(比如p-value<0.05,fold change>2),然后只对这些“显著差异”的基因进行分析。但这样可能会漏掉一些虽然变化不大,但集体朝着同一个方向变化、且有生物学意义的基因。

GSEA(Gene Set Enrichment Analysis,基因集富集分析)就聪明多了,它不需要预先筛选差异基因!它会把所有基因按照表达量的变化趋势(比如从高到低)排个队,然后看看你感兴趣的某个基因集(比如某个通路的所有基因,或者某个功能类别的基因群)是不是在这个排序列表的某一端(通常是顶端或底端)富集。

图片5.png

GSEA富集可视化图

举个例子,即使某个通路里的基因没有一个达到传统意义上的“显著差异”标准,但如果它们整体上都呈现上调或下调的趋势,GSEA就能敏锐地捕捉到这种集体变化,并告诉你这个通路可能很重要。

GSEA特别适合:

  • 单个基因变化不显著,但整体趋势一致,很可能是协同作用;

  • 不想先入为主地筛选差异基因,怕遗漏重要信息;

  • 想全面扫描所有可能的通路或功能类别,看看有没有意外的发现。

往期干货分享:云平台教程 | 手把手教你GSEA富集分析和解读
2.GSVA——单样本活性打分


GSVA(Gene Set Variation Analysis,基因集变异分析)则走的是另一条路线。它关注的是每个样本内部,某个基因集(比如某个通路)的“活性”如何,而不是像传统方法那样比较组间的差异。

03.png

04.png

GSVA富集评分可视化形式:双向条形图,热图,富集散点图,箱线图

比如你有肿瘤样本和正常样本,GSVA就能通过对每个样本的基因表达谱进行分析,计算出一个“通路活性分数”,告诉你这个通路在每个样本里的活跃程度,进而可以比较不同样本组之间通路活性的差异,或者进行聚类、生存分析等后续研究。

GSVA适合场景:

  • 样本间差异大,想看清每个样本的功能状态;

  • 没有时间序列或对照组;

  • 想做更复杂的下游分析(如分型、聚类、关联临床表型)。

3.GSEA和GSVA怎么选?


如果你的研究问题是:“在两组样本中,哪些整体的通路或功能类别发生了变化(即使单个基因变化不显著)”那GSEA更合适。

如果你的研究更关注:“每个样本内部,哪些通路是活跃的?我想比较不同样本间通路活性的差异,或者把样本按照通路活性分组。”那GSVA可能更适合。

记住:GSEA通常需要你有明确的分组信息(比如处理组vs对照组),而GSVA不一定需要

三、实战指南:我到底该用哪个?

说了这么多,可能你还是有点懵:到底啥时候用GO?啥时候用GSEA?别急,下面我们就结合实际的科研场景,给你一些更接地气的建议。

场景1:你已经有了明确的差异基因列表


这是最常见的情况。比如你做了RNA-seq,用DESeq2、limma等工具筛出了一堆差异表达基因。推荐流程:

  • 第一步,GO分析先看看这些差异基因主要参与哪些生物学功能?是代谢?是应激响应?还是发育过程?

  • 第二步,KEGG分析接着看看这些基因集中在哪些经典的代谢或信号通路上?它们在这些通路里扮演什么角色?

  • 可选GSEA:如果想更全面,或者验证你的发现,可以用GSEA再扫描一遍,看看有没有其他重要的通路被你的差异基因富集。

场景2:你没有任何先验假设,想盲筛潜力通路


有时候,我们可能并没有明确的差异基因列表,或者想更全面地探索数据,看看有没有隐藏的模式。

  • 首选GSEA它可以不依赖预先设定的差异基因,全面扫描所有可能的通路或功能类别,帮你发现那些基因集体变化但单个不显著的信号。

  • 也可以考虑GSVA如果你更关心样本间的功能差异,或者想为后续的聚类、分型做准备,GSVA能给你提供每个样本的通路活性信息。

场景3:你想研究时间序列、发育过程,或者临床样本的异质性


  • GSVA可能是你的好帮手:它能分析每个时间点、每个发育阶段、每个临床样本的通路活性,帮你追踪功能的变化,或者找到与表型相关的关键通路。

  • GSEA也可以用于比较不同时间点或组间的富集模式差异。


工具搭配小贴士


  • “GO+KEGG”:经典组合,适合大多数基础的功能和通路分析。

  • “GSEA”:当你想更全面、不遗漏任何可能信号时。

  • “GSVA”:当你关注样本个体差异或需要单样本分析时。

四、避坑指南&实用建议


最后,再给大家分享几个血泪教训总结出的实用小贴士:

1. ID要对齐:基因名(如ENTREZ、ENSEMBL)和数据库要匹配,物种别搞错;
2. 多重检验校正:富集分析检验次数多,FDR校正不能少;
3. 别只看p值:生物学意义明确但p值略高的结果,也值得关注;
4. 结合背景解读:工具是辅助,最终要回到生物学问题本身;
5. 多方法交叉验证:GO、KEGG、GSEA、GSVA都指向某个通路?那它大概率真靠谱!

总结:没有“最好”,只有“最合适”

工具

适合场景

特点

GO

差异基因功能分类

细致全面,角度多

KEGG

差异基因通路机制

网络清晰,机制明确

GSEA

无阈值富集,趋势分析

不挑基因,适合探索

GSVA

单样本通路活性

灵活强大,适合分型

一句话总结,先明确你想研究什么,再选择合适的工具。富集分析不是“谁更高级”,而是“谁更适合”。用对了,数据才能讲出好故事!

爱基百客拥有10+年表观遗传学研究服务的经验,我们致力于提供包括ChIP-seq、CUT&Tag、WGBS等在内的全套表观遗传学测序服务,以及RNA-seq、单细胞测序、空间转录组学等高通量测序服务,并拥有强大的生物信息学分析团队。如有需求,欢迎随时联系我们,我们期待为您的科研工作助力!

市场部小助理微信  6.png

项目咨询

{ 往 期 精 彩 回 顾 }



         询服务热线


027-65522558


(市场部

18971172815


(行政部





联系我


Q Q: 270105245   1511879086   465436937           

邮箱: support@igenebook.com

地址:武汉市东湖高新区高新大道888号高农生物二期3A栋

网址: www.igenebook.com


公司主要提供表观组学技术服务、NGS测序服务、单细胞测序服务

欢迎咨询!鄂ICP备17016573号-2   技术支持:武汉网站建设

关注我们

二维码

公众号二维码



客服中心
联系方式
027-65522558
- 线上客服
微信 一对一业务咨询
seo seo