NEWS
新闻资讯
|
富集分析怎么选?GO、KEGG、GSEA、GSVA一次讲透!做生物研究的你,是不是也被海量基因数据折磨过?辛辛苦苦做完测序、差异分析,结果面对成百上千个差异基因,一脸懵: 这时候,富集分析就像一位“基因翻译官”,帮你把冷冰冰的基因名,翻译成我们能看懂的生物学功能、代谢通路、信号网络……不管你是研究植物开花、动物疾病,还是细胞信号,它都是解读数据的关键一步。 今天,咱们就来聊聊科研人最常用的四大富集分析工具:GO、KEGG、GSEA和GSVA,一次性讲清楚它们的区别,以及到底该怎么选。 GO和KEGG:经典老牌,稳中带强 要说富集分析,GO和KEGG绝对是科研界的“老熟人”。它们历史悠久,使用广泛,几乎每篇涉及基因功能分析的论文里都能看到它们的身影。 GO(Gene Ontology,基因本体论)就像一本基因功能大词典,把每个基因的功能分成三大类:
举个例子,如果你研究植物开花时间,GO分析可能会告诉你,差异基因富集在“光周期响应”、“开花时间调控”这些生物学过程上,或者它们编码的蛋白位于“细胞核”,执行“转录因子”功能。 GO的好处是分类细致,能让我们从多个角度理解基因的功能。但缺点是它只关注单个基因的功能,不涉及基因之间的网络关系。 如果说GO是“功能词典”,那KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组百科全书)就是一张“通路地图”。KEGG把基因按照它们参与的代谢通路(比如糖酵解、TCA循环)、信号转导通路(比如MAPK通路、PI3K-AKT通路)、疾病相关通路等进行了系统整理。每个通路都是一个网络图,里面包含了哪些基因、这些基因如何相互作用、最终调控什么生物学过程,都一目了然。 继续拿植物开花举例,KEGG可能告诉你,差异基因集中在“光信号转导”或“昼夜节律”通路上,还能直观看到它们在网络中的位置和关系。 KEGG的优势在于它能展示基因之间的协同作用和网络关系,特别适合研究信号传导和代谢途径。但它的缺点是通路数量有限,而且主要是已知的经典通路,对于一些新发现的机制可能覆盖不够。
GO/KEGG富集可视化形式:柱状图,气泡图,网络图,Upset图
GSEA和GSVA:灵活进阶,适合复杂场景 当你的研究问题更复杂,或者你手头的数据不适合直接用GO/KEGG时,GSEA和GSVA这两个进阶选手就派上用场了。 传统的富集分析(比如GO/KEGG的常规用法),往往需要我们先设定一个差异基因的阈值(比如p-value<0.05,fold change>2),然后只对这些“显著差异”的基因进行分析。但这样可能会漏掉一些虽然变化不大,但集体朝着同一个方向变化、且有生物学意义的基因。 GSEA(Gene Set Enrichment Analysis,基因集富集分析)就聪明多了,它不需要预先筛选差异基因!它会把所有基因按照表达量的变化趋势(比如从高到低)排个队,然后看看你感兴趣的某个基因集(比如某个通路的所有基因,或者某个功能类别的基因群)是不是在这个排序列表的某一端(通常是顶端或底端)富集。
GSEA富集可视化图 举个例子,即使某个通路里的基因没有一个达到传统意义上的“显著差异”标准,但如果它们整体上都呈现上调或下调的趋势,GSEA就能敏锐地捕捉到这种集体变化,并告诉你这个通路可能很重要。 GSEA特别适合:
GSVA(Gene Set Variation Analysis,基因集变异分析)则走的是另一条路线。它关注的是每个样本内部,某个基因集(比如某个通路)的“活性”如何,而不是像传统方法那样比较组间的差异。
GSVA富集评分可视化形式:双向条形图,热图,富集散点图,箱线图 比如你有肿瘤样本和正常样本,GSVA就能通过对每个样本的基因表达谱进行分析,计算出一个“通路活性分数”,告诉你这个通路在每个样本里的活跃程度,进而可以比较不同样本组之间通路活性的差异,或者进行聚类、生存分析等后续研究。 GSVA适合场景:
如果你的研究问题是:“在两组样本中,哪些整体的通路或功能类别发生了变化?(即使单个基因变化不显著)”那GSEA更合适。 如果你的研究更关注:“每个样本内部,哪些通路是活跃的?我想比较不同样本间通路活性的差异,或者把样本按照通路活性分组。”那GSVA可能更适合。 记住:GSEA通常需要你有明确的分组信息(比如处理组vs对照组),而GSVA不一定需要。 三、实战指南:我到底该用哪个? 说了这么多,可能你还是有点懵:到底啥时候用GO?啥时候用GSEA?别急,下面我们就结合实际的科研场景,给你一些更接地气的建议。 这是最常见的情况。比如你做了RNA-seq,用DESeq2、limma等工具筛出了一堆差异表达基因。推荐流程:
有时候,我们可能并没有明确的差异基因列表,或者想更全面地探索数据,看看有没有隐藏的模式。
四、避坑指南&实用建议 最后,再给大家分享几个血泪教训总结出的实用小贴士: 总结:没有“最好”,只有“最合适”!
一句话总结,先明确你想研究什么,再选择合适的工具。富集分析不是“谁更高级”,而是“谁更适合”。用对了,数据才能讲出好故事! 爱基百客拥有10+年表观遗传学研究服务的经验,我们致力于提供包括ChIP-seq、CUT&Tag、WGBS等在内的全套表观遗传学测序服务,以及RNA-seq、单细胞测序、空间转录组学等高通量测序服务,并拥有强大的生物信息学分析团队。如有需求,欢迎随时联系我们,我们期待为您的科研工作助力!
项目咨询 { 往 期 精 彩 回 顾 } |





