NEWS
新闻资讯
|
善用KEGG数据库挖掘目的基因有关KEGG的分析在很多已发表的论文中都十分常见,涉及到的方向也很广泛,比如:代谢组、表观组、转录组等等。通常得到相关的基因集或者代谢物后,我们都希望能够快速了解它们的蛋白功能和涉及的调控机制,从而进一步锁定接下来关注的核心基因。 KEGG富集分析就是一种很好的手段。该分析方法是由Kanehisa实验室(Kanehisa Laboratories)在1995年开发。 KEGG(Kyoto Encyclopedia of Gens and eomes)是一个包含生物信息学数据库和相关工具的综合性资源,旨在帮助研究人员理解生物系统的功能和组成。KEGG数据库包含了多种生物信息学数据,包括基因组、代谢途径、疾病和药物等信息。主要包括以下几个部分: 包括已知生物物种的基因组序列和注释信息。 包括生物体内代谢途径的图谱和相关基因、蛋白质等信息。 包括与基因和代谢途径相关的疾病信息。 包括与基因和代谢途径相关的药物信息。 KEGG数据库还提供了一系列工具和资源,如KEGG Pathway,KEGG BRITE,KEGG Orthology等,帮助我们进行生物信息学分析和研究。 进入KEGG官网的页面后我们可以看到便捷搜索框、简介与引用、KEGG子库列表以及各种分析工具等。其中,KEGG PATHWAY会是我们要重点关注的部分,点击进入后首先会看到pathway的一级分类。目前可以分为七大类,分别为: 包括碳水化合物代谢、脂类代谢、氨基酸代谢、核苷酸代谢等。 包括转录、翻译、DNA 复制、修复等。 包括信号转导、细胞周期、细胞凋亡等。 包括细胞结构、细胞运动、细胞分裂等。 包括免疫系统、内分泌系统、循环系统、消化系统、排泄系统、神经系统等。 包括各种人类疾病的相关基因和蛋白质信息。 包括各种药物的作用机制和代谢途径等信息。 除此之外,页面的下方我们也可以看到更为详细的分类。KEGG目前一共有三级分类,我们常说的富集通路为第三级分类。 说到这里,大家可能会问到不同的编号有什么含义呢?或者他们的区别在哪里? 其实每个通路都由一个五位数字标识,后跟以下任意一个:map,ko,ec,rn和三字母或四字母生物代码,它们分别代表五种通路类型:
这五种前缀其实都是同一张通路图,只不过高亮显示的内容不同。要注意的是KEGG各个通路并非完全独立的,而是存在着普遍的联系。而且KEGG通路的联系一般不是单纯的上下游关系,更多是重叠交错的关系。在转录组、表观组研究中我们最常见的是map编号和ko编号。 了解完KEGG数据库的基本界面信息,我们再来认识下KEGG注释结果和富集分析结果。以下是富集分析后最常见的两种文件格式。 与富集分析不同,KEGG注释是基于基因本身比对数据库后给出对应的K号,K号表示基因,每个号代表的是所有物种的一个同源基因。 以“K00410”为例,通过K号的搜索也能查找到对应的通路图。 Entry、Symbol、Name为基本信息;Pathway表示相关的map通路,点击map号可显示对应通路图;Module表示包含这个KO条目的KEGG模块,点击链接后在模块map中相应的KO矩形会被标记为红色;Brite代表了遵循KEGG通路层次结构的KO系统的分级分类,以及BRITE数据库中的其他分类;Other DBs链接到KEGG REACTION,以及COG,GO和其他分类系统;Genes表示KEGG组织中属于这个KO组的基因;Reference、Authors、Title、Journal 为该通路图的参考文献信息。 通过目的基因集和背景文件,完成富集分析后我们会得到下方格式的结果文件。 ID :KEGG pathway ID Description :KEGG Pathway ID 的描述 GeneRatio :本次富集实验注释到该 KEGG Pathway 的基因数/本次富集实验注释到 KEGG Pathway 数据库的基因总数 BgRatio :基因组中能注释到该KEGG Pathway的基因数/基因组中能注释到 KEGG Pathway数据库的基因总数 pvalue :富集P value (本表格中保留 3 位小数) p.adjust :校正后的P value (本表格中保留 3 位小数) qvalue :富集Q value (本表格中保留 3 位小数) geneID :富集的基因名称 Count :富集的基因个数 一般来说,通过Description列对于通路的描述可以快速锁定与研究目的相关的通路和基因。但有些通路的简单描述可能并不能满足老师的需求,此时就需要我们关注ID,即结果第一列的KEGG map号,“00190”=“map00190”。 这里我们以map00190为例,通过KEGG官网输入map号再Search可以得到更为详尽的map通路信息。
注:图中我们可以标注出感兴趣的蛋白、mRNA或者酶等等,标注后的图片点击上方Download即可下载。点击“Change pathway type”可切换每种通路类型以及对物种进行选择。 KEGG通路图本质是一副线框图,即由点和线构成的基因-代谢物关系图。图中的方框、箭头、圆圈等也分别代表着不同的含义,关系类型可以分为蛋白-蛋白互作关系,基因表达关系和酶-酶关系。要注意的是KEGG通路图之间并非孤立的,而是常常会标注该通路中的基因或代谢物来自或流向其它相关的通路。 使用KEGG数据库分析后,结果如何可视化呢?这里有些例子供大家参考。 ...... 其中大部分图通过爱基百客云平台即可实现无代码完成,真正的小白福音,欢迎咨询哦~ 相关教程:富集分析不求人,零代码可视化GO/KEGG分析结果 了 解 更 多 { 往 期 精 彩 回 顾 } 精选合集,欢迎收藏哟! |