NEWS
新闻资讯
|
文献解读 | 调控组:猪物种调控图谱解析发表日期: 2021年4月 发表杂志:Nature Communications(IF:14.919) 略读部分 内容1: 顺式调控元件和3D基因组概览。介绍了选取的样本信息,使用的检测技术,质控标准,利用的前人发表的资源介绍。 内容2: 转录组结果。转录组聚类分析结果,功能分析结果,新转录本发现,lncRNA结果。 内容3: 顺式调控元件分析结果。组织特异顺式调控元件分析,超级增强子分析,增强子功能验证。 内容4: 猪3D基因组结构。A/B 区室分析结果,TAD分析结果,loop分析结果,GWAS关联SNP结果。 内容5: 不同猪种间的组蛋白修饰差异和基因组变异。猪种间差异表达基因分析,组蛋白修饰差异与基因表达差异关联,基因组变异与组蛋白修饰差异关联。 内容6: 顺式调控元件在哺乳动物间的保守性。顺式调控元件在猪和人及老鼠基因组间的保守性分析。猪特异顺式调控元件在人类细胞的激活表达作用。人-猪直系同源基因的表达模式趋同分析和顺式调控元件趋同分析。 内容7: 猪和人之间的TAD结构比较分析。差异TAD的分析。差异TAD区域基因与人类表型的关联,差异TAD区域基因的功能分析。 精度部分 家猪是我们食品肉的主要来源,也是用于医学研究的动物模型,还是人类异种移植的供体。在今年一月,在美国实现了猪心脏移植人类持续两个月的生存记录,在不远的将来猪心脏移植人类还是可以期待的。在该研究中,作者通过采用与 ENCODE 和 Roadmap Epigenomicsproject类似的策略(包括RNA-seq, ATAC-seq,ChIP-seq of the H3K4me3 and H3K27ac,HiC-seq),系统地描述了来自四个品种猪的12个不同组织中的顺式调控元件及其功能。共获得了199个数据集,最终在猪基因组中识别了超过 220,000个顺式调控元件。结果发现人类和猪基因组之间的顺式调控元件的保守性高于人类和小鼠基因组之间的保守性。此外,猪和人类基因组之间拓扑关联结构域的差异与头部和面部的形态进化有关。 作者将通过质控的数据按照 ENCODE 指南识别顺式调控序列(基于50m以上reads数)。共鉴定了 220,723个非冗余顺式调控序列,其中包括 37,838个启动子和146,399个增强子)。这些非冗余顺式调控序列的总长度约为 4.3492 亿个碱基对,占 susScr11 基因组组装的 17.38%。将鉴定的增强子和启动子与UCSC,猪项目注释的TSSs和之前发表的猪多能干细胞和肝组织的ChIP-seq 数据进行了比较。结果表明,鉴定的启动子中约有 50% 与从已发表数据中鉴定的启动子重叠或与 TSSs 重合。先前发表的鉴定的超过 65% 的增强子和已知启动子可以在此研究中重现。先前在肝组织鉴定到的大约74%的增强子和98% 的肝组织启动子在本研究的也得到重现。在肝组织中,此研究新发现了超过53%和36%的增强子和启动子。总体上,鉴定的超过86%的增强子和50%的启动子以前在猪基因组中没有报道过。 以其中 LW 猪的骨骼肌为代表,使用原位Hi-C数据评估猪基因组的3D结构。总共获得1,189,583,975 条双末端reads,21x覆盖率。在使用 HiC-Pro过滤后获得了 408,546,465个唯一的有效contacts,其中 290,325,259个是顺式contacts。用这些数据,绘制染色质互作频率。使用3D基因组结构建模方法显示了猪基因组区域之间的空间关系。 图1. 猪基因组的顺式调控元件分析 四个品种猪的11个猪组织的52个样本用RNA-seq分析转录组学特征。每个组织中的 RNA 表达显示出不同的模式,k-means 函数将其分为 20个簇。在所有样品中都高表达的基因存在于p20 簇中,主要是看家基因。这些簇中超过一半的组织特异性表达趋势是明显的。由 Z 评分矩阵确定了4,510个组织特异性基因,组织特异性基因比其他组织至少高3倍表达。利用DAVID软件 GO富集分析表明,组织特异性基因显著富集了各种组织的特定功能。这些组织特异表达基因的典型例子和验证揭示了 RNA-seq 和 RT-PCR 结果之间的高度一致性。转录组分析确定了3,316个新的转录本,包括 1,713个新的 lncRNA。所有组织中检测到大致相等数量的新转录本。这些新鉴定的转录物的 TSSs 附近发现了丰富的 H3K4me3 信号,为转录区预测结果提供了合理的支持。 增强子序列是基因组织特异性表达的基本调控元件,对基因不同表达模式的建立具有重要的功能影响。作者将各种猪组织中鉴定到的增强子对其组织特异性模式进行了分类,共确定了15,753个组织特异性增强子。使用 ROSE 算法在每个品种的每个组织中分别鉴定了 414-1,306个超级增强子。超级增强子相关基因的表达显著高于一般增强子关联基因的表达。具有超级增强子基因座的 H3K27ac 强度也表现出组织特异性模式。使用 GREAT软件进行 的 GO 富集分析表明,超级增强子可以在很大程度上决定各自组织类型的身份。 广泛的 H3K4me3 峰和富集 H3K27ac 的活性启动子一般来说可诱导更强的基因转录激活。单独分析的结果显示每个品种的每个组织中有 418-1,899个 H3K4me3 峰。与超级增强子数据相似,H3K4me3 宽峰附近的基因表达显著高于随机选择的基因。在每个品种的每个组织中分别鉴定了 13,971-20,138个活性启动子。此外,具有活性启动子的基因的表达也显著高于没有 H3K27ac标记启动子的基因。与超级增强子类似,活性启动子的 H3K27ac 强度也揭示了组织特异性模式,表明它们在驱动组织特异性基因表达中的作用。 为了确认方法的可靠性和准确性,用双荧光素酶报告基因检测,随机选择15个预测的非组织特异性增强子和 18个启动子序列在猪 3D4/21 细胞中进行验证。结果显示,测试的增强子和启动子的转录活性显著增加。1,216个已鉴定的增强子含有与人类 已知的VISTA 增强子类似的保守序列。 图3:顺式调控元件的 3D 结构和调控 猪基因组基于 Hi-C 的 3D 结构被划分为活动的“A”区室或非活动的“B”区室。“A”区室高度富集活跃转录基因、活跃组蛋白修饰和开放染色质信号。进一步的分析揭示了分辨率为 40kb 的不同拓扑关联结构域(TAD),总共确定了 2,364个边界。使用绝缘评分方法在 susScr11 基因组组装中总共定义了 2,305个TADs。进一步比较显示人类和猪基因组之间的TAD 跨度长度几乎没有差异。TADs 中存在的子域通过方向性指数 (DI)和 TopDom 分析进行展示。 不同TADs 中的顺式调控元件可以通过边界隔离,并且有很大一部分增强子可能不与其最近的基因相互作用,而是与特定的远端基因相互作用。采用 Spearman 相关系数 (SCC) 分析来揭示猪基因组的增强子/基因组织。结果表明,相同TADs中增强子-基因对的SCCs显著高于跨越两个最近相邻TADs的增强子和基因的SCCs,以及相应的增强子-增强子对和基因-基因对的SCCs。基于它们的 SCC 值鉴定了嵌入相同 TAD 中的显著增强子-增强子对 (R > 0.5)、基因-基因对 (R > 0.8) 和增强子-基因对 (R > 0.5)。 接下来通过 Hi-C 矩阵分析确定了染色质环。通过改进后的 HiCCUPS算法识别了 25kb 分辨率的 15,485个环和 40kb 分辨率的 11,838个环。对 Hi-C 和顺式调控元件数据集的综合分析表明,在 25kb 分辨率水平上,79.74% (12,347) 的环与顺式调控元件相关,44.47% 的环与顺式调控元件已验证显著相关。在 40kb 的分辨率下获得了类似的统计结果。基于 ATAC-seq 数据将环数据与开放染色质区域整合的分析揭示这些环的锚点中 CTCF 结合基序的显著富集。这些结果进一步支持 CTCF 结合在介导哺乳动物基因组 3D 结构中的作用是高度保守的。 作者收集了7,238个已发表的GWAS显著相关的SNP,其中3,445个是非冗余的,发现与不同扩展距离的随机区域相比,GWAS 显著关联的 SNP 周围增强子呈现显著富集现象。通过分析与猪日均增重相关的显著相关 SNP,结果显示这些SNP位于 PLCB4 基因显著相关的增强子附近。此外,PLCB4基因在小脑中高表达,并且在肌肉组织中也检测到其表达。表明GWAS 显著关联的SNP周围的增强子可能与相关的猪复杂性状相关。 背膘厚度和生长速度等主要经济性状在西方商业品种猪和中国本地品种猪之间存在差异。基于四个品种猪在骨骼肌、脂肪、脾脏、肝脏和心脏等器官中的基因表达数据,作者用DEseq2包鉴定了7,708个无重复的差异表达基因,其中 4,469个差异基因的|log2FC|值 ≥ 1。在大多数组织中,西方商品猪和中国地方品种猪的差异表达基因比 LW 和杜洛克之间的差异表达基因更多。为了研究品种间组蛋白修饰的差异如何改变品种之间的基因表达差异,以骨骼肌组织为代表,针对±500 kb范围内的差异基因附近的H3K27ac信号计算样本间Pearson相关系数,发现在LW和Duroc之间的相关系数要高于西方商业(LW或Duroc)和中国本地(ES或 MS)之间的相关系数。作者使用edgeR软件包研究了在不同品种之间,与差异基因表达显著相关的增强子H3K27ac 的强度倍数变化。结果表明,增强子的H3K27ac 强度的变化与表达基因差异程度一致,但和与随机选择的非差异表达基因的相关程度不同。从差异表达基因的活性启动子的比较中也观察到一致的结果。表明四个品种之间的基因表达差异与增强子或启动子处的 H3K27ac 的富集差异有关。 基于西方商品猪与中国本地猪的比较,在活性启动子或增强子中有251,361个具有不同等位基因频率的 SNP。以 LW 和 ES 猪为例比较,在肌肉差异表达转录因子SIX1和SIX4的H3K27ac强富集增强子(R>0.66)的ATAC-seq足迹中存在一个等位基因频率差异(△AF=0.63)的T/C SNP(Chr1:190,035,161)。在另一个肌肉差异表达基因ACOX1的活性启动子的ATAC-seq足迹中鉴定出具有ΔAF = 0.64的G/C SNP(Chr12:5,451,199)。T/C和 G/C SNP 有可能分别对猪肌肉表达的转录因子 ZNF341和 PLAGL1的识别基序具有破坏性影响。这两个具有不同等位基因频率的 SNP 可能与差异表达基因 SIX1、SIX4 和 ACOX1 中顺式调控元件的活性有关。 为了进一步探索基因组DNA变异与组蛋白修饰的关联。作者使用 WGS 数据中的 SNPs和indels计算了 LW (n = 20) 和 MS (n = 16) 猪之间的固定指数值(FST)。LW 和 MS 之间基因组序列的差异在前 10% 的变化中得到了很好的体现。当所有五种组织合并时,前 10% 的 FST 区域中有 92.36% 与顺式调控元件(启动子或增强子)重叠,其中 51.44% 与LW和 MS 之间显著差异的顺式调控元件重叠(FDR < 0.05 和 |log2FC| > 1)。在每个组织中,前 10% 的 FST 区域中有 11.40-29.85% 与显著差异的顺式调控元件重叠。这比率明显高于中间和底部 10% 的 FST 区域。 相同 TADs 中显著相关的增强子-增强子和增强子-基因对,18.09-50.28% 的差异表达基因与基因组序列变异和组蛋白修饰差异相关或仅跟组蛋白修饰变异相关。这些结果表明,基因组序列的变异和组蛋白修饰的差异可能都与不同品种之间基因表达的差异有关,但组蛋白修饰的变化可能与基因的差异表达更密切相关。 鉴于高水平的序列保守性被认为是功能元件保守性的证据,作者使用 LiftOver 工具利用基于human Roadmap Epigenomics和小鼠 ENCODE 数据比较了猪、人类和小鼠基因组之间的顺式调控元件。结果发现猪基因组中 77.32% 的增强子和 88.94% 的启动子在人类基因组中是序列保守的。其中23.45%的猪增强子和53.08%的启动子在人类基因组中是序列和利用保守的(即存在序列保守性,同时在人类也是顺式调控元件)。猪和人之间保守的顺式调控元件的比例高于小鼠和人之间的比例。比较每个组织中的增强子和启动子也获得了类似的结果。利用人类 HEK-293T 细胞进行报告基因分析结果显示,与人类保守的猪增强子和启动子能够激活人类表达体系的报告基因。这些结果表明,保守的顺式调控元件可以在猪和人类细胞中都被激活。当比较Roadmap Epigenomics 的染色质状态注释时,发现 37.68% 的猪增强子(只是在人类基因组中存在序列保守性,同源序列在人类不是顺式调控元件),在不同发育阶段的相应人体组织或其他人体组织中也是增强子。总共有 61.13% 的猪增强子被证实在序列和利用上都是保守的。其余约 40% 的猪候选调控元件在人类基因组序列或利用中都不保守。通过报告基因分析发现,这些猪特异的顺式调控元件也能在人类 HEK-293T 细胞系报告基因表达体系中激活基因的表达,说明这些在人类不保守的猪调控元件导致物种特异的表达事件,可能在物种表型特征形成中起关键的作用。 基于猪和人的基因表达矩阵分析显示,猪和人间的直系同源基因显示出相似的表达模式,直系同源基因的相关系数显著高于非直系同源基因间的相关系数,进一步发现直系同源基因附近的H3K27ac修饰也呈现更高的相似性。这些结果表明,直系同源基因间保守的增强子和H3K27ac修饰共同导致的基因表达的模式相似。 TAD 边界在不同物种之间存在保守性。猪骨骼肌和人类胚胎干细胞 (hESCs) 之间 3D 基因组结构的比较显示,猪 (79.15%) 和人类 (67.28%) 之间存在1871个 TAD 边界利用保守。 近年来,越来越多的研究显示,3D基因组结构的变化有助于解释对TADs重组有明显影响的调控进化。通过比较猪和人类的 TAD 结构,发现 14个猪相对于人类基因组发生变化的TAD,显现了猪染色体的重排。在九个猪和人类一致的组织中,位于相同人类TADs但在不同猪染色体上的基因,基因表达的SCC在人类中显著增加,表明TADs的重排有助于猪和人之间基因表达调控的歧化。使用 ToppGene将完全包含在上述猪-人重排 TADs 中的基因与HPO(Human Phenotype Ontology)数据库中的人类表型相关联。人类表型的前 20个最显著富集中有 9个(P < 0.05 和基因计数 >2)与人类头部和面部表型相关。但是从使用 14个随机选择的猪和人类保守 TADs 的相同分析中,没有观察到任何类似的HPO富集项。 HPO 数据库中有 19个基因与人类头部和面部表型相关,这些基因也完全包含在猪和人类之间重排的 14个 TADs 中的 8个里面。为了观察这8个人类TADs的重排,作者比较了它们在 20 多个物种中的染色体位置。这些 TADs 分为三类:(i)两个 TADs 在猪和人类之间重新排列,每个 TAD 都包含 IGF1R 和 SEC23A,具有与唇和鼻相关表型相关的丰富功能; (ii) 4个 TADs 在 2-4个非灵长类哺乳动物基因组中共享它们的重排,共有 11个基因,包括 GORAB 和 PRRX1,具有与头骨、颧骨和鼻子表型相关的功能;(iii) 两个 TADs 在灵长类动物和其他哺乳动物基因组之间存在重排,这些涉及6个基因,包括 PHOX2A、XPA 和 TDRD7,这些基因主要与视觉和面部相关特征相关。而值得关注的是,人类的视力优于大多数哺乳动物。在上述 19个人类头部和面部表型相关基因中,有 12个与其他物种的基因突变引起的头部和面部表型异常有关,包括小鼠、斑马鱼和爪蟾。这些结果表明猪-人染色体间TAD重排可能导致鼻子、嘴巴和其他颅面表型的进化。 在这项研究中,作者对猪基因组的转录活性、染色质可及性、染色质景观和 3D结构进行了分析,显著提高了对猪基因组中功能元件的理解,增加了另一种大型动物的调控组图谱。分析了不同猪种和三个哺乳动物间的表观图谱差异,为我们猪育种和人类疾病研究及人类生物学研究提供了更多的便利。 已有文献研究表明,人类疾病的很多关联遗传变异富集于特异的调控染色质状态,组织特异的组蛋白修饰标记以及开放的染色质区。通过本研究发现的猪与人类保守的顺式调控元件数据,可以将人类疾病生物学研究迁移到猪来研究。 本研究的调控组差异数据可以增强之前获得的基因组差异数据和基因表达差异数据利用价值,本研究将作为一个重要的数据资源,有助于理解基因组变异信息资源,包括对选择清除分析和全基因组关联分析结果的理解。 公司经验 爱基百客专注于表观组学技术服务多年,积累了丰富的实践经验,目前染色质开放性检测(ATAC-seq)已经做过猪、小鼠、拟南芥、水稻、油菜、大豆、棉花、马铃薯、葡萄、月季、铁线莲、蝴蝶兰、青稞、番木瓜、泡桐、绿藻、香蕉、酵母、稻曲菌、疫霉菌、镰刀菌等多个物种。 组蛋白修饰(ChIP-seq)做过猪、斑马鱼、果蝇、褐飞虱、牦牛、绵羊、螃蟹、鸡、鹅、山羊、小鼠、家蚕、家鸽、家鸡、蜜蜂、拟南芥、水稻、玉米、油菜、白菜、大豆、茶树、短柄草、番茄、甘薯、甘蔗、柑橘、黑麦草、红豆杉、花生、苜蓿、黄瓜、梨树、柳枝稷、龙血树、龙眼、棉花、泡桐、苹果、葡萄、茄子、青稞、嵩草、桃、甜瓜、无花果、香蕉、小麦、烟草、杨树、月季、菠萝、竹节参、蓝藻、酵母、爱德华氏菌、布鲁氏菌、大肠杆菌、芽孢杆菌、稻瘟菌、炖至杆菌、果胶菌、假单胞杆菌、黄曲霉、金黄色葡萄球菌、镰刀菌、绿僵菌、乳酸菌、乳酸乳球菌、嗜盐古菌、炭疽菌、隐球菌等多个物种,在染色质提取技术上积累了丰富的经验。 |