项目文章|Nature Commun&ChIP再立功——CENH3-ChIP辅助橡胶T2T基因组组装

橡胶树(Hevea brasiliensis)是全球99%的天然橡胶(NR)的来源,其独特的物理特性在各个工业领域中发挥着关键作用。然而,在驯化初期快速增加之后,橡胶产量似乎很难再进一步提高。育种者将产量停滞的原因归结为遗传多样性有限,因为现代橡胶克隆品种主要源自仅有的九棵祖先树。为应对这一挑战,研究人员采用了先进的基因组学方法。最近的基因组研究揭示了野生橡胶树通过人工选择逐渐进化为高产克隆体的过程。这些从高质量基因组数据中得出的见解对于精确和高效育种至关重要。然而,现有的基因组组装中存在较大的缺口和未解决的复杂区域,限制了这些基因组工具的准确性和有效性。

迄今为止,已有多个橡胶树的基因组得以公布。这些显著的进步为橡胶树的遗传研究和克隆改良提供了关键的数据资源。目前,所有公布的基因组序列均未进行单倍型解析。此外,这些组装体中大量的gap降低了数据的完整性,并阻碍了对复杂基因组区域的分析。值得注意的是,像端粒和着丝粒这样的关键区域在这些基因组中仍未得到解决

下载.png

近日,中国热带农业科学院的程汉研究员和中国热带农业科学院/深圳基因组所的周永锋老师团队联合构建了在广泛种植的橡胶品种CATAS 7-33-97中的单倍型且T2T gap-free的参考基因组。全面的T2T基因组为揭示复杂基因组的顽固结构特征迈出了重要一步,并突显了先前被忽视的单倍型之间的结构变异。此外,T2T橡胶基因组使人们能够分析与橡胶生产相关的基因的进化过程,并揭示了与割胶反应相关的橡胶生物合成调控网络。爱基百客提供了部分技术支持。

图片1.png

割胶刺激下橡胶生物合成机制

下载2.png

   结果解读   


一、橡胶树单倍型T2T参考基因组的组装

本研究生成了122 X coverage的HiFi reads、414 X coverage的Hi-C reads以及314 X coverage的超长ONT reads,用于组装CATAS 7-33-97基因组。通过整合数据,组装了两个gap-free的单倍型,每个单倍型的大小为1.56GBhapA和hapB的contig N50分别达到93.64 Mb和94.38 Mb;基于k-mer的基因组完整性评估值为97.5%;BUSCO基因完整性分析显示hapA和hapB分别达98.8%和99%;LAI值分别为16.45(hapA)和16.7(hapB);质量值(QV)分别为65.52和65.72,证实了组装的T2T基因组的高质量。hapA和hapB的基因组均表现出高度相似的重复序列组成,其中84.63%和84.53%被识别为重复序列,长末端重复序列(LTR)在这些序列中占主导地位(hapA中为76.56%;hapB中为76.33%)。

为了确定橡胶基因组中的着丝粒区域,作者使用CENH3抗体进行了ChIP-Seq检测(2个重复)。通过筛选每条染色体上的峰,作者确定了每条染色体上的着丝粒区域,着丝粒存在多个具有不同周期的TR序列,由单一的高重复TR序列构成。通过检测所有染色体上的7个碱基的端粒重复序列(CCCTAAA/TTTAGGG)来识别端粒

在CATAS 7-33-97基因组的两个等位基因型之间发现了多种变异。其中71.46%的SNP位于基因间区域,仅有3.5%位于外显子区域。为了评估等位基因A和等位基因B之间的插入缺失(InDel)对基因组杂合性的影响,作者筛选了超过100bp的结构变异,并在18对染色体上发现了6330个InDel。对InDel的注释表明,大多数InDel位于非编码区域,只有114个位于外显子。令人惊讶的是,在chr8染色体对之间发现了一个32.71Mb的多结构变异(sv33M)区域(20588014-53302788),其特征是众多结构变异事件。值得注意的是,在野生型(MT/VB/25A 57/8)和栽培克隆(CATAS8-79)的chr8相应区域中观察到了高度的变异。这证明了橡胶树中同源染色体之间的大型结构变异,sv33M在橡胶树的进化过程中可能具有不同的遗传作用。

图片2.png


图1 CATAS 7-33-97的表型和基因组特征

图片3.png


表1 橡胶基因组组装统计数据

二、大戟科橡胶生成相关基因的比较基因组学研究

T2T基因组能够对与橡胶生产相关的基因进行详细的进化研究。为了确定与橡胶生产相关的同源基因,作者收集了含橡胶树在内的九个物种(其它是拟南芥、杜仲、木薯、水稻、毛果杨、蓖麻、橡胶草和葡萄)的基因组。总共分类出了27,311个直系同源群,占总基因数的89.7%,其中8364个直系同源群存在于所有物种中。与产量低的野生橡胶基因组(MT/VB/25A57/8)相比,CATAS 7-33-97表现出1297个扩张的直系同源群和662个收缩的直系同源群。功能富集分析表明扩张的基因家族与创伤响应、萜类生物合成、烃代谢、茉莉酸反应以及脂质代谢有关,表明这些基因家族的扩增可能与橡胶产量有关,因为橡胶是在植物受伤后产生的,并且需要通过从蔗糖中合成萜类物质来补充。而收缩基因主要富集在苯甲酸代谢过程、毒素分解过程、对活性氧的反应以及硫化合物代谢过程中。这表明收缩基因可能通过下调与防御相关的途径来优化用于橡胶生物合成的资源分配

为了进一步研究大戟科植物中橡胶生物合成基因的进化情况,作者收集了7个大戟科物种的基因组(2种橡胶产量较低的植物以及5个橡胶树)。在这些植物中,与橡胶生物合成相关的基因可分为4类:MVA途径基因、MEP途径基因、起始合成基因和橡胶延伸基因。其中橡胶延伸类基因在橡胶树中的数量显著高于蓖麻和木薯,表明该基因家族的扩张是高产胶能力的关键。

橡胶延伸因子(REF)和橡胶小颗粒蛋白(SRPP)基因被认为是最重要的橡胶生产基因。在该CATAS 7-33-97基因组中,共鉴定出19个REF/SRPP基因,并揭示了橡胶树中额外的SRPP,即HbSRPP11。在野生橡胶树(MT/VB/25A57/8)中,作者在基因组中仅鉴定出5个REF和9个SRPP基因,而蓖麻属和木薯属中未鉴定出REF基因,鉴定出3个和5个SRPP基因。表明REF/SRPP基因的数量与橡胶生产能力相关。对REF和SRPP基因进行了系统发育分析发现SRPP基因被分为四个簇,而REF基因则被分为三个簇,这表明REF和SRPP亚群可能是通过基因重复事件产生的,随后趋同进化形成独立功能亚型。此外,橡胶树的CPT基因数量明显多于蓖麻和木薯,表明其在促进乳胶产量方面发挥着重要作用。

图片4.png


图2 大戟科橡胶生成基因的进化与多样性

三、橡胶树等位基因特异性表达(ASE)的稳定性特征

利用CATAS 7-33-97的转录组数据,作者确定了花(FL)、愈伤组织(CA)、初级胚(PE)、子叶胚(CE)、成熟胚(ME)以及不同阶段的乳胶(T1、T7、TN)中的差异表达双等位基因。其中10,136个等位基因表现出组织特异性表达,9,546个(94.18%)呈现稳定的ASE模式。在这些一致的ASE等位基因中,4753个倾向于在hapA染色体上高表达,而4793个等位基因总是以hapB染色体为主导。仅590个基因(5.82%)表现出动态ASE模式(优势等位基因随样本变化),体现了橡胶树独特的等位基因调控格局。

在这些组织和器官中,TN是从经过五年采伐的树木上采集的乳胶样本,代表了成熟橡胶树中产生的NR(天然橡胶)。TN中共有4735个等位基因呈现出ASE模式,其中2349在hapA基因组中高度表达,而2386则在hapB中主要表达。这些基因的功能主要集中于核苷酸磷酸二酯键水解,可能与DNA和RNA稳定性相关。有趣的是,在与橡胶生物合成相关的82个基因中,有17个属于MVA、MEP、起始合成以及橡胶延伸途径的基因呈现出一致的ASE模式,这导致了同源染色体之间的表达失衡,从而可能影响橡胶的产量。

图片5.png


图3 橡胶中的等位基因特异性表达(ASE)模式

四、甲羟戊酸充当了橡胶生物合成过程中的主要碳库

连续割胶会导致橡胶产量逐渐增加,并在7至10次后达到稳定水平。为了揭示这一现象背后的机制,作者研究了T1-T10以及TN样本。T1-T7期间干橡胶产量逐渐上升,并在之后保持稳定水平(T8-TN)。橡胶颗粒的大小(与橡胶生物合成活性呈负相关)以及乳胶中的蔗糖含量(乳胶代谢活动的负指标)逐渐降低,而橡胶合成活性逐渐提升。因此,作者提出T7是评估橡胶合成活性的关键时间点。

为了阐明橡胶合成活性提升的具体机制,作者对T1、T7和TN组进行了比较代谢组学和转录组学分析。在T1、T7和TN的样本中,共鉴定出390种差异积累代谢物(DAMs),氨基酸及其衍生物这一类别包含的DAMs数量占主导(58种),反映乳管排胶后需快速补充细胞质成分。在前20种DAMs中,上调的代谢物主要涉及香豆素、氨基酸及其衍生物、有机酸、糖类、核苷酸衍生物、酚酸和单萜类等。甲羟戊酸(是异戊烯基焦磷酸(IPP)的前体,参与橡胶生物合成)也上调了表达。下调的代谢物主要以糖类为主,这些糖类被认为是橡胶生物合成的碳源。

橡胶生物合成是一种较长的萜类生物合成途径,主要包括前体IPP的合成以及橡胶聚合物的形成。基于本次构建的T2T基因组,作者发现,MVA途径基因的转录水平总体上高于MEP途径基因的转录水平。其中甲羟戊酸激酶1(MVK1)是最显著上调的基因,其转录量增加了超过10倍。此外,MVA(MVK的底物)在T7和TN中也分别增加了14倍和8倍。针对橡胶生物合成通路基因与所有代谢物的相关性分析表明,包含64种代谢物的簇与大多数橡胶生物合成基因显著正相关。MVA作为唯一一种被鉴定为直接参与橡胶生物合成通路的DAM,与44个橡胶合成相关的基因表达存在显著相关性,以及与MVK1的表达存在极其显著的相关性。表明MVA及其衍生物(5-磷酸甲羟戊酸/焦磷酸甲羟戊酸)可能是乳管中橡胶生物合成的主要碳库。

图片6.png


图4 连续割胶对橡胶生物合成途径代谢产物的影响

五、连续割胶通过JA信号通路促进橡胶的生物合成

在三次采样之间,共鉴定出6466个差异表达基因(DEGs)。RNA生物合成过程的调节(GO:2001141)、杂环生物合成过程(GO:0018130)、大分子生物合成过程的调节(GO:0010556)以及氮化合物代谢过程(GO:0051171)相关的基因与T1、T7和TN中的胶乳产量和合成活性呈正相关。这些基因中的绝大多数编码植物转录因子(TF),而MYC2被预测为是一个负责调控橡胶的生物合成过程的网络中的核心基因。ERF1B和JAZ8是JA信号通路的转录因子,它们可能与MYC2共同作用,以调节采胶过程中橡胶合成活性的增加。此外,激素水平,如JA、JA-ILE和OxIAA,在连续的采胶过程中显著升高,表明JA在调节橡胶合成活性方面起作用。为了研究JA在促进橡胶生物合成中的作用,作者对未采胶的橡胶树在每个T1、T4和T7时间点采胶前24小时用外源JA(0.1%w/v)处理,发现在T4和T7采胶时JA处理树的13C百分比和橡胶干产量显著高于对照树,表明外源JA的应用提高了橡胶的合成活性。并且qRT-PCR结果显示,JA上调了乳胶中MVK1的表达。但在TN阶段,JA处理过的橡胶树的橡胶生物合成活性和干橡胶产量与对照组相似,差异无统计学意义。推测采胶初期的橡胶树可能对JA更敏感。这些结果证明,连续采胶通过在乳胶中积累JA激活了橡胶生物合成

值得注意的是,在MVK1基因的上游区域(-456bp)发现了一个与MYC响应元件相关的位置,而其同源基因MVK2并不包含此元件。LUC实验和Y1H实验表明MYC2能够与MVK1启动子上的G-box顺式元件相互作用并激活MVK1的转录。作者最终推测了一个机制模型:连续割胶会导致内源性JA水平的增加,并且在激活的JA通路中,MYC2上调了MVK1基因的表达,从而促进橡胶的生物合成

图片7.png


图5 连续割胶过程中的代谢组和激素谱分析

   本文结论   

本研究成功构建了首个橡胶树CATAS 7-33-97栽培种的单倍型T2T参考基因组,完整组装的36条染色体能够全面鉴定橡胶生物合成基因及其等位基因特异性表达。通过整合转录组和代谢组数据,作者重建了橡胶生物合成途径,并证实了甲羟戊酸(MVA)途径是割胶期间快速乳胶再生的主要碳源。茉莉酸(JA)通过增强机械损伤响应下的生物合成活性,在促进橡胶产量方面发挥关键作用。最终,文章提出了一种模型,即JA诱导的MYC2激活MVK1的表达,从而促进MVA合成和橡胶生产。尽管详细的调控途径仍需通过实验验证,但这个无遗漏的参考基因组有望很快揭示细节机制,并有助于培育更高产的克隆品种。

如有相关技术需求,欢迎联系我们~

市场部小助理微信  6.png

项目咨询


2025.06.17 产品总览-2.jpg

{ 往 期 精 彩 回 顾 }


推荐

  • QQ空间

  • 新浪微博

  • 人人网

  • 豆瓣

取消