NEWS
新闻资讯
|
经典综述解读 | 转录组测序的这些年(下)上篇中给大家阐述了转录相关技术的区别,在本篇中主要给大家介绍关于转录组的高级应用。首先,转录组高级应用主要在于其数据分析。因此本期主要从RNA-seq数据分析这一方面展开论述。 近十年来,RNA-seq的统计方法被用来测定不同基因的表达量,在各个阶段的研究中存在一定差别。此外,在各个阶段中所采用的方法和各种技术的结合所构成的分析过程也会对从数据中得到的生物结果有很大的影响。最佳的工具搭配取决于正在探索的特定生物逻辑问题,以及可用的计算资源。虽然有很多方法可以测量,但是我们对这些方法和技术的评估还是要看它们识别出的差异表达基因的精确度。要进行此评价,必须进行4种不同的分析(见图1;表1)。第一步是将测序平台上产生的原序列进行比对。第二步是对转录本进行定量,并建立相应的表达矩阵。这个程序可以包含一个或更多的子程序,例如:配对、组装和量化,也可以由阅读计数产生一个表达矩阵。第三步,通过过滤低表达的特征来改变表达矩阵,以及将原始数据标准化以解释样本之间的技术差异。最后一步是样本组和协变量的统计模型,以计算与差异表达相关的置信度统计量。 图1差异基因表达的RNA-seq数据分析工作流程 ▶ 1.1 测序reads的比对和组装 上机测序结束后,分析的起点是数据文件,即含有测序碱基的 FASTQ文件。首先,最常用的步骤是将测序读到的reads与已有的转录序列(或有注释的基因)进行比对,然后把每一条reads转化成一个或更多的基因组坐标。通常,这个程序可以采用多个工具来完成,例如 TopHat、STAR或者 HISAT,这些都取决于有参考的基因组。因为 cDNA序列来源于 RNA,它可以跨外显子的界限,所以在与包括内含子和外显子在内的参照基因组进行比较时,必须进行剪切对比。 如果没有高质量的基因组注释,包含一个已知的外显子边界,或者希望将reads与一个转录区(而不是基因)联系起来,则需要进行组装。比如 StringTie和SOAPdenovo-Trans等组装软件可以从读取数据中推导出外显子的边界和可能的剪切位。在缺乏或不完整的基因组或异常的转录细胞中,例如癌细胞,可以利用转录产物重新组合。转录组组装方法可能受益于使用双端测序和/或长读长。然而,在RNA-seq数据中为了确定 DGE,通常无需重新组装基因序列。 最近,像 Sailfish、 Kallisto、Salmon这样高效率计算软件已经问世,它们能够测序得到reads直接和转录本联系起来,不需要单独量化处理。这些工具在丰度高(以及更长)的转录本方面表现出良好的性能;然而,它们在低丰度或短的转录本方面不太准确。 使用各种比较的方法来配置 ambiguous reads的方法将会对最终的表达结果产生一定的影响。这种效应在多个不同基因、伪基因或转录产物(multi-map)中尤其显著。通过对12种不同的基因的表达进行对比,发现一些比对法可能会导致很多与临床有关的基因的表达水平降低,这一点与 ambiguous reads的关系密切。在RNA-seq的统计和分析中,对多个不同的读写器进行合理的配置,是本文的主要内容。一种普遍的实践是,在量化之前将读入筛选出来,但是这样就会造成数据上的误差。其它的一些算法还包括产生一个“融合”的表现特性,其中包含了一个合并的地图的交迭,并且计算出了各个基因之间的不确定程度,以便进行下一步的置信程度的计算。 使用不同工具将测序得到的reads比对到转录本可以在一定程度上影响到最后的表达水平评估。在多种不同基因、伪基因或转录产物中影响尤为突出。研究表明,对12种基因表达表达方法进行比较,某些比对方法可以使许多与临床相关的基因表达水平下降。在RNA-seq的统计与分析中,如何合理地分配多个读写器是本论文的重点。目前的做法是从进一步的分析中排除这些reads,但这可能会使结果产生偏差。 ▶ 1.2 转录本定量 把测序得到reads与基因组进行比对后,确定转录产物来源,从而得到一个表达矩阵。各种对比分析显示,对基因表达量化所采用的方法要比所使用的工具更为重要。根据转录本的注释以及与基因组重叠的reads可以量化单个基因的表达水平。但是关于转录变体的分析则是需要使用特定工具,单纯的基因表达水平分析是无法做到的。 在转录定量中使用的常见软件有 RSEM、 CuffLinks、 MMSeq、 HTSeq等, HTSeq或 featureCounts软件在分析转录本水平的时候会适当剔除一部分数据,例如那些同时比对到多个位置、具有多个表达特征的reads。将转录本的丰度进行估算转化为具体的reads计数,能够进行此转化的一些工具则是依靠 tximport的数据包。在定量过程完成后,将产生一个综合的表达矩阵,每一列代表一个样本,中间的数值则是reads的实际数量。 ▶ 1.3 过滤和标准化 一般情况下,为了消除测序深度、表达模式和技术上的误差,必须对reads数量进行筛选和标准化。将样本中表达丰度很低的基因去除掉可以有效提高差异基因检测的准确度。相较于传统的RPKM方法,四分位数或中位数均一化则能够更好修正样品间的微小差别。 研究发现,标准化方法的选取对结果和生物结论有着很大影响。大部分以计算机为基础的标准化研究都有两个重要的假设:第一,在生物学重复样本中大部分基因表达量并没有很大差异;第二,样本间的总体 mRNA含量无明显差别。如果这些基础假设都不能成立,那么就必须仔细考虑该如何进行标准化。举个例子,有一组基因在某个样本中表现高表达,虽然相同的基因加上另外一组基因在另一组样本中表达,但简单的reads深度进行标准化是不够的,因为相同数量的序列reads将分布在第二组样本组中更多的表达基因上。这种情形可以通过 edgeR等所使用的的M-值的加权截尾均值 (trimmed mean of M-values , TMM)来解决。 ▶ 1.4 差异表达模式 在得到了表达矩阵之后,可以建立一个用于评价基因表达存在显著性差异的统计模型。可以使用一些常见的工具来实现这个目标。基因表达水平通常是基于对比到基因祖上reads数的统计,并使用广义线性模型使复杂的实验设置能够被评估。其中 EdgeR、DESeq2以及 limma+ voom这样的软件,它们具有高效的运算能力,而且相互之间的效果都很好。CuffDiff、 MMSEQ、 Ballgown等软件通常是用来评估转录变体差异表达的,但是会占用大量的计算资源。当然,在计算基因表达差异之前对样本测序得到的reads进行比对、定量、过滤和标准化尤为关键。 表1 使用RNA-seq数据进行差异基因表达分析的常用软件工具 ▶ 2.1 非bulk RNA分析 虽然对整个组织或整个细胞群体进行RNA-seq可以帮助我们研究一些生物学问题,但它不能翻译特定的细胞类型,也不能保存空间信息,这两者对理解生物系统的复杂性都至关重要。单细胞转录组测序(scRNA-seq)可以很好帮助我们在疾病研究领域去探究未知的细胞类型。空间转录组可以帮助更好理解细胞之间相互作用。在未来组织RNA-seq仍旧可能处于主导地位,但是随着scRNA-seq及空间转录组的技术逐渐成熟,在将来很有可能成为RNA-seq中不可或缺的一部分。scRNA-seq以及空间转录组可以丰富我们对细胞复杂性的理解,接下来就着重对scRNA-seq及空间转录进行阐述并比较它们与常规转录测序的区别。 2.1.1 scRNA-seq 早在2009年,就已经有过关于scRNA-seq相关报道,所使用的材料为在含有裂解缓冲液的Eppendorf管中成功分离到的单个卵母细胞。在进行scRNA-seq之前,所有的组织都必须解离为单细胞,然后对RNA分子进行标记后扩增测序,整个过程所有步骤都借鉴了早期的bulk RNA-seq技术。 使用机械解离和胶原酶酶促反应所产生的单细胞具有较好活性,这些细胞都具有高度组织特异性。单细胞悬液一旦制备完成后,紧接着就是通过不同方法分选出有活性的单细胞(图2)。由于大多数实验室都有流式细胞仪仪器,最容易获得的方法是将细胞直接流入含有裂解缓冲液的微量滴定板中。对于更高通量实验,则需要准备特定仪器来分离细胞。 图2单细胞和空间RNA-seq的核心概念 使用多种不同方法来分选单细胞。我们可以使用微流体芯片来物理捕获单细胞,可以通过泊松分布原理将单细胞加载到纳米孔中,又或者可以使用液体包裹形式以及原位序列条形码来分离单细胞。将单细胞裂解后,让RNA释放到溶液中用于cDNA的合成,为后续文库制备做准备。在scRNA-seq文库制备过程中需要对单个细胞RNA进行PCR扩增,这个过程会造成一定偏差,需要使用UMI进行矫正。由于泊松取样原因,只有10-20%的转录本会被逆转录,在一定程度上会限制转录本检测敏感性,但是仍旧可以产生有用的数据。在湿式实验室之外,计算方法也在迅速发展,最近出现了关于scRNA-seq实验设计的指南。这种方法上的快速发展意味着新的测序方法有可能很快就会过时。然而,Ziegenhain 等人在一篇文章中详细介绍了scRNA-seq相关方法以及UMI在数据分析中的作用,并报告了六种方法中哪一种最敏感。然而,他们的研究并不包括被广泛采用的10 X Genomics技术。 用户在选择scRNA-seq方法时需要考虑的主要因素包括:是否需要全长转录本、分析多少个细胞、测序深度是多少、可以获得多少数据量以及预算。全长scRNA-seq系统通常具有较低的通量,因为每个细胞都需要独立处理,直到最终的scRNA-seq文库建成。非全长系统从转录本的3ʹ或5ʹ端获得序列信息,这限制了它们分析转录变体表达的能力,但由于cDNA合成后可以聚集,所以这种方法可以检测的细胞数量要比全长转录组高2-3个数量级。 单细胞测序的广度与可分析的细胞、组织或样本的数量有关,而深度与给定的测序reads数量有关。虽然实验中测序的细胞数量取决于方法的选择,但随着细胞数量的增加,测序成本的增加通常限制了转录组分析的深度。因此,不同的scRNA-seq系统可以从宽度和深度两个维度来看待。通常,孔板或微流控方法捕获的细胞最少,但每个细胞可以测到更多的基因,而液滴系统具有最大数量细胞捕获能力,可以从一百万细胞中获得数据集。 scRNA-seq的力量正在推动大规模的细胞图谱项目,该项目旨在确定生物体或组织中细胞类型。人类细胞图谱和NIH大脑计划,该项目打算分别对人体和大脑中存在的所有细胞类型进行测序。人类细胞图谱的目标是在第一阶段对30亿到1亿个细胞进行测序,随着技术的发展测序广度和深度也会随之增加。该项目最近的结果显示发现儿童和成人肾癌中的相关细胞类型并不相同。然而,scRNA-seq用户应该意识到,该技术几乎可以应用于任何生物体。最近,通过拟南芥根部细胞原生质体的研究表明,即使是植物细胞存在坚硬的细胞壁,但是依然可以克服这个障碍,产生用于序列分析的单细胞。scRNA-seq正在迅速成为生物学家工具包的标准组成部分,并可能在10年内像bulk RNA-seq一样被广泛使用。 2.1.2空间转录组学 目前的bulk和scRNA-seq方法为用户提供了关于组织或细胞群非常详细的数据,但没有捕获的空间信息,无法研究细胞环境与基因表达相关性。空间组学研究的两种途径是“空间编码”和“原位转录组学”。空间编码在RNA-seq文库制备过程中记录了空间信息,也可以通过分离空间受限细胞(激光捕获显微切割(LCM))或根据RNA在分离前的位置进行条形码编码来获取空间信息。 LCM已成功地用于从组织切片中分离单个细胞或特定区域用于RNA-seq分析。尽管做LCM需要专门设备,但它在许多机构中广泛使用。虽然它可以达到较高的空间分辨率,但它耗时费力,因此难以推广。在空间转录组学(10X Genomics, USA)和Slid-seq方法可以直接将冷冻组织切片中捕获mRNA应用于寡核苷酸微阵列载玻片中。寡核苷酸结构中包括空间条形码,UMI和oligo-dT引物,它能唯一地识别每个转录本及其位置。序列读取被映射到玻片对应的坐标上,以生成空间基因表达信息。空间转录组学方法已被证明可以应用在一系列物种中,包括小鼠大脑和人类乳腺癌组织,人类心脏和拟南芥花序组织。Slid-seq是最近开发的一种技术,已被证明可以在小鼠大脑冷冻切片中进行应用。这些直接的mRNA捕获方法不需要特殊的设备,有相对简单的分析方法,并可能大规模适用于许多组织。 然而,还有两个重要的问题有待解决。首先,该技术只能应用于新鲜的冷冻组织。其次,分辨率受到阵列大小和捕获寡聚物斑点或凝胶珠间距的限制;当前的阵列测量面积是6.5×7 mm和3×3 mm,限制了组织切片的大小。空间转录组学斑点的直径为100μm,间隔为100μm,这意味着它们不够小或不够密集,无法达到单细胞分辨率。Slid-seq珠子要小得多,直径只有10μm,排列非常密集,空间分辨率高出十倍,大约一半的珠子可以产生单细胞数据。将scRNA-seq与空间编码数据相结合可以提高分辨率,但是,要想使其成为一个更常规的RNA-seq工具,还需要基础技术的进一步发展。 上述空间转录组学方法的替代方法包括原位测序和单分子荧光原位杂交成像方法。这些方法与RNA-seq测序方法相比能产生更窄的转录组谱,但它们可以直接检测RNA,允许分析低丰度的转录本。同时,它们提供了关于组织结构和微环境的信息,并可以生成亚细胞数据。成像方法的主要局限性是要求高分辨率或超分辨率显微镜与自动流体相结合,以及成像所需的时间,可能需要很多小时,甚至几天。随着测序成本不断下降,高通量处理的规模成像系统使用会更加受限。 上述所有的空间组学方法目前都受限于无法生成高深度转录组数据、细胞分辨率或高成本,但这些方法正在迅速改进,并已经应用于临床样本。空间组学分析的具体计算方法已经开始出现。此外,随着原位RNA测序和成像方法的改进,目前已经可以检测103到105细胞的转录组数据,这与之前液滴捕获单细胞方法所获得的数据量相似。然而,大多数用户不太可能需要真正的单细胞或亚细胞的分辨率。因此,转录组图谱的广度以及对各种组织或样本的应用能力可能会推动这些技术在特定领域的发展。如果能够克服空间组学的技术限制,它很可能会被广泛采用。 ▶ 2.2 非稳定状态RNA分析 RNA-seq除了通过DEG来分析mRNA水平,还可以分析转录和翻译过程中动态变化,这为研究基因表达提供了新的思路。例如通过新生的RNA来测量活性转录。基因表达是一个内在的动态过程,DEG分析无法很好的检测复杂转录反应的微妙和快速变化,或识别不稳定的非编码RNA,如增强子RNA。RNA-seq可以用于绘制TSS和定量新生转录本,这使得RNA动力学的研究成为可能。与DEG研究相比,新生RNA的研究具有很强挑战性,因为它们的半衰期很短,而且丰度也很低。由于RNA动态研究的重要性,后面催生出了一系列相关方法来研究新生RNA。这些方法揭示了启动子上转录的程度,研究发现,启动子-近端结合转录活性RNA聚合酶II(Pol II)是基因表达的一个关键步骤,表明新生的RNA在调控转录中起直接作用,其序列和结构影响转录的延伸、终止以及染色质调节因子和增强子的结合。研究新生RNA方法大致可以分三类,即Run-on方法、Pol II免疫共沉淀以及代谢标记法(图3)。 图3 新生RNA和翻译组分析的关键概念 Run-on方法依赖于核苷酸类似物的掺入,使新生的RNA从总RNA池中富集出来,并测量瞬时转录的RNA。Global run-on sequencing(GRO-seq)和precision nuclear run-on(PRO-seq)通过在转录过程中将5-溴脲嘧啶5ʹ-三磷酸(BrU)或生物素修饰核苷酸加入到新生RNA来实现检测目的。通过免疫沉淀或亲和纯化对新生RNA进行富集和测序,可以在转录组范围内确定参与转录的转录聚合酶位置和活性。由于在实验过程中加入的标记核苷酸数量,GRO-seq只能达到10-50bp分辨率,降低了绘制TSS的准确度。PRO-seq实现单碱基分辨率,因为转录会在生物素核苷酸掺入时停止,可以识别掺入位点。Run-on方法概念比较简单,只有含有生物素修饰核苷酸的RNA分子才会被富集进行测序,但是非新生RNA会造成测序背景,所以需要更高测序深度。这些方法的使用揭示了启动子上双向转录起始的程度,并确定了增强子RNA在调节基因表达中的作用。通过对5ʹ帽子结构RNA进行特异性富集然后测序,可以提高转录起始位点检测敏感度和特异性,以及捕获共转录过程中被去除的RNA,减少转录背景信号。 Pol II IP方法,例如native elongating transcription sequencing(NET-seq)和native elongating transcript sequencing for mammalian chromatin(mNET-seq), 使用FLAG抗体将Pol II 相关RNA拉取下来(图3)。对这些与染色质复合物相关的RNA复合物进行RNA-seq可以用于TSS绘制。NET-seq可能缺乏特定性,因为任何与Pol II 密切相关的RNA都可能污染新生RNA富集,数据中存在tRNA和小核仁RNA就可以证明这一点。在mNET-seq中多种CTD抗体的使用可以揭示了CTD修饰是如何影响转录以及RNA加工中间体的鉴定,并能够将特定Pol II新生RNA定位到TSS上。 用4-硫代尿苷(4 sU)进行代谢脉冲标记,可以识别新生RNA(图3)。然而这种方法进行标记需要时间较长,大部分转录本都将被标记使得灵敏度受到限制。通过专门靶向RNA的3ʹ端,瞬时转录组测序(TT-seq)和S4U烷基化RNA代谢测序技术(SLAM-seq)都可以减少了来自5ʹRNA的信号。TT-seq可以将标签时间限制在5分钟以内,所以只有新转录本的3ʹ端被标记,并在生物素亲和纯化之前包含一个RNA片段步骤,以富集标记的RNA。SLAM-seq 包含了一个3ʹmRNA-seq文库制备,测序只针对新转录的RNA,而不是整个转录本。除此之外,在SLAM-seq测序中,会在RNA提取之后添加碘乙酰胺,将烷基化4 sU残基掺入到正在增长的新生RNA链中。这种修饰诱导逆转录依赖的胸腺嘧啶-胞嘧啶(T>C)核苷酸替换,在测序分析中被检测为“突变”,从而直接识别出4 sU的合并位点。然而,低掺入率意味着只有少量的4 sU位点可以转化为胞嘧啶,这限制了敏感性。 新生RNA分析方法尚未得到直接比较。新生的RNA检测方法都会受到非特异性背景富集和/或降解RNA的负面影响,这可能会测序深度的要求造成影响。TT-seq和SLAM-seq都将测序焦点集中在3ʹ端,这样减少非新生RNA的影响,目前还没有证据表明存在其他更加优越的方法。与代谢标记法相比体外亲和纯化需要更多的起始样本量,在确定脉冲标记时间上较为复杂,脉冲时间段产生可供分析的RNA也会减少,同样会限制敏感性。随着新生RNA检测技术不断改善,已经与其他方法相互结合分析,可以让我们对转录过程有更深入了解。 ▶ 2.3 非基因表达分析 RNA在调节其他生物分子和生物过程中发挥着重要作用,比如拼接和翻译,这涉及到RNA与各种蛋白质和/或其他RNA分子的相互作用。RNA-seq可以被用来研究分子内和分子间RNA-RNA互作(RRIs), 揭示蛋白结构以及互作,使我们能够更深入地了解转录和翻译(图4)。 图4RNA结构和RNA-蛋白质相互作用分析的关键概念 有些方法利用天然生物相互作用,其他的在感兴趣的分子之间产生短暂的共价键;大多数使用抗体下拉、亲和纯化或探针杂交富集RNA进行测序。这里我们简要描述一下基于RNA-seq来研究结构和相互作用的主要方法。 2.3.1 通过分子内RNA互作来研究RNA结构 细胞中大部分RNA是由核糖体RNA和tRNAs构成的。它们与其他结构非编码RNA一起,从基因调节到翻译过程中扮演多种角色。目前有两种基于核酸和化学检测方法检测RNA结构。早在1965年,就有采用核糖核酸酶消化方法来探究RNA结构。化学方法,比如选择性的2′-羟基酰化通过引物延伸分析(SHAPE)得到tRNA结构信息,实现单碱基分辨率。但是,只有将各种核酸酶和化学方法与RNA- seq结合起来,才能将分析从单个RNA转移到转录组范围内,这也改变我们对结构复杂性和重要性的理解。这里我们着重讨论核酸酶和化学方法之间的主要区别(图4) 核酸酶方法,如RNA结构并行分析(PARS)和片段测序(FRAG-seq),使用酶消化单链RNA (ssRNA)或双链RNA(dsRNA)。核酸酶消化后剩下的RNA被用作RNA- seq文库的制备。结构化(双链)和非结构化(单链)区域可以通过对RNA- seq数据进行计算分析来确定。核酸酶很容易获得,可以同时检测ssRNA和dsRNA,但是由于核酸酶消化的随机性,其分辨率比化学映射方法要低。此外,它们分子体积较大限制了进入细胞效率,使它们不适合在体内研究。 化学映射方法使用化学探针与RNA分子发生反应,标记结构或非结构化的核苷酸。这些标记要么阻止逆转录,要么导致cDNA错配,通过对RNA- seq reads的映射和分析能够揭示其结构。SHAPE-seq通过与RNA核糖2'羟基发生反应标记未配对的ssRNA,尽管发夹环中的碱基堆叠会降低其效率。硫酸二甲酯测序(DMS- seq)用DMS标记腺嘌呤和胞嘧啶残基,阻断逆转录并从截断的cDNA中推断出RNA结构。SHAPE和突变图谱分析(SHAPE–MaP)以及DMS突变分析与测序(DMS-MaPseq)两者都可以改进实验条件以提高逆转录酶的连续性和防止cDNA截断。相反,化学标记导致错配事件,这些“突变”可以在RNA- seq数据分析中被检测到来揭示RNA结构。即便细胞内是一种动态环境,数据可能会有更多的变化,但是化学探针也能够在体内鉴定更有生物学意义的结构,除此之外,还可以分析新生RNA的结构。 核酸酶和逆转录阻断法通常产生短RNA片段,并且只能检测单个酶切位点或化学标记,而错配和突变检测方法每次可以读取多个化学标记。没有一种方法是不存在偏差的,逆转录阻断无法达到100%效果,化学标记会导致突变阻碍cDNA合成,这两个因素都会影响数据分析。这些方法可以帮助我们了解RNA结构在基因和蛋白质调控中所起到的作用。例如,对DMS映射数据的分析表明,RNA结构可能调节APA,并可能减缓催化活性区域的翻译,为蛋白质折叠提供更多时间,从而减少错误折叠事件发生。随着这一领域的扩大,我们可能会发现RNA结构与疾病发展或状态之间的联系;最近的研究结果表明了异常RNA结构在重复扩张性疾病中的潜在作用。在未来,可能会开辟疾病治疗的新领域。 2.3.2 在分子间探索RNA-RNA相互作用 分子间RRIs在转录后调控中起着重要作用,如miRNA靶向3ʹUTR。研究分子间RRIs的工具已经被开发用于靶向和转录组范围的分析。这些方法有一个共同的工作流程,就是分子被交联保持相互作用。例如,CLASH、RIA-seq以及RAP-RNA等靶向方法都可以完成RNA深度互作图谱。在以上三种方法中,CLASH可以通过IP富集来研究特异性蛋白复合物介导的RRI,RIA-seq可以采用反义寡核苷酸下拉与靶标相互作用的RNA,但是这两种方法都不能区分直接或者间接RRI。为了提高RRI分析分辨率,RAP-RNA通过使用交联剂外加上反义寡核苷酸来获取RNA,并通过高通量测序方式检测直接或间接RRI,该方法虽然提供了更多的特异性分析,但是需要多个文库。 全转录方法基本上与靶向方法一样。首先将互作RNA进行交联,然后富集减少非互作RNA含量来提高特异性。提高特异性方法有2D凝胶纯化富集、生物素亲和层析富集以及通过RNase R消化未交联的RNA。随后进行连接、文库制备以及测序。 RNA 互作数据分析可以同时对多对互作RNA进行研究,并显示RRI变异的分布情况。90%的RRI都存在mRNA参与,有将近一半的RRI存在miRNA和长链非编码RNA参与。先要全面了解RRI,就需要采用不同方法。研究RRI的相关方法也存在一定局限性,例如RRI的动态过程,其他分子间相互作用的影响都会在不同程度上影响分析结果。分子内相互作用也增加了RRI分析的背景噪音,这需要将rRNA剔除掉。另外就是交联剂和邻近连接的效率也会影响方法的敏感性。 2.3.3 RNA-蛋白互作的研究 研究蛋白和DNA互作是采用ChIP实验,同样在RNA中也存在一些IP实验用于研究RNA和蛋白互作。主要是通过特异性抗体来捕获与蛋白结合的RNA(图5)。在研究RNA-蛋白互作的实验中,主要区别就在于是如何进行交联的,有些方法不采用交联直接富集,有些则是甲醛交联或者紫外(UV)交联。最常采用的方法就是RIP-seq,这种方法由于操作简单而被广泛应用。甲醛交联可以在蛋白和互作RNA之间产生可逆共价键提高稳定性一次降低非特异RNA的富集,甲醛工作浓度设置为1%可以有效降低蛋白间互作所带来的负面影响,可以帮助获得更高质量的结果。 在Clip中引入254nm的UV交联是一次关键的改进,这种交联方式提高了结果的特异性和分辨率。UV交联可以在蛋白和RNA互作位置上产生共价键,同时也避免了蛋白间的交联,大大降低了背景信号。PAR-CLIP则是采用356-nm UV交联加4 sU获得单核苷酸分辨率的蛋白与RNA互作图谱。红外CLIP(irCLIP)通过使用红外凝胶可视化代替放射性同位素检测,使得操作更为简便,相较于iCLIP来说其只需要20000个细胞进行可以进行RNA-蛋白互作的分析。但是irCLIP目前并未广泛应用,其主要原因在于其特异性的降低。 图5 RNA结构和RNA-蛋白相互作用分析的关键概念 所有研究蛋白与RNA互作的实验都需要有抗体进行IP富集,因此抗体的特异性是这个研究领域最主要的限制因素。除此之外,RNA结构、蛋白竞争性结合都会对结果分析产生影响。RRI和RNA-蛋白互作检测主要是依据结合位点互作的平均值。实验室方法、计算方法和单个分子测序的未来发展可能有助于破译内部的一些生物学变异。 ◆ 总 结 ◆ Wang, Gerstein和Snyder等人预测RNA- seq将“彻底改变真核转录组的分析方式”。今天,我们对RNA生物学研究可以获取许多关于基因组功能相关信息,可以帮助研究癌症和其他疾病发展过程中分子失调的相关机制。虽然生物学的发现阶段还远未结束,但RNA- seq测试已经被用于临床。单细胞测序和空间组学分析已经成为很多实验室需要分析的内容。长读长测序在将来可能会取代短读长测序作为大多数客户所选择的技术。要达到这种目标,需要在长读长测序方面进行相当大的改进,以提高通量和降低错误率。然而,长读长mRNA转录变体测序如果它变得像今天的短读测序一样便宜和可靠,那么它很可能是将来测序技术的首选。考虑到这一点,任何关于RNA-seq在未来十年如何发展的预测都可能过于保守。 |