NEWS
新闻资讯
|
如何填写测序项目信息分析表?最近经常会有老师对于咱们测序的项目为什么要填信息分析表,怎么填感到疑惑。在这里,小编以咱们爱基王牌产品之一的ChIP项目为例进行介绍,帮助各位老师能够更好的填写分析信息~ 01 基因组信息的填写 基因组信息主要分为三大类。 (1)参考基因组链接: 简单来说就是基因组的序列文件,常见genome.fasta格式,这个链接内的数据主要是构建的基因组内不同染色体的碱基序列信息,在测序后需要进行测序数据的比对,真正比对上的reads才会用作后续的分析。 案例(Arabidopsis_thaliana.TAIR10): (2)对应注释文件: 即使有了基因组fa文件,我们在做完比对后仍然需要知道比对的reads来自具体哪个基因,包括reads是在来自基因的哪些具体位置(启动子、外显子、内含子等),那么就需要第二个文件来辅助,也就是基因组的注释文件,通常是gff、gtf格式的文件(建议优先选择gff)。这些文件对fa的序列进行了结构解读,确定序列对应的染色体位置、基因名称、基因ID(这个与数据库有关,不同数据库会有不同的ID信息)、内含子、外显子等信息,以帮助我们将测序数据进行基因组结构定位。 案例(Arabidopsis_thaliana.TAIR10): (3)蛋白序列文件 除了基因的序列文件外,我们也需要知道这些基因的功能信息。因此需要通过基因编码蛋白的序列信息推测基因功能,就需要用到最后一个文件——蛋白序列文件。通常为pep.fa(peptide.fatsa),示例见下。后续分析时将利用蛋白的序列信息与已知数据库(GO、KEGG、NR等)同源比对分析,推测基因具体功能。 案例(Arabidopsis_thaliana.TAIR10): 在知道了这三个文件的重要性之后,那怎么查找并反馈给我们呢? 有关基因组信息的寻找,常见的公共数据库有像NCBI、Ensemble、Gencode、UCSC等,收纳了非常多物种不同版本的参考基因组,并且至今也是许多新版本参考基因组上传和释放的好去处;除此之外,也有一些物种有专门的数据库,例如水稻-粳稻的MSU,茶树的TPIA等,也是许多老师研究目标物种的首选。 对于基因组版本的选择,首先考虑与本研究材料匹配度最高的基因组,其次最新版本或应用最多版本。匹配度的高低决定了该基因组是否适合本研究,在没有完全匹配的情况下,也可以考虑近缘物种,但是这个亲缘性要足够近。版本越新,其准确度和包含的信息越高,也会提升结果有效性。另外应用的越多,结果认可度越高。 在挑选好合适的基因组后,就需要将对应的下载链接复制到信息分析表的表格中,这一部分可以参考爱基前期写的公众号推文《科普篇|如何查找参考基因组信息》,这篇文章以NCBI和Ensemble数据库为例子,列举了比较详细的查找以及提供步骤。 此外,在分析表中我们也收纳了一些物种的参考基因组,如果老师在该列表中找到了自己的物种想使用的版本,也可以直接选择我们提供的参考基因组(只需要将对应链接复制进表格内即可)。 示例: 关于基因展现形式: 在分析结果中,当数据以表格形式展示时,通常会展示gene ID和gene name两个信息;但当图片中涉及基因信息(如基因表达热图)时,仅能展现其中一种形式,所以需要老师确定是以gene ID(如ENSG00000272398)还是gene name(如CD24)进行展示。 02 样品命名 为什么要强调或者说改动样品命名呢,其实主要有两个原因。 首先,由于生信软件分析的需求,对于输入的样本名称必须是符合仅含【字母、数字、下划线】的格式,且数字不能是第一个字符(见上图红字)。此外,一些系统保留文件名如CON、PRN、NUL等也需要尽量避开,因为这些命名是Windows执行某些任务保留的,系统会使用这些名称创建文件夹,并在其中存储与打印和其他功能有关的任务数据。如果以这些字符命名,可能会造成后期结果文件与系统冲突。 其次,对于单组内生物学重复,保持名称的一致性以及与其他组分开能够让老师快速的对结果进行查找和解读;此外,我们推荐老师以最终想要用于文章发表的名称进行命名,这样也能省去部分后期调整名字的步骤~ 03 比对方案 在完成了基因组的查找与填写、样本名称的修正后,终于来到了对于老师进行了多组实验想要寻找差异的比对方案填写了。差异分析只能进行两组间比较,对于有生物学重复的老师,填写以组名进行填写就可以(例如将treat1、treat2和treat3归为treat组);对于没有做生物学重复的老师,以样本名进行填写就可以(如treat1 vs Control1)。 在该部分填写时,比对方案设计建议遵循单一变量原则,便于阐述后期差异分析结果的差异来源。例如ABC三组,老师可以只分析A vs B,A vs C,也可以再加上B vs C。如需对差异结果进一步寻找差异,请和我们提前沟通。 那么,有关信息分析表的填写方法及主要填写内容就介绍到这里,ChIP以外其他的测序项目的填写方法也基本一致,老师可以参考ChIP的表格来进行。最后,也祝愿各位老师能够利用正确的基因组,完善的比对方案寻找到预期的分析结果,在科研的道路上冲冲冲! |