标题
更多

关于我们



武汉爱基百客生物科技有限公司(简称爱基百客),位于武汉高农生物园,办公面积逾3000平方米,是一家专业提供单细胞与空间组学测序分析、表观组学科研服务和高通量测序分析的新型生物科技服务企业。

公司旨在为客户提供最专业的科研服务,运营至今合作的科研客户近千家,涵盖国内知名科研院所、高校以及相关生物企业,运营至今销售额超1亿元,科研成果曾多次在Science、Cancer Cell、Plant Cell、Nature Communications、J HEMATOL ONCOL等国际高水平学术期刊发表,受到了客户广泛好评,是国内成长最迅速的高通量测序科研服务企业之一。

加入我们

NEWS

新闻资讯

详细内容

基于SSR数据的群体结构分析和DeltaK值可视化(SSR专题)


    • 1 ssr做群体结构数据准备

    • 2 structure 命令行计算群体结构

      • 2.1 mainparams主要参数及说明

      • 2.2 extraparams使用默认即可

      • 2.3 运行structure命令

      • 2.4 利用structureHarvester做K值评估

      • 2.5 统计绘制DeltaK折线图,找最佳K值。

      • 2.6 CLUMPP分析

      • 2.7 群体结构图可视化


1.ssr做群体结构数据准备

原始数据类型

下载.png

由于原始的SSR标记数据不符合structure输入的格式要求,可以使用我们的python脚本做数据格式转换。

$cat dat2structure.py

#!/usr/bin/env python3
import sys

dat = sys.argv[1]

with open(dat,'r') as f:
   num=1
   for LN in f:
       if num ==1:
           print(LN.strip())
           num-=1
       else:
           spl = LN.strip().split()
           cnt = len(spl)
           #print(' '.join(spl[0:2]))
           print(' '.join(spl[0:3]),' '.join([spl[i] for i in range(3,cnt,2)]))
           print(' '.join(spl[0:3]),' '.join([spl[i] for i in range(4,cnt,2)]))

经过上面的脚本转换后,转化后的数据格式,由于SSR数据是共显性标记,每两行为一个样本的SSR标记值:


下载 (1).png


2. structure 命令行计算群体结构

2.1 mainparams主要参数及说明

关键的参数一:

下载 (2).png

  • define NUMINDS 162: 此处162代表总样本数

  • define NUMLOCI 20: 此处20代表总标记数

  • define MISSING 9: 此处9代表缺失值

关键参数二:

下载 (3).png

define PHENOTYPE 1: 此处设置为1,使用表型性状

2.2 extraparams使用默认即可

2.3 运行structure命令

for K in {1..10};do (nohup /biodata/02.software/structure/structure -i structure.new.txt -m mainparams -e /biodata/02.software/structure/extraparams -K ${K} -o kk_run1_k${K} &);done # 运行>=2次做后续DeltaK 折线图


2.4 利用structureHarvester做K值评估

小编选择下载structureHarvester.py本地版命令行进行统计,也可在线分析,不用自己再另行绘图。

python /home/hang/software/structureHarvester-master/structureHarvester.py --dir=test/Results/ --out=./LK --evanno

2.5 统计绘制DeltaK折线图,找最佳K值。

下面是我的绘图代码

library(ggplot2)
args = commandArgs(T)
ipt = args[1] # evanno.txt
out = args[2]

dat = read.table(ipt)


func = 'DeltaK = mean(|L"(K)|) / sd(L(K))'
ggplot(dat,aes(x=V1,y=V7)) + geom_point(color='blue',size=rel(2)) + geom_line(color='blue') +
 scale_x_continuous(breaks = 1:10,labels = c('',2:9,'')) +
 xlab('K') + ylab('Delta K') +
 geom_hline(yintercept = 0,color="gray") +
 annotate("text", x=5, y=max(dat$V7,na.rm = T)*1.1, parse=F, label=func) +
 theme_classic()
ggsave(paste0(out,'_DeltaK.png'),width = 8,height = 6,dpi = 300)
ggsave(paste0(out,'_DeltaK.pdf'),width = 8,height = 6)

可视化结果如下:

下载 (4).png

2.6 CLUMPP分析

使用CLUMPP对structure分析的重复运算结果进行重复抽样分析。得到最佳K值的Q-matrix结果。在当前目录创建好配置文件(如下:红框内是你需要对应自己数据修改的参数)

下载 (5).png


关键参数:

  • POPFILE: structure的输出结果。其中POPFILE需要把K值对应的多次运行结果放在一个表里即可

  • OUTFILE: 输出文件

  • K 5: 此处K代表cluster数

  • C: 此处C代表样本数

  • R: 此处R代表运行次数

运行下列命令即可得到最终K值 Q矩阵:

nohup /biodata/02.software/CLUMPP_Linux64.1.1.2/CLUMPP &

2.7 群体结构图可视化

可选择将CLUMPP的结果传递给distruct,进行structure图形的绘制。这里可使用我们编写的R脚本进行可视化,结果如下:

下载 (6).png


 了 解 更 多 

{ 往 期 精 彩 回 顾 }

· ATAC-Me:一份样本,同时检测染色质可及性和DNA甲基化

· 启动子查找以及转录因子结合位点预测

· RNA甲基化 | 一文了解植物中RNA m6A修饰的检测、调控和功能

· 2篇IF>10项目文章连发,组蛋白修饰在猪脂肪组织及太平洋亚历山大藻中的应用

· 钜惠618 预存有惊喜!




         询服务热线


027-65522558


(市场部

18971172815


(行政部





联系我


Q Q: 270105245   1511879086   465436937           

邮箱: support@igenebook.com

地址:武汉市东湖高新区高新大道888号高农生物二期3A栋

网址: www.igenebook.com


公司主要提供表观组学技术服务、NGS测序服务、单细胞测序服务

欢迎咨询!鄂ICP备17016573号-2   技术支持:武汉网站建设

关注我们

二维码

公众号二维码



客服中心
联系方式
027-65522558
- 线上客服
微信 一对一业务咨询
seo seo