NEWS
新闻资讯
|
单细胞 | 如何读懂单细胞转录组高频分析的图片本文将手把手教你解读单细胞转录组分析中最常见的6类图表,让你快速掌握“看图说话”的精髓,无论是阅读文献还是做汇报都能游刃有余。 单细胞分析中常见的细胞聚类图有UMAP和t-SNE,“核心作用”是把复杂的单细胞关系可视化,帮助你快速识别和沟通细胞群体结构、批次影响与状态连续性;UMAP更适合作为默认主图,t-SNE在强调离散分群与稀有群体时很有价值。
UMAP可视化
tSNE
散点云:每个点代表一个细胞,位置由降维算法决定 颜色编码 按细胞类型/簇着色:展示细胞分群 按样本/批次着色:评估批次效应 按基因表达着色:定位特定基因的表达区域(下面介绍的FeaturePlot图正是这种) 簇边界:虚线圈或底色区分不同细胞群 簇标签:数字(Cluster 0,1,2...)或细胞类型名称(T cell, B cell...)
簇的分离度:是否清晰分离,清晰分开说明异质性明显 簇的形状:重叠可能暗示连续过渡态 批次混合:同类细胞不同批次是否聚在一起 稀有群体:小而独立的点群
簇间距离 ≠ 生物学距离 簇大小 ≠ 细胞数量(算法会均一化) 不同图之间的位置不可比较 此外,细胞簇可以进一步分成不同的细胞亚簇。 FeaturePlot可以说是单细胞分析中使用频率最高、信息密度最大的可视化工具之一。它的核心作用是在降维空间(UMAP/t-SNE)上展示特定基因/特征的空间表达分布,让你一眼看出“哪些细胞在表达什么基因”。它可用于细胞类型注释、稀有群发现、状态探索、结果验证,几乎贯穿单细胞分析的全流程。
图:FeaturePlot图
底图:通常是UMAP/t-SNE的细胞分布 颜色渐变:灰色代表低表达或者无表达,红色代表高表达。 色标(colorbar):右侧或下方的刻度尺,标注表达值范围
特异性:基因是否在特定簇富集 广泛性:是否多个簇都有表达 梯度模式:是否存在表达渐变(提示分化轨迹) 互斥模式:不同基因是否在不同区域表达 细胞比例图是单细胞转录组文章中较为常见的可视化结果,它的核心作用在于揭示不同条件/样本之间,各细胞类型的“相对构成”是否发生了系统性变化?可视化图片类型主要有堆叠柱状图、饼图。
图:细胞比例图(堆叠柱状图和饼图)
堆叠条形图版本: X轴:样本或条件分组 Y轴:百分比(0-100%)或绝对数量(X轴和Y轴可交换) 色块:不同细胞类型,高度=占比 连线:添加linker,绘制带有类型流动区间的比率分析图。同样可以直观对比不同样本组细胞类型的变化,类似于桑基图。
图:多种癌症类型中CAF亚型的比例
主导类型:哪些细胞类型占比最高 组间差异:疾病vs健康(对照vs 处理组)的比例变化 稀有群体:<5%的细胞类型变化 统计显著性:是否考虑了生物学重复 爱基百客云平台可以绘制细胞比例图:云平台 | 玩转单细胞比率可视化 基因表达热图在其他组学中较为常见,也是在单细胞转录组中最常见、最直观的可视化之一。它以颜色强度展示“基因×细胞(或细胞群)”的表达矩阵,用于对比细胞群的标记基因、发现共表达模块、观察分化轨迹中的基因动态等。
基因表达热图
行:基因(可能聚类排序) 列:细胞或细胞类型 颜色:表达强度(蓝-白-红(或其他):低-中-高表达;颜色标尺:1.5到-1.0) 树状图:顶部和左侧,显示层级聚类 注释条:顶部色带标注细胞类型/条件
块状模式:细胞类型特异性基因 渐变模式:连续表达变化 互斥模式:此消彼长的基因组 共表达模块:同步变化的基因群 Dotplot(点图)是单细胞分析中最常用的可视化之一,堪称“信息密度之王”——它用点的大小+颜色同时编码两个维度的信息,在一张图里展示“哪些基因在哪些细胞簇表达、表达多少、覆盖多广”。无论是细胞类型注释、标记基因验证,还是跨条件比较,dotplot都是重要的工具。
用于注释的细胞类型标记基因的缩放平均表达的点图
X 轴:基因列表(如CD3D、 CD8A、VWF等标记基因)。(X轴和Y轴可交换) Y 轴:细胞簇/类型(如Cluster 0、T cell、Fibroblast)。 点(dot):位于交叉位置,代表某基因在某簇的表达情况。 点的大小:表达该基因的细胞比例(Percent Expressed,0-100%)——点越大,簇内表达该基因的细胞越多。 点的颜色:该基因在簇内的平均表达水平(Average Expression,通常是log-normalized或 scaled)),颜色越深/红,表达量越高;越浅/蓝,表达越低。
大小优先于颜色:比例(点大小)比强度(颜色)更重要——即使颜色深,若点小(<10% 细胞表达),可能是噪声。 组合判断:单基因不足以定义簇,需2-3个标记组合。 阴性标记同样重要:某基因不表达也是特征(如T细胞不表达CD19)。 关注异常点:某簇意外表达某基因(如上皮簇表达免疫标记)→可能是双胞(doublet)或污染。
只看颜色忽略大小:颜色深但点小→ 可能是少数细胞高表达(outlier),不代表簇特征。 基因选择不当: 用管家基因(GAPDH)→全图大点,无区分度。 用低表达基因 →全图小点,看不出差异。 归一化问题:颜色过浅→检查是否log-normalized;过深→可能需z-score标准化。 忽略批次效应:某簇点异常→可能是批次混杂,需整合(Harmony)。 过度解读稀疏点:单细胞dropout(丢失/脱落:某个基因在细胞中实际有表达,但由于技术限制未被检测到,在数据中错误地显示为“0表达”)严重,小点(<5%)可能是技术噪声。 小提琴图是在单细胞转录组分析中常用且信息密度很高的一类图形,用来展示一个连续变量在不同细胞群(例如簇、样本、条件)中的分布情况,便于发现特异性高表达的细胞簇。
X轴:细胞类型或聚类 Y 轴:基因表达值 小提琴形状: 宽度:对应着该表达水平的细胞数量。 上下范围:最大最小值 形状: 单峰(钟形):中间宽,两端逐渐收窄,类似正态分布。意味着大多数细胞表达相似,异质性低。 双峰(骆驼峰):小提琴有两个鼓包(两个局部最宽处),中间有凹陷。意味着簇内有两个亚群,表达量不同。 平坦(矩形):表达值均匀分布,无明显主峰。 拖尾(长尾):少数细胞极高或极低表达(离群值)。
分布形状优先于峰值高度:形状反映表达模式。 宽度比高度重要:顶部窄尖=少数高表达细胞;底部宽厚=大多数细胞低表达(或不表达) 关注表达分离度(Separation) 底部基线同样关键
真阴性 vs 低表达: 紧贴0值的平线 = 真阴性(如T细胞的CD19) 底部有小“肚子” = 低水平背景表达(可能是技术噪声) dropout效应:某些细胞真实表达但未检测到,导致0值堆积(需结合dotplot的表达百分比判断) 纵向对比:同一个簇在不同基因间的表达强度变化 横向对比:同一个基因在不同簇间的分布差异 核心原则:小提琴图看“分布形态”,dotplot看“表达普遍性”——两者可以结合使用准确定义细胞类型。 掌握这6类图表的解读,你就掌握了单细胞转录组分析大部分的可视化语言,后期我们继续分享其他单细胞分析图的解读。下次读文献时,不妨用这份指南对照着看,相信你会有新的收获。如果觉得有用,欢迎收藏转发!
|










