🧠 空间转录组去卷积(Spatial Transcriptomics Deconvolution)详解

一、什么是去卷积?为什么需要它?

去卷积(deconvolution)是指从一个混合表达信号中解析出其组成成分的过程。在空间转录组中,它的主要目标是:

应用

说明

❶ 细胞成分识别

推断每个 spot 中有哪些细胞类型及其比例

❷ 空间组织图谱重构

重建“拟单细胞”的空间表达图

❸ 解码功能异质性

揭示组织微环境的免疫、代谢、基质等变化区域

空间去卷积 vs. bulk RNA-seq 去卷积

维度

空间转录组去卷积

Bulk RNA-seq 去卷积

数据类型

空间点(spot)表达

全组织混合表达

是否有坐标

✅ 有

❌ 无

分辨率

每个 spot 级

整个样本级

典型工具

cell2location, RCTD, Tangram

CIBERSORTx, MuSiC, DeconRNASeq

关键区别

维度

空间去卷积

bulk RNA-seq去卷积

数据类型

空间转录组数据

整体混合表达数据

是否有空间信息

有,点位具有坐标

无空间坐标

精度

高,每个spot都有推测

低,只能估算样本总体组成

所需参考

scRNA-seq表达谱

通常也需要scRNA-seq或marker表达谱

输出结果

每个spot中不同细胞类型的比例

每个样本中不同细胞类型的比例

工具

Tangram, RCTD, Cell2location

CIBERSORT, MuSiC, DeconRNASeq

与传统意义bulk RNA-seq 中的去卷积不同

在 bulk RNA-seq 中,样本通常由多种细胞混合,比如肿瘤组织、血液样本等。Bulk RNA-seq 给出的是一个样本整体的平均表达谱。目标是推断每个 bulk 样本中,不同细胞类型所占的比例(或相对表达贡献)

常用算法

CIBERSORT / CIBERSORTx:利用线性回归,将混合表达数据分解为多个已知细胞类型的表达特征和比例。CIBERSORTx支持batch correction和RNA-seq改进模型。

MuSiC:利用scRNA-seq作为参考,建立细胞类型表达加权平均模型,适应不同组织来源。

DeconRNASeq: 简化线性模型,适用于较少已知细胞类型的场景。

二、空间去卷积的分析流程(典型四步)

预处理 → 构建参考 → 建模去卷积 → 可视化与空间解释

步骤拆解:

预处理:

空间数据归一化、QC;

单细胞数据聚类与细胞类型注释。

构建参考表达库:

使用高质量的 scRNA-seq 生成各类细胞的 marker profile;

或整合公开单细胞数据集。

去卷积建模:

根据所选工具建立空间表达 = 参考表达 × 比例矩阵。

空间可视化与解释:

将每种细胞类型的分布图还原在组织图像上。

三、主流去卷积方法与分类对比

✅ 1. 监督式建模法(需要 scRNA 参考)

方法

原理

特点

适用平台

cell2location

贝叶斯层次模型

多细胞类型支持好,可整合 batch

Visium, CosMx

RCTD

泊松似然估计

对小 spot 更稳健,分辨率适中

Slide-seqV2

SPOTlight

NMF + 回归

快速,适合探索性分析

Visium

Stereoscope

scVI负二项建模

类似cell2location,轻量但不支持先验

Visium, MERFISH

Tangram

深度学习映射

支持 RNA→Protein 跨模态对齐

CosMx, Xenium

✅ 2. 无监督 / 半监督类(无需 scRNA 参考)

方法

原理

特点

适用平台

NMF

非负矩阵分解

快速、无参考,但难解释

全平台(探索)

BayesSpace

贝叶斯空间聚类

强 spatial 分区能力,不输出细胞比例

Slide-seq, Visium

spatialPCA

降维+聚类

聚焦空间趋势挖掘

全平台

✅ 3. 多模态去卷积方法

方法

特点

支持平台

Tangram

RNA→Protein 映射;空间对齐强

CosMx, DBiT-seq

DestVI

建模细胞状态(不是类型)

Visium, Xenium

TotalVI

RNA + 蛋白整合

多模态平台首选

四、平台适配推荐表

平台

类型

推荐方法

10X Visium

转录组

cell2location, SPOTlight, Stereoscope

Slide-seqV2

转录组

RCTD, BayesSpace

MERFISH / CosMx

空间高通量 RNA

Tangram, DestVI

DBiT-seq / Xenium

RNA + Protein

TotalVI, Tangram

IMC / CODEX

蛋白组学

NMF, 聚类 + marker 注释

五、方法选择的本质逻辑

决策因素

解读方式

示例

🎯 数据模态

仅RNA?是否多模态?

CosMx 选 Tangram;单模态选 RCTD

📏 空间分辨率

spot 包含几种细胞?

Visium 适合 cell2location

🧭 是否有 scRNA 参考

有参考可用监督法;无参考用 NMF/BayesSpace

tumor bulk 无参考 → NMF

六、可视化与输出样例

以下是典型输出图表:

每类细胞空间热图

堆叠条形图(每个 spot 细胞比例)

空间聚类 vs. 原组织结构映射图

你可以用以下工具生成可视化:

可视化工具

推荐

Scanpy / Squidpy

可生成空间图、分布图

cell2location 自带可视化函数

如 plot_spatial_map()

Tangram 结合 napari

支持原图叠加表达图

七、技术挑战与前沿趋势

挑战

描述

📍 分辨率限制

Visium spot 过大,非单细胞

🧬 batch effect

scRNA 与空间数据跨平台误差

🧬 多模态推断困难

蛋白数据数量少,归一化难度大

📌 未来趋势

开发真实单细胞分辨率平台(如 Slide-seq3、Stereo-seq v3);scATAC + 蛋白联合建模

✅ 总结推荐清单

使用场景

推荐方法

Visium + scRNA

cell2location, Stereoscope

Slide-seq 高精度

RCTD, BayesSpace

无参考数据

NMF, BayesSpace, spatialPCA

蛋白组数据

NMF, 聚类 + marker 注释

多模态 RNA+Protein

Tangram, TotalVI

📦 Bonus:进一步资源

如你需要,我可以提供:

🧪 各方法的 运行代码模板(Python/R)

🧬 公开 scRNA + ST 数据用于练手(如 10x + Tabula)

📁 Snakemake 工作流模板,支持自动化 cell2location + Tangram