Visium HD空间数据分析、可视化以及整合 (1)

数据科学工厂 发表于 2024-8-6 08:47:46

## 引言

Visium HD数据是通过在2微米 x 2微米的网格中标记的、具有空间模式的寡核苷酸生成的。由于这种高分辨率下的数据较为稀疏，因此相邻的网格会被合并，形成8微米和16微米的分辨率。虽然10x推荐使用8微米网格的数据进行分析，但Seurat允许同时加载多种不同分辨率的数据，并将它们存储在一个对象中作为多个检测。

在[本文](https://satijalab.org/seurat/articles/visiumhd_analysis_vignette "Source")中，概述了Seurat支持的一些空间分析工作流程，特别是针对Visium HD数据的分析，包括：

- 无监督聚类
- 识别空间组织区域
- 选择特定的空间区域进行分析
- 与单细胞RNA测序（scRNA-seq）数据的整合
- 对比不同细胞类型在空间上的分布

分析重点是一个来自小鼠大脑的Visium HD数据集。

## 安装 Seurat 更新

```R
# packages required for Visium HD
install.packages("hdf5r")
install.packages("arrow")
library(Seurat)
library(ggplot2)
library(patchwork)
library(dplyr)
```

## 数据加载

- Seurat 能够在同一对象的不同检测中存储多种分辨率的数据。
- 通过设置 bin.size 参数，用户可以选择加载的分辨率，系统默认加载的是8微米和16微米的数据。
- 用户可以通过更改检测来轻松切换不同的分辨率，以适应不同的分析需求。

```R
localdir <- "/brahms/lis/visium_hd/mouse/new_mousebrain/"
object <- Load10X_Spatial(data.dir = localdir, bin.size = c(8, 16))

# Setting default assay changes between 8um and 16um binning
Assays(object)
DefaultAssay(object) <- "Spatial.008um"

vln.plot <- VlnPlot(object, features = "nCount_Spatial.008um", pt.size = 0) + theme(axis.text = element_text(size = 4)) + NoLegend()
count.plot <- SpatialFeaturePlot(object, features = "nCount_Spatial.008um") + theme(legend.position = "right")

# note that many spots have very few counts, in-part
# due to low cellular density in certain tissue regions
vln.plot | count.plot
```

![](https://s2.loli.net/2024/07/15/XQmPBcEHCvwG7pr.png)

## 归一化

采用了对空间数据进行常规的对数转换标准化方法。我们指出，针对空间数据的最佳标准化技术仍在不断研究和评估之中。我们推荐用户深入阅读Phipson/Davis实验室以及Fan实验室发表的论文，以获取有关空间数据标准化潜在陷阱的更多信息。

```R
# normalize both 8um and 16um bins
DefaultAssay(object) <- "Spatial.008um"
object <- NormalizeData(object)

DefaultAssay(object) <- "Spatial.016um"
object <- NormalizeData(object)
```

## 基因表达可视化

- 调整 pt.size.factor（默认设置为 1.2）有助于可视化此 HD 数据集中的分子和组织学信息
- 您还可以调整形状和描边（轮廓）参数以实现可视化

```R
# switch spatial resolution to 16um from 8um
DefaultAssay(object) <- "Spatial.016um"
p1 <- SpatialFeaturePlot(object, features = "Rorb") + ggtitle("Rorb expression (16um)")

# switch back to 8um
DefaultAssay(object) <- "Spatial.008um"
p2 <- SpatialFeaturePlot(object, features = "Hpca") + ggtitle("Hpca expression (8um)")

p1 | p2
```

![](https://s2.loli.net/2024/07/15/E4QTzgRyj1sxwBO.png)

## 无监督聚类

尽管常规的单细胞RNA测序聚类流程同样适用于空间数据集，我们发现在使用Visium HD数据集时，Seurat v5的草图聚类方法在性能上有所提升，特别是在识别那些数量稀少且在空间上有特定分布的细胞群组时。

在本例中，我们对Visium HD数据集进行了草图化处理，对这些抽样得到的细胞进行了聚类分析，并将得到的聚类结果映射回整个数据集。

```R
# note that data is already normalized
DefaultAssay(object) <- "Spatial.008um"
object <- FindVariableFeatures(object)
object <- ScaleData(object)
# we select 50,0000 cells and create a new 'sketch' assay
object <- SketchData(
object = object,
ncells = 50000,
method = "LeverageScore",
sketched.assay = "sketch"
)
# switch analysis to sketched cells
DefaultAssay(object) <- "sketch"

# perform clustering workflow
object <- FindVariableFeatures(object)
object <- ScaleData(object)
object <- RunPCA(object, assay = "sketch", reduction.name = "pca.sketch")
object <- FindNeighbors(object, assay = "sketch", reduction = "pca.sketch", dims = 1:50)
object <- FindClusters(object, cluster.name = "seurat_cluster.sketched", resolution = 3)
object <- RunUMAP(object, reduction = "pca.sketch", reduction.name = "umap.sketch", return.model = T, dims = 1:50)
```

接下来，我们可以利用ProjectData函数，将从5万个草图化细胞中得到的聚类标签和降维分析（主成分分析PCA和统一流形近似UMAP）结果，映射到整个数据集中。

映射完成后，在生成的对象里，所有细胞的相关信息将如下存储：

- 聚类标签将被记录在对象的 `object$seurat_cluster.projected`属性中。
- 映射后的PCA降维结果将存放于对象的 `object[["pca.008um"]]`字段。
- 映射后的UMAP降维结果将存放于对象的 `object[["umap.sketch"]]`字段。

```R
object <- ProjectData(
object = object,
assay = "Spatial.008um",
full.reduction = "full.pca.sketch",
sketched.assay = "sketch",
sketched.reduction = "pca.sketch",
umap.model = "umap.sketch",
dims = 1:50,
refdata = list(seurat_cluster.projected = "seurat_cluster.sketched")
)
```

我们可以对草图化处理后的细胞进行聚类结果的可视化展示，同时也可以对整个数据集的聚类结果进行映射后的可视化分析。

```R
DefaultAssay(object) <- "sketch"
Idents(object) <- "seurat_cluster.sketched"
p1 <- DimPlot(object, reduction = "umap.sketch", label = F) + ggtitle("Sketched clustering (50,000 cells)") + theme(legend.position = "bottom")

# switch to full dataset
DefaultAssay(object) <- "Spatial.008um"
Idents(object) <- "seurat_cluster.projected"
p2 <- DimPlot(object, reduction = "full.umap.sketch", label = F) + ggtitle("Projected clustering (full dataset)") + theme(legend.position = "bottom")

p1 | p2
```

![](https://s2.loli.net/2024/07/15/oW3yqemUasBCwLl.png)

当然，我们现在还可以根据空间位置来可视化无监督集群。请注意，运行 SpatialDimPlot(object, Interactive = TRUE) 还可以实现交互式可视化和探索。

```R
SpatialDimPlot(object, label = T, repel = T, label.size = 4)
```

![](https://s2.loli.net/2024/07/15/Zzpb82c57dmQTMn.png)

当面对众多不同的细胞聚类——有些聚类的空间分布受到限制，而有些则分布较为混杂——时，尝试在一张图上展示它们的空间分布可能会让人难以理解。为了解决这个问题，我们通常会单独展示每个聚类的空间分布。例如，我们在下面的图中特别标注了几个聚类的空间位置，这些聚类恰好代表了大脑皮层的不同层次。

```R
Idents(object) <- "seurat_cluster.projected"
cells <- CellsByIdentities(object, idents = c(0, 4, 32, 34, 35))
p <- SpatialDimPlot(object,
cells.highlight = cells,
cols.highlight = c("#FFFF00", "grey50"), facet.highlight = T, combine = T
) + NoLegend()
p
```

![](https://s2.loli.net/2024/07/15/EenP28QrcVDUa1L.png)

我们还可以找到并可视化每个簇的顶级基因表达标记：

```R
# Crete downsampled object to make visualization either
DefaultAssay(object) <- "Spatial.008um"
Idents(object) <- "seurat_cluster.projected"
object_subset <- subset(object, cells = Cells(object[["Spatial.008um"]]), downsample = 1000)

# Order clusters by similarity
DefaultAssay(object_subset) <- "Spatial.008um"
Idents(object_subset) <- "seurat_cluster.projected"
object_subset <- BuildClusterTree(object_subset, assay = "Spatial.008um", reduction = "full.pca.sketch", reorder = T)

markers <- FindAllMarkers(object_subset, assay = "Spatial.008um", only.pos = TRUE)
markers %>%
group_by(cluster) %>%
dplyr::filter(avg_log2FC > 1) %>%
slice_head(n = 5) %>%
ungroup() -> top5

object_subset <- ScaleData(object_subset, assay = "Spatial.008um", features = top5$gene)
p <- DoHeatmap(object_subset, assay = "Spatial.008um", features = top5$gene, size = 2.5) + theme(axis.text = element_text(size = 5.5)) + NoLegend()
p
```

![](https://s2.loli.net/2024/07/15/WsRqiVpvPCj2dBG.png)

## 鉴定具有空间特征的组织区域

与之前独立分析每个样本格子的方法不同，空间数据允许我们不仅根据细胞的邻近环境，还可以根据它们更广阔的空间背景来定义细胞。

```R
if (!requireNamespace("Banksy", quietly = TRUE)) {
remotes::install_github("prabhakarlab/Banksy@devel")
}
library(SeuratWrappers)
library(Banksy)
```

在启动 BANKSY 工具之前，用户需要考虑两个关键的模型参数：

- k_geom：指局部邻域的规模大小。设置较大的值会导致识别出更大的组织区域。
- lambda：表示邻域对结果的影响程度。较高的值有助于生成在空间上更加连贯一致的区域划分。

RunBanksy 函数会生成一个新的 BANKSY 分析结果集，这个结果集可以用于后续的降维处理和细胞聚类分析。

```R
object <- RunBanksy(object,
lambda = 0.8, verbose = TRUE,
assay = "Spatial.008um", slot = "data", features = "variable",
k_geom = 50
)

DefaultAssay(object) <- "BANKSY"
object <- RunPCA(object, assay = "BANKSY", reduction.name = "pca.banksy", features = rownames(object), npcs = 30)
object <- FindNeighbors(object, reduction = "pca.banksy", dims = 1:30)
object <- FindClusters(object, cluster.name = "banksy_cluster", resolution = 0.5)

Idents(object) <- "banksy_cluster"
p <- SpatialDimPlot(object, group.by = "banksy_cluster", label = T, repel = T, label.size = 4)
p
```

![](https://s2.loli.net/2024/07/15/DK8myvizsHoxWjO.png)

与无监督聚类一样，我们可以单独突出显示每个组织域的空间位置：

```R
banksy_cells <- CellsByIdentities(object)
p <- SpatialDimPlot(object, cells.highlight = banksy_cells, cols.highlight = c("#FFFF00", "grey50"), facet.highlight = T, combine = T) + NoLegend()
p
```

![](https://s2.loli.net/2024/07/15/TJD7RtWbUBAYN2S.png)

页: [1]

ResBang生信交流网's Archiver

Visium HD空间数据分析、可视化以及整合 (1)