ChIP-seq 分析：评估片段长度与处理（6）

数据科学工厂 发表于 2024-7-4 16:25:31

## 1. 片段长度评估

片段长度的预测是 ChIPseq 的重要组成部分，它会影响峰识别、峰识别和覆盖概况。

使用互相关或交叉覆盖可以评估按链进行的读取聚类，从而衡量质量。

!(data/attachment/forum/plugin_zhanmishu_markdown/202407/8efa84fff95215050e109eb13982ccb7_1720081528_6186.png)

- 在 ChIPseq 中，通常是 dsDNA 的短单端读取。
- 片段的 5' 将在“+”链上测序
- 片段末端的 3' 将位于“-”链上。
- 虽然我们只有部分链序列，但根据预测的片段长度，我们可以预测整个片段
- “+”读数应仅在正方向延伸
- “-”只读负数

!(data/attachment/forum/plugin_zhanmishu_markdown/202407/6d8ddcba653eb1e357f5790f081d1967_1720081528_4025.png)

![](data/attachment/forum/plugin_zhanmishu_markdown/202407/5afc6cb8dce5adbb546b69aebbb7bda9_1720081528_7900.png)

## 2. 交叉覆盖图

!(data/attachment/forum/plugin_zhanmishu_markdown/202407/2376046ed125483a42bff4736db0ce5a_1720081528_1117.png)

plotCC 函数可用于绘制我们的交叉覆盖图, plotCC() 函数接受我们的 ChIPQC 样本对象列表和一个 facetBy 参数，以允许我们对交叉覆盖配置文件进行分组。

```R
plotCC(myQC, facetBy = "Sample")
```

!(data/attachment/forum/plugin_zhanmishu_markdown/202407/fd1d4007e4bc95a404f5c125dfe618ce_1720081528_2023.png)

我们可以将元数据包含为 data.frame，其中第一列是我们的样本名称，以允许我们以不同的方式对我们的图进行分组。

```R
myMeta <- data.frame(Sample = names(myQC), Tissue = c("Ch12", "Ch12", "MEL", "MEL",
"MEL", "Ch12"), Antibody = c(rep("Myc", 4), rep("Input", 2)))
myMeta
```

!(data/attachment/forum/plugin_zhanmishu_markdown/202407/55e034b9911d0a26f32c3a697b2eff7f_1720081528_2378.png)

我们现在可以将我们的元数据包含到 addMetaData 参数中，这将允许我们对提供的元数据列进行 facetBy。

此外，我们在这里使用 colourBy 参数为抗体组添加颜色。

```R
plotCC(myQC, facetBy = "Tissue", addMetaData = myMeta, colourBy = "Antibody")
```

!(data/attachment/forum/plugin_zhanmishu_markdown/202407/87fda033de1e697e1ffd6c95f57c5010_1720081528_3906.png)

ChIPQC 中的所有图实际上都是在 ggplot2 中构建的，因此我们可以像所有 ggplot 对象一样编辑和更新我们的图。

```R
plotCC(myQC, facetBy = "Tissue", addMetaData = myMeta, colourBy = "Antibody") + theme_bw() +
ggtitle("ChIPQC results")
```

!(data/attachment/forum/plugin_zhanmishu_markdown/202407/922e4d954daecad4680634090c13a358_1720081528_9499.png)

## 3. 黑名单和SSD

### 3.1. 黑名单

ChIPseq 通常会显示常见伪影的存在，例如超高信号区域。这些区域可能会混淆峰识别、片段长度估计和 QC 指标。 Anshul Kundaje 创建了 DAC 黑名单作为参考，以帮助处理这些地区。

![](data/attachment/forum/plugin_zhanmishu_markdown/202407/6771464bb773a0e6eef594c5b4b6cfd3_1720081528_1590.png)

- 黑名单影响的指标

![](data/attachment/forum/plugin_zhanmishu_markdown/202407/e2597c2b04e2f3d38af3aaa9c9a22b48_1720081528_1185.png)

### 3.2. SSD

SSD 是其中一种对列入黑名单的工件敏感的措施。 SSD 是衡量整个基因组信号标准偏差的指标，较高的分数反映出大量的读数堆积。因此，SSD 可用于评估超高信号的范围和信号。但首先必须删除列入黑名单的区域。

!(data/attachment/forum/plugin_zhanmishu_markdown/202407/85d9a328da496282df3f424aeb4ed5f3_1720081528_5142.png)

ChIPQC 在移除来自黑名单区域的信号之前和之后计算 SSD。plotSSD() 函数以红色绘制样本的黑名单前分数，以蓝色绘制黑名单后分数。

预先列入黑名单的 SSD 的较高分数可以表明该样本的黑名单区域中有很强的背景信号。

```R
plotSSD(myQC) + xlim(0, 5)
```

!(data/attachment/forum/plugin_zhanmishu_markdown/202407/c0a519a966f2825c6d5a2c80b908eb7c_1720081528_8850.png)

由于 SSD 分数受到黑名单的强烈影响，因此可能需要更改轴以查看黑名单后分数样本之间的任何差异。

更高的列入黑名单后的 SSD 分数反映了具有更强峰值信号的样本。

```R
plotSSD(myQC) + xlim(0.2, 0.8)
```

!(data/attachment/forum/plugin_zhanmishu_markdown/202407/c9a944d0bf0ca067ab7afc88d62c0bb7_1720081528_1879.png)

页: [1]

ResBang生信交流网's Archiver

ChIP-seq 分析：评估片段长度与处理（6）