ATAC-seq数据分析（二）

生信菜鸟屋 发表于 2024-7-22 11:15:00

在上文拿到过滤的bam文件后，我们就可以进行接下来的质控了。

首先，ATAC-seq有自己独特的特征：1.ATAC-seq的片段分布是随着片段的增加而减少，在200bp，400bp的时候会有小峰出现。2.在TSS附近有明显的富集。

好了，现在我们来进行第一个质控。如何画ATAC-seq的fragment的分布呢？

```text
samtools view -F 0x04 bam | awk -F'\t' 'function abs(x){return ((x < 0.0) ? -x : x)} {print abs($9)}' | sort | uniq -c | awk -v OFS="\t" '{print $2, $1/2}' >$projPath/alignment/sam/fragmentLen/${histName}_fragmentLen.txt #####提取片段长度
```

接下来使用R语言画图：

```text
ggplot({histName}_fragmentLen,aes(x = fragLen, y = fragCount))+geom_line(size = 1)
```

理想情况下的片段分布如下图：

![](data/attachment/forum/plugin_zhanmishu_markdown/202407/fa0a2be76ffd45135704dd71494f66bc_1721618053_9676.webp)

之后我们进行第二个质控，就是看TSS附近的富集程度：

```text
bamCoverage --bam a.bam -o a.bw --normalizeUsing RPKM####把bam转化为bigwig文件
computeMatrix reference-point--referencePoint TSS-p 15 -b 3000 -a 3000 -R gene.bed -Sa.bw --skipZeros-o matrix_test_TSS.gz --outFileSortedRegions regions_test_genes.bed ####计算矩阵
plotHeatap -m matrix.mat.gz -out ExampleHeatmap1.png ###画图
```

理想情况下的TSS富集图：

![](data/attachment/forum/plugin_zhanmishu_markdown/202407/a1836e53de1eac118ab103b8726d18fa_1721618053_8020.webp)

上面介绍了手动计算fragment以及TSS富集。有一个R包可以帮助我们直接完成上面的QC。这个工具包就是ATACseqQC，虽然使用方便；但是个人不太喜欢，因为速度实在是太慢了。有兴趣的同学可以去试试。

页: [1]

ResBang生信交流网's Archiver

ATAC-seq数据分析（二）