生信菜鸟屋 发表于 2024-7-22 11:15:00

ATAC-seq数据分析(二)

在上文拿到过滤的bam文件后,我们就可以进行接下来的质控了。

首先,ATAC-seq有自己独特的特征:1.ATAC-seq的片段分布是随着片段的增加而减少,在200bp,400bp的时候会有小峰出现。2.在TSS附近有明显的富集。

好了,现在我们来进行第一个质控。如何画ATAC-seq的fragment的分布呢?

```text
samtools view -F 0x04 bam | awk -F'\t' 'function abs(x){return ((x < 0.0) ? -x : x)} {print abs($9)}' | sort | uniq -c | awk -v OFS="\t" '{print $2, $1/2}' >$projPath/alignment/sam/fragmentLen/${histName}_fragmentLen.txt   #####提取片段长度
```

接下来使用R语言画图:

```text
ggplot({histName}_fragmentLen,aes(x = fragLen, y = fragCount))+geom_line(size = 1)
```

理想情况下的片段分布如下图:

![](data/attachment/forum/plugin_zhanmishu_markdown/202407/fa0a2be76ffd45135704dd71494f66bc_1721618053_9676.webp)


之后我们进行第二个质控,就是看TSS附近的富集程度:

```text
bamCoverage --bam a.bam -o a.bw --normalizeUsing RPKM####把bam转化为bigwig文件
computeMatrix reference-point--referencePoint TSS-p 15 -b 3000 -a 3000 -R gene.bed -Sa.bw --skipZeros-o matrix_test_TSS.gz --outFileSortedRegions regions_test_genes.bed ####计算矩阵
plotHeatap -m matrix.mat.gz -out ExampleHeatmap1.png ###画图
```

理想情况下的TSS富集图:

![](data/attachment/forum/plugin_zhanmishu_markdown/202407/a1836e53de1eac118ab103b8726d18fa_1721618053_8020.webp)


上面介绍了手动计算fragment以及TSS富集。有一个R包可以帮助我们直接完成上面的QC。这个工具包就是ATACseqQC,虽然使用方便;但是个人不太喜欢,因为速度实在是太慢了。有兴趣的同学可以去试试。
页: [1]
查看完整版本: ATAC-seq数据分析(二)