Samtools和GATK去除PCR重复方法汇总
# 1. 为什么要去除重复?在建库测序后, 加上接头的DNA片段进行PCR扩增(由于连接flowcell的效率很低,所以需要对片段进行扩增),连接至flowcell上。PCR扩增会导致一个片段会测序多次,当该片段存在变异位点时,如果不去除重复片段则会增加该位点的测序深度,会被分析为真的变异位点,从而增加假阳性率。
## 2. 去除PCR重复方法
使用工具:**samtools**和**picard** (已被整合至GATK中,本人使用版本4.2)
!(data/attachment/forum/plugin_zhanmishu_markdown/202409/3565459c70dac14d8fe66ef73159bc1a_1725165294_6306.png)
### 2.1 利用FLAG值去除重复
-F参数1024表示过滤PCR重复或光学重复reads,具体FLAG含义参考下列图示:
![图片.png](data/attachment/forum/202409/01/123629bcvv0tcyuqyuqk9z.png "图片.png")
```bash
# f提取,F过滤
samtools view -F 1024 - h sample.bam > sample.rmdup.sam
```
## 2.2 利用samtools rmdup标记或去除重复
```bash
# 去除重复
samtools rmdup sample.bam sample.rmdup.bam
# 只标记重复,不去除
samtools markdup sample.bam sample.markdup.bam
# 标记重复后去除重复
samtools markdup -r sample.bam sample.markdup.bam
```
### 2.3 利用gatk MarkDuplicate 标记或去除重复
```bash
# 标记重复
gatk MarkDuplicate I=sample.sorted.bam O=sample.mkdup.bam M=metrics.txt
# 标记后去除重复
gatkMarkDuplicate REMOVE_DUPLICATES I=sample.sorted.bam O=sample.mkdup.bam M=metrics.txt
```
页:
[1]