基因组变异注释-利用annovar软件

崔耳又又 发表于 2024-8-19 08:51:00

ResBang生信交流网官方公众号的聊天框可以对网站内容快速检索。有位读者朋友对“annovar”进行检索，发现没有相关文章，所以我赶紧更新了一期有关基因组变异结构注释的文章。

![](data/attachment/forum/plugin_zhanmishu_markdown/202408/05257c49877bd53d2f5b2b0fd227f299_1724028603_2606.jpg)

通常变异检测后会得SNP和Indel变异数据，通过注释可以了解具体哪些等位变异会改变基因结构，哪些发生在基因启动子上，这些信息对下游基因的筛选非常重要。话不多说，我们直接开始教程。

# 1 软件安装

**需要两个软件：gff3ToGenePred和annovar **

**（1）gff3ToGenePred安装**

gff3ToGenePred可直接通过conda安装

```shell
conda install bioconda::ucsc-gff3togenepred
```

**（2）annovar 安装**

我这边直接给到大家一个安装包，大家下载后传到服务器解压即可直接使用

百度网盘链接：[https://pan.baidu.com/s/1CELFS716wGZQQOw6uwZhgA?pwd=2024](https://pan.baidu.com/s/1CELFS716wGZQQOw6uwZhgA?pwd=2024)

提取码：2024

# 2 对基因组建索引

这一步我们需要对参考基因组fasta文件和参考基因组gff3注释文件建索引

参考基因组fasta文件：REF.fa

参考基因组gff3注释文件：REF.gff3

**（1）建一个文件夹用于存放索引文件**

```shell
mkdir annolib
```

**（2）参考基因组gff3注释文件建索引**

```shell
gff3ToGenePred REF.gff3 annolib/reference_refGene.txt
#只需将REF.gff3更改为自己的参考基因组gff3注释文件即可
```

**（3）参考基因组fasta文件建索引**

```shell
perl annovar/retrieve_seq_from_fasta.pl --format refGene --seqfile REF.fa annolib/reference_refGene.txt --out annolib/reference_refGeneMrna.fa
#只需将REF.fa更改为自己的参考基因组fasta文件即可
```

需要注意的是这一步非常容易报错，大家可根据报错信息排除错误，也可在留言区或者ResBang生信交流网问答专区写下你的问题。

# 3 将vcf文件修改为annovar软件输入格式

annovar软件输入格式如下：

![](data/attachment/forum/plugin_zhanmishu_markdown/202408/530b5eac44383de9c54fca001b1c4495_1724028603_7329.jpg)

这一步通过awk即可实现，我这边以SNP.vcf为例

```shell
grep -v '##' snp.vcf | awk '{print $1"\t"$2"\t"$2"\t"$4"\t"$5"\t"$4$4"\t"$5$5}' > snp.avinput
```

# 4 进行变异注释

直接运行以下代码

```shell
perl annovar/annotate_variation.pl \
   -buildver reference \
   snp.avinput \
   annolib/ \
   -geneanno\
   -dbtype refGene\
   -outfile snp.anno
#snp.avinput为输入文件，snp.anno为输出文件前缀
```

# 5 结果解读

结果会输出4个文件：

snp.anno.variant\_function，snp.anno.log，snp.anno.invalid\_input，snp.anno.exonic\_variant\_function

**（1）snp.anno.variant\_function文件为所有snp的变异注释**

![](data/attachment/forum/plugin_zhanmishu_markdown/202408/f2f35684b3fcae77538d945a4daeb0cd_1724028603_1190.jpg)

每一列的信息如下：

A：发生变异的类型

B：发生变异的基因

C：发生变异的染色体

D：发生变异的起始位置

E：发生变异的终止位置

F：REF基因型

G：ALT基因型

H：样本1的基因型

I：样本2的基因型

**（2）snp.anno.exonic\_variant\_function文件为所有发生在外显子上的变异注释**

![](data/attachment/forum/plugin_zhanmishu_markdown/202408/dbd72bf0fb1d627d83e665dd0b84b59b_1724028603_9378.jpg)

每一列的信息如下：

A：输入文件中第几行的变异，注意输入文件的表头也算一行

B：突变类型，如“同义突变”、“非同义突变”、“提前终止”等

**C：发生变异的基因，“**AetAY61\_1Dv1G0000100:AetAY61\_1Dv1G0000100.1:exon1:c.G108C:p.L36K”的意思为发生变异的基因为AetAY61\_1Dv1G0000100，发生变异的转录本为AetAY61\_1Dv1G0000100.1，发生在第一个外显子上，是第108个碱基的G突变位C，导致第36个氨基酸的L突变为K

D-J与上一个文件的C-I一致

页: [1]

ResBang生信交流网's Archiver

基因组变异注释-利用annovar软件