崔耳又又 发表于 2024-8-19 08:51:00

基因组变异注释-利用annovar软件

ResBang生信交流网官方公众号的聊天框可以对网站内容快速检索。有位读者朋友对“annovar”进行检索,发现没有相关文章,所以我赶紧更新了一期有关基因组变异结构注释的文章。

![](data/attachment/forum/plugin_zhanmishu_markdown/202408/05257c49877bd53d2f5b2b0fd227f299_1724028603_2606.jpg)

通常变异检测后会得SNP和Indel变异数据,通过注释可以了解具体哪些等位变异会改变基因结构,哪些发生在基因启动子上,这些信息对下游基因的筛选非常重要。话不多说,我们直接开始教程。

# 1 软件安装

**需要两个软件:gff3ToGenePred和annovar **

**(1)gff3ToGenePred安装**

gff3ToGenePred可直接通过conda安装

```shell
conda install bioconda::ucsc-gff3togenepred
```

**(2)annovar 安装**

我这边直接给到大家一个安装包,大家下载后传到服务器解压即可直接使用

百度网盘链接:[https://pan.baidu.com/s/1CELFS716wGZQQOw6uwZhgA?pwd=2024](https://pan.baidu.com/s/1CELFS716wGZQQOw6uwZhgA?pwd=2024)

提取码:2024

# 2 对基因组建索引

这一步我们需要对参考基因组fasta文件和参考基因组gff3注释文件建索引

参考基因组fasta文件:REF.fa

参考基因组gff3注释文件:REF.gff3

**(1)建一个文件夹用于存放索引文件**

```shell
mkdir annolib
```

**(2)参考基因组gff3注释文件建索引**

```shell
gff3ToGenePred REF.gff3 annolib/reference_refGene.txt
#只需将REF.gff3更改为自己的参考基因组gff3注释文件即可
```

**(3)参考基因组fasta文件建索引**

```shell
perl annovar/retrieve_seq_from_fasta.pl --format refGene --seqfile REF.fa annolib/reference_refGene.txt --out annolib/reference_refGeneMrna.fa
#只需将REF.fa更改为自己的参考基因组fasta文件即可
```

需要注意的是这一步非常容易报错,大家可根据报错信息排除错误,也可在留言区或者ResBang生信交流网问答专区写下你的问题。

# 3 将vcf文件修改为annovar软件输入格式

annovar软件输入格式如下:

![](data/attachment/forum/plugin_zhanmishu_markdown/202408/530b5eac44383de9c54fca001b1c4495_1724028603_7329.jpg)

这一步通过awk即可实现,我这边以SNP.vcf为例

```shell
grep -v '##' snp.vcf | awk '{print $1"\t"$2"\t"$2"\t"$4"\t"$5"\t"$4$4"\t"$5$5}' > snp.avinput
```

# 4 进行变异注释

直接运行以下代码

```shell
perl annovar/annotate_variation.pl \
      -buildver reference \
      snp.avinput \
      annolib/ \
      -geneanno\
      -dbtype refGene\
      -outfile snp.anno
#snp.avinput为输入文件,snp.anno为输出文件前缀
```

# 5 结果解读

结果会输出4个文件:

snp.anno.variant\_function,snp.anno.log,snp.anno.invalid\_input,snp.anno.exonic\_variant\_function

**(1)snp.anno.variant\_function文件为所有snp的变异注释**

![](data/attachment/forum/plugin_zhanmishu_markdown/202408/f2f35684b3fcae77538d945a4daeb0cd_1724028603_1190.jpg)

每一列的信息如下:

A:发生变异的类型

B:发生变异的基因

C:发生变异的染色体

D:发生变异的起始位置

E:发生变异的终止位置

F:REF基因型

G:ALT基因型

H:样本1的基因型

I:样本2的基因型

**(2)snp.anno.exonic\_variant\_function文件为所有发生在外显子上的变异注释**

![](data/attachment/forum/plugin_zhanmishu_markdown/202408/dbd72bf0fb1d627d83e665dd0b84b59b_1724028603_9378.jpg)

每一列的信息如下:

A:输入文件中第几行的变异,注意输入文件的表头也算一行

B:突变类型,如“同义突变”、“非同义突变”、“提前终止”等

**C:发生变异的基因,“**AetAY61\_1Dv1G0000100:AetAY61\_1Dv1G0000100.1:exon1:c.G108C:p.L36K”的意思为发生变异的基因为AetAY61\_1Dv1G0000100,发生变异的转录本为AetAY61\_1Dv1G0000100.1,发生在第一个外显子上,是第108个碱基的G突变位C,导致第36个氨基酸的L突变为K

D-J与上一个文件的C-I一致
页: [1]
查看完整版本: 基因组变异注释-利用annovar软件