小明的数据分析笔记本 发表于 2024-7-23 21:18:26

snpEff软件注释vcf文件获取变异位点和编码基因的相对关系

## snpEff软件下载链接

[https://sourceforge.net/projects/snpeff/files/](https://sourceforge.net/projects/snpeff/files/)

我下载的是 snpEff_v4_3t_core.zip

软件主页

[http://snpeff.sourceforge.net/SnpEff_manual.html](http://snpeff.sourceforge.net/SnpEff_manual.html)

帮助文档

[http://snpeff.sourceforge.net/protocol.html](http://snpeff.sourceforge.net/protocol.html)

(软件不用安装解压出来就能够使用)

用大肠杆菌的一个数据做练习

在 snpEff.jar 同级目录下新建一个data文件夹

```
mkdir data
cd data
mkdir genomes
mkdir ecoli
```

大肠杆菌基因组和基因注释文件的下载链接

ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/005/845/GCF_000005845.2_ASM584v2/

下载基因组fasta和基因注释文件gff

基因组文件命名为ecoli.fa放在 genomes文件夹下

基因注释文件命名为genes.gff放到ecoli文件夹下

回到snpEff.jar 同级目录 ,运行命令

```
echo "ecoli.genome:ecoli" >> snpEff.config
```

将 `ecoli.genome:ecoli`添加到 `snpEff.config`文件的最后一行

## 构建数据库

```
java -Xmx4G -jar snpEff.jar build -gff3 ecoli
```

在 `data/ecoli`目录下会多出一个 `snpEffectPredictor.bin`文件

## 对vcf文件进行注释

```
java -Xmx4G -jar snpEff.jar ecoli vcf_ann_Practice/E_coli_K12.filter.vcf > E_coli_K12.filter.eff.vcf
```

同时会生成一个 snpEff_summary.html 文件

在新生成的vcf文件里INFO列里会多出来很多信息

vcf文件不是很大的话可以用R语言的vcfR包对信息进行解析

读取vcf文件

```
annoV<-read.vcfR("E_coli_K12.filter.eff.vcf")
```

提取注释的信息

```
vcfR2tidy(annoV)$fix$ANN
```

!(data/attachment/forum/plugin_zhanmishu_markdown/202407/1652df8e5303258f07ecf75445a97791_1721740700_3596.jpg)

这里的内容很多,具体哪些信息有用暂时还没搞清楚

**欢迎大家关注我的公众号**
**小明的数据分析笔记本**

> 小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!
>
页: [1]
查看完整版本: snpEff软件注释vcf文件获取变异位点和编码基因的相对关系