snpEff软件注释vcf文件获取变异位点和编码基因的相对关系

基因组 基因组 435 人阅读 | 0 人回复 | 2024-07-23

snpEff软件下载链接

https://sourceforge.net/projects/snpeff/files/

我下载的是 snpEff_v4_3t_core.zip

软件主页

http://snpeff.sourceforge.net/SnpEff_manual.html

帮助文档

http://snpeff.sourceforge.net/protocol.html

(软件不用安装解压出来就能够使用)

用大肠杆菌的一个数据做练习

在 snpEff.jar 同级目录下新建一个data文件夹

mkdir data
cd data
mkdir genomes
mkdir ecoli

大肠杆菌基因组和基因注释文件的下载链接

ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/005/845/GCF_000005845.2_ASM584v2/

下载基因组fasta和基因注释文件gff

基因组文件命名为ecoli.fa放在 genomes文件夹下

基因注释文件命名为genes.gff放到ecoli文件夹下

回到 snpEff.jar 同级目录 ,运行命令

echo "ecoli.genome:ecoli" >> snpEff.config

ecoli.genome:ecoli添加到 snpEff.config文件的最后一行

构建数据库

java -Xmx4G -jar snpEff.jar build -gff3 ecoli

data/ecoli目录下会多出一个 snpEffectPredictor.bin文件

对vcf文件进行注释

java -Xmx4G -jar snpEff.jar ecoli vcf_ann_Practice/E_coli_K12.filter.vcf > E_coli_K12.filter.eff.vcf

同时会生成一个 snpEff_summary.html 文件

在新生成的vcf文件里INFO列里会多出来很多信息

vcf文件不是很大的话可以用R语言的vcfR包对信息进行解析

读取vcf文件

annoV<-read.vcfR("E_coli_K12.filter.eff.vcf")

提取注释的信息

vcfR2tidy(annoV)$fix$ANN

image.png

这里的内容很多,具体哪些信息有用暂时还没搞清楚

欢迎大家关注我的公众号 小明的数据分析笔记本

小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!

微信扫一扫分享文章

+10
无需登陆也可“点赞”支持作者
分享到:
评论

使用道具 举报

热门推荐