使用lastz软件对两条序列进行比对并分析snp和indel

基因组 基因组 270 人阅读 | 0 人回复 | 2024-07-18

代码来源于论文

A complex phenotype in salmon controlled by a simple change in migratory timing

lastz和multiz可以通过conda进行安装

我用拟南芥的基因组做测试

运行脚本

bash ~/my_data/raw_data/practice/science.salmon/lastz_seed_and_chain.sh abc an1chr1 c24chr1 an1.chr1.fa c24.chr1.fa

第一个位置参数是输出文件夹

第二个位置参数是需要比对的基因组序列id (target)

第三个位置参数是需要比对的基因组序列id(query)

第四个位置参数是需要比对的基因组(target)

第五个位置参数是需要比对的基因组(query)

(2 3 位置参数序列id不能是一样的,如果两个序列id一样就会报错,我在这里搞了好长时间)

输出的内容

image.png

001.column是参考的结果

002.column是查询的结果

接下来是R语言的代码

source("extract_variants_between_two_seqs.R")
library(tidyverse)

tq_seqs<-tibble(ts=toupper(read_lines("abc/tmp_step=20_notransition_inner=1000_identity=97.001.column")),qs=toupper(read_lines("abc/tmp_step=20_notransition_inner=1
    000_identity=97.002.column")))

chrom28_narum_variants <- extract_variants_between_two_seqs(tq_seqs)

image.png

extract_variants_between_two_seqs.R 这个脚本的内容可以在 https://eriqande.github.io/thompson-et-al-2020-chinook-salmon-migration-timing/003-extract-johnson-creek-variants.html 链接处查看

欢迎大家关注我的公众号 小明的数据分析笔记本

小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!

微信扫一扫分享文章

+10
无需登陆也可“点赞”支持作者
分享到:
评论

使用道具 举报

热门推荐