小明的数据分析笔记本 发表于 2024-7-18 20:17:30

使用lastz软件对两条序列进行比对并分析snp和indel

## 代码来源于论文

> A complex phenotype in salmon controlled by a simple change in migratory timing

lastz和multiz可以通过conda进行安装

我用拟南芥的基因组做测试

运行脚本

```
bash ~/my_data/raw_data/practice/science.salmon/lastz_seed_and_chain.sh abc an1chr1 c24chr1 an1.chr1.fa c24.chr1.fa
```

第一个位置参数是输出文件夹

第二个位置参数是需要比对的基因组序列id (target)

第三个位置参数是需要比对的基因组序列id(query)

第四个位置参数是需要比对的基因组(target)

第五个位置参数是需要比对的基因组(query)

(2 3 位置参数序列id不能是一样的,如果两个序列id一样就会报错,我在这里搞了好长时间)

输出的内容

!(data/attachment/forum/plugin_zhanmishu_markdown/202407/a3bab0aec3eea336bcaa44b54b208f49_1721305042_7325.jpg)

001.column是参考的结果

002.column是查询的结果

## 接下来是R语言的代码

```
source("extract_variants_between_two_seqs.R")
library(tidyverse)

tq_seqs<-tibble(ts=toupper(read_lines("abc/tmp_step=20_notransition_inner=1000_identity=97.001.column")),qs=toupper(read_lines("abc/tmp_step=20_notransition_inner=1
    000_identity=97.002.column")))

chrom28_narum_variants <- extract_variants_between_two_seqs(tq_seqs)
```

!(data/attachment/forum/plugin_zhanmishu_markdown/202407/b40a70544fc8afdb932396d853437506_1721305042_1080.jpg)

extract_variants_between_two_seqs.R 这个脚本的内容可以在 [https://eriqande.github.io/thompson-et-al-2020-chinook-salmon-migration-timing/003-extract-johnson-creek-variants.html](https://eriqande.github.io/thompson-et-al-2020-chinook-salmon-migration-timing/003-extract-johnson-creek-variants.html) 链接处查看

**欢迎大家关注我的公众号**
**小明的数据分析笔记本**

> 小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!
>
页: [1]
查看完整版本: 使用lastz软件对两条序列进行比对并分析snp和indel