推断祖先染色体序列的流程

小明的数据分析笔记本 发表于 2024-7-26 21:33:44

代码链接

[https://github.com/eriqande/make-ancestral-fasta-snakeflow/tree/main](https://github.com/eriqande/make-ancestral-fasta-snakeflow/tree/main)

这个是一个snakemake的流程

这里推断祖先染色体就是选择一个近缘种的基因组序列，自己的基因组作为参考，近缘种的基因组作为查询序列与参考基因组进行比对，将snp位点的数据替换成近缘种的碱基序列

这里用两个拟南芥的基因组做测试（每个基因组里只用了一条染色体，两个染色体id不能是一样的）

比对代码

这里换成自己的物种数据具体用什么参数还需要仔细看看帮助文档

```
lastz an1.chr1.fa c24.chr1.fa --notransition --step=20 --inner=1000 --identity=90 --gapped --ambiguous=iupac --format=maf --chain > output.maf

```

对maf格式进行简化

```
single_cov2 output.maf > output01.maf

```

maf格式转换为fasta

```
maf2fasta an1.chr1.fa output01.maf fasta > output01.maf.fna

```

输出祖先染色体序列

```

Rscript condense_and_summarise_fastas.R output01.maf.fna output02.fna a.txt b.txt an1chr1
```

第一个参数是输入数据

!(data/attachment/forum/plugin_zhanmishu_markdown/202407/357f77c2b9a3654ab05dbcd868870236_1722000817_2842.jpg)
第二个参数是输出的结果

!(data/attachment/forum/plugin_zhanmishu_markdown/202407/f8ebdebd72dab18ec2b33dfe295bce0b_1722000817_4937.jpg)

第三四个参数没太搞明白是啥

第五个参数是参考基因组的染色体id

页: [1]

ResBang生信交流网's Archiver

推断祖先染色体序列的流程