基于TBtools做基因家族分析 | 生信部分 | 三

数据可视化 数据可视化 384 人阅读 | 0 人回复 | 2024-06-27

原文链接:基因 TBtools 做基因家族分析 | 生信部分


基于 TBtools 做基因家族分析 | 生信部分 | 一

[基于TBtools做基因家族分析 | 生信部分 | ]()二


「一边学习,一边总结,一边分享!」

原文链接:基因 TBtools 做基因家族分析 | 生信部分

三、IA图形美化

美化,我罗列出单个章节进行讲解。表明,是很重要的。以及,图形的美化,需要不断学习和模范大牌期刊的图形类型,以及自己要时刻进行总结和创新。对于创新,这个就比较玄学,每个人的审美不同,逻辑不同,关注点不同.......导致最终看到的点也不同。因此,我们在不是很离谱的创作中,结合自己的审美进行美化即可。**我们要坚信:审美。首先要符合自己,其次,再考虑别人。**只有自己先认同,你才有可能让其他人也认同!

3.1 使用工具

1.推荐使用的工具**:AI、PS**

如果不知道类似软件的,自己百度。

  1. 如何安装
  • 有钱人:购买正版
  • 穷人(和我一样):薅羊毛,使用破解版
  1. 如何获取安装包

在本公众号中回复关键词获得。

  • PS安装包关键词:PS
  • AI安装包关键词:AI

或是你自己寻找相关版本的安装包即可。

提示:请自己输入正确的关键词(每次看到有些同学们的关键词,真的很无语......)


3.2 实际操作

  1. 打开AI,新建图层A4
  2. 导入进化树,适当调整进化树的宽度和字体大小
  3. 依次导入的目的基因的motif、基因结构域等图形。并依次按进化树基因名进行排序即可。
  4. 为后期的图形的整齐性,我们使用参考线进行对齐,便于后期的调整。注意:这里看到我们的motif的图形颜色很难看,这就是前期没有考虑颜色的结果。因此,我一直强调,文章图形颜色统一的重要性,图形颜色搭配合理,你的论文已经成功1/3了。换一种颜色就感觉好多了呀。
  5. 添加基因结构图添加图形的操作都是一样的,不做多赘述。
  6. 如何美化 对于美化,每个人的要求不一致,只要符合你的审美即可。我们在这里就直接添加渐变色。
  7. 新建一个图层 新建图层置于最底层。
  8. 选择图形工具
  9. 利用进化树的分支,将其进行分类
  10. 填充颜色(根据自己的喜好)
  11. 更改透明图
  12. 渐变色
  • 不透明度:60
  • 中间位置:10-50% 结合实际情况调节。
  1. 最后图形图形很多细节需要自己耐心调节,这里只是做示范,相对比较粗糙。

四、多物种共线分析

共线分析依旧是使用TBtools,哈哈哈哈,做基因家族TBtools可以帮你完成80%的生信分析。毫不夸张!!!!! TBtools共线分析的教程很多,我们以零基础多物种间共线性分析教程作为参考(也不是作为参考了,是直接按他的步骤进行操作)。其他参考教程:全基因组共线性分析无限个!物种共线性分析结果可视化任何人!一键完成物种间的共线性分析与可视化

4.1 需要文件

  1. 参考基因组fa文件
  2. 注释文件GFF or GTF

TBtools可以对无限个作物进行共线分析,牛!!!

4.2 染色体统一命名

在这个教程中,有这样的一个步骤,如果你需要,你就进行操作。

  1. gtf文件进行ID prefix

3. fa文件进行ID prefix

4.3 实操

  1. 打开one step MCScanx小程序
  2. 输入两个作物的文件信息
  3. 点击开始Start
  4. 如果是多个作物,那么依次进行两两比较。比如:共线结果是以这样的顺序:Tomato-LA-Arabidopsis

比对顺序:

  • Tomato-LA
  • LA-Arabidopsis
  1. 比对结果GFF文件合并
  • 打开Text Merge for MCScanX程序合并多个的MCScanX的结果文件中的GFF文件拖拽文件

6.比对结果ChrLayout.tab.xls文件合并7. 比对结果geneLinks.tab.xls文件合并同上操作! 8. 合并文件 最终获得以下3个文件,用于绘制图形。9. 要在共线中显色的基因ID

Solyc03g062790.3.1
Solyc10g018590.2.1
Solyc01g104320.4.1
Solyc03g083420.4.1
AT4G22240.1
AT2G35490.1
AT1G51110.1
AT5G53450.3
........
  1. 绘图。打开Multiple synteny plot输入参数输出图形

注意,在输出图形中,我们可以看到作物染色体位置是有改变的。那么,如何更改呢?回答:直接更改Chr文件即可。更改这里的顺序即可!

五、同源目标基因元件预测

目标基因的元件预测,我们这里主要介绍使用两个网站进行。

5.1 提取目标基因上游2000bp

参考教程顺式作用元件预测和新的可视化方式植物启动子-顺式作用元件-批量提取-预测-可视化分析,同样是使用TBtools操作。

  1. 需要文件
  • 作物参考基因组fa文件
  • 注释文件GFF or GTF
  • 目标基因ID
  1. 直接使用TBtools中的Gtf /Gff3 Sequences Extractor获得每个基因的fa序列输出文件点击Initalize,选择CDS选择上游2000bp的fa序列
  2. 目标基因的fa序列,打开Fasta Extract or Filter (Quick)输出结果文件:
  3. 查看信息是否正确,打开Fasta Stats
  4. 转换序列(全部为大写),打开Sequence Manipulate (Rev&Comp

5.2 提交预测网址进行顺式作用预测

预测,这里使用两个网站进行预测,分别是PlantCarePLCAE

5.2.1 使用Plantcare进行预测

网址:http://bioinformatics.psb.ugent.be/webtools/plantcare/html/

  1. 上传序列后,Plant可以提供你自己的邮箱,运行结束后,结果直接发送到你的邮箱中。
  2. 邮箱中获得结果,根据你的序列多少,10分钟以上吧!
  3. 结果
  4. 使用execl打开后
1. 基因ID;
2. 顺式作用元件名称;
3. 顺式作用元件序列;
4. 顺式作用元件的起始位置;
5. 顺式作用元件的长度;
6. 顺式作用元件所在的链的方向;
7. 物种名;
8. 顺式作用元件所在的功能分类;

删除某些不需要的结果: 需要删除:

1. 剔除第2列为空的行
2. 剔除第2列为unnamed的行
3. 最后一列,无功能作用的

具体删除的数据,根据自己的分析来做。最后,可以删除掉1000行以内

-- 来自顺式作用元件预测和新的可视化方式,这个意见有重要的参考意义。如果不合并,导致元件的作用太多,绘制出的图形颜色太杂,且不好看。5. 绘图绘图前还需要准备基因的长度文件输入数据,设置参数结果:在TBtools中也可以输入进化树文件。


我们这里也可以使用的起那么AI中的呢进化树进行模板进行美化。

5.2.2 PLACE进行预测

网址:https://www.dna.affrc.go.jp/PLACE/?action=newplace

  • 缺点:PLACE一次最大只能输入20条基因序列,有一定的限制性。获得结果为网页版,如要整理,只能手动整理或使用脚本进行整理。
  • 优点:速度快!
  1. 获得结果每个基因为单独的,需要自己整理。
  • 只给元件名称、开始位置、序列、功能(SITE,需要点击进去才可以看到)
  • 整理,单独粘贴复制到execl中,并使用脚本进行整理。

选择哪个网站进行预测,取决于自己。只要结果符合我们自己的预期结果即可!!!


5.2.3 热图可视化

输入数据格式如下(可以根据自己的情况筛选):脚本:

install.packages('tidyverse')
intall.packages('RColorBrewer')

# 加载包
library(tidyverse)
library(RColorBrewer)

# 1.读取数据
df <- read_tsv('data.txt', col_names = F) %>% select(1,2)

# 2.整理数据
tidy <- df %>% 
  group_by(X1, X2) %>% 
  summarise(number = n()) %>%
  arrange(desc(number))

# 3.查看数量分布,确定配色个数
summary(tidy$number)
# 最大值为9,所以下面的代码 hcl.colors(9, "RdYlGn")中为9

# 4.画图
  ggplot(tidy, aes(x = X2, y = X1, fill = number)) +
  geom_tile(color = 'black') +
  geom_text(aes(label = number),col='black',cex = 1.5) +
  scale_fill_gradientn(colors = rev(hcl.colors(9, "RdYlGn"))) +
  scale_x_discrete(position = "top")+
  theme_bw() +
  theme(axis.text.x = element_text(angle = 90, hjust = 0),
        axis.title = element_blank(),
        axis.text = element_text(size = 7, color = 'black'))

# 通过修改 scale_fill_gradientn参数给每一个值指定颜色
cc <- c('#d9d9d9', '#f7fcb9', '#d9f0a3', '#addd8e', '#78c679', '#feb24c', '#fd8d3c', '#fc4e2a', '#b10026')

ggplot(tidy, aes(x = X2, y = X1, fill = number)) +
  geom_tile(color = 'black') +
  geom_text(aes(label = number),col='black',cex = 2.5) +
  scale_fill_gradientn(colors = cc) +
  scale_x_discrete(position = "top")+
  theme_bw() +
  theme(axis.text.x = element_text(angle = 90, hjust = 0),
        axis.title = element_blank(),
        axis.text = element_text(size = 7, color = 'black'))

5.2.4 美化

基于AI进行美化,方法同上


六 ENDING

说实话,基因家族的文章分析确实消耗的时间和精力不算是很多。生信部分就差不多这些吧!再加上一些组学的数据来验证即可。除了生信的部分,剩余就是实验来验证,将两者进行结合,好一点的文章也可以发。我自己前面没有接触过基因家族的分析,因此,本次就是现学现做,做的还是比较简单。

本次来接触基因家族的分析,感触最深的就是,TBtools真的很强大。基因家族的分析、画图都可以使用它来完成。不得了啊,真的是将做生信的门槛一降再降,点赞点赞


本期内容是自己的做了一个整理,算是“教程搬运工”,也是自己在做分析后做的总结。自己不知道,这次分析后,多久以后还能涉及基因家族的分析。总结总结!! 但是,说实话!这个总结也花费自己很长的时间,如果你想获得这个教程的文本文档,可以“喜欢点赞,支持”,我在后台看到后会第一时间将文档链接发给你!!

若我们的教程对你有所帮助,请点赞+收藏+转发,这是对我们最大的支持。

原文链接:基因 TBtools 做基因家族分析 | 生信部分

往期部分文章

「1. 最全WGCNA教程(替换数据即可出全部结果与图形)」


「2. 精美图形绘制教程」

「3. 转录组分析教程」

「4. 转录组下游分析」

「小杜的生信筆記」 ,主要发表或收录生物信息学教程,以及基于R分析和可视化(包括数据分析,图形绘制等);分享感兴趣的文献和学习资料!!

微信扫一扫分享文章

+10
无需登陆也可“点赞”支持作者
分享到:
评论

使用道具 举报

热门推荐