[基于TBtools做基因家族分析 | 生信部分 | ]()二
「一边学习,一边总结,一边分享!」
三、IA图形美化
美化,我罗列出单个章节进行讲解。表明,是很重要的。以及,图形的美化,需要不断学习和模范大牌期刊的图形类型,以及自己要时刻进行总结和创新。对于创新,这个就比较玄学,每个人的审美不同,逻辑不同,关注点不同.......导致最终看到的点也不同。因此,我们在不是很离谱的创作中,结合自己的审美进行美化即可。**我们要坚信:审美。首先要符合自己,其次,再考虑别人。**只有自己先认同,你才有可能让其他人也认同!
3.1 使用工具
1.推荐使用的工具**:AI、PS**
如果不知道类似软件的,自己百度。
- 如何安装
- 有钱人:购买正版
- 穷人(和我一样):薅羊毛,使用破解版
- 如何获取安装包
在本公众号中回复关键词获得。
或是你自己寻找相关版本的安装包即可。
提示:请自己输入正确的关键词(每次看到有些同学们的关键词,真的很无语......)
3.2 实际操作
- 打开AI,新建图层A4
- 导入进化树,适当调整进化树的宽度和字体大小
- 依次导入的目的基因的motif、基因结构域等图形。并依次按进化树基因名进行排序即可。
- 为后期的图形的整齐性,我们使用参考线进行对齐,便于后期的调整。注意:这里看到我们的motif的图形颜色很难看,这就是前期没有考虑颜色的结果。因此,我一直强调,文章图形颜色统一的重要性,图形颜色搭配合理,你的论文已经成功1/3了。换一种颜色就感觉好多了呀。
- 添加基因结构图添加图形的操作都是一样的,不做多赘述。
- 如何美化 对于美化,每个人的要求不一致,只要符合你的审美即可。我们在这里就直接添加渐变色。
- 新建一个图层 新建图层置于最底层。
- 选择图形工具
- 利用进化树的分支,将其进行分类
- 填充颜色(根据自己的喜好)
- 更改透明图
- 渐变色
- 不透明度:60
- 中间位置:10-50% 结合实际情况调节。
- 最后图形图形很多细节需要自己耐心调节,这里只是做示范,相对比较粗糙。
四、多物种共线分析
共线分析依旧是使用TBtools,哈哈哈哈,做基因家族TBtools可以帮你完成80%的生信分析。毫不夸张!!!!! TBtools共线分析的教程很多,我们以零基础多物种间共线性分析教程作为参考(也不是作为参考了,是直接按他的步骤进行操作)。其他参考教程:全基因组共线性分析、无限个!物种共线性分析结果可视化、任何人!一键完成物种间的共线性分析与可视化。
4.1 需要文件
- 参考基因组fa文件
- 注释文件GFF or GTF
TBtools可以对无限个作物进行共线分析,牛!!!
4.2 染色体统一命名
在这个教程中,有这样的一个步骤,如果你需要,你就进行操作。
- gtf文件进行ID prefix
-
3. fa文件进行ID prefix
4.3 实操
- 打开one step MCScanx小程序
- 输入两个作物的文件信息
- 点击开始Start
- 如果是多个作物,那么依次进行两两比较。比如:共线结果是以这样的顺序:Tomato-LA-Arabidopsis
比对顺序:
- 比对结果GFF文件合并
- 打开Text Merge for MCScanX程序合并多个的MCScanX的结果文件中的GFF文件拖拽文件
6.比对结果ChrLayout.tab.xls文件合并7. 比对结果geneLinks.tab.xls文件合并同上操作! 8. 合并文件 最终获得以下3个文件,用于绘制图形。9. 要在共线中显色的基因ID
Solyc03g062790.3.1
Solyc10g018590.2.1
Solyc01g104320.4.1
Solyc03g083420.4.1
AT4G22240.1
AT2G35490.1
AT1G51110.1
AT5G53450.3
........
- 绘图。打开Multiple synteny plot输入参数输出图形
注意,在输出图形中,我们可以看到作物染色体位置是有改变的。那么,如何更改呢?回答:直接更改Chr文件即可。更改这里的顺序即可!
五、同源目标基因元件预测
目标基因的元件预测,我们这里主要介绍使用两个网站进行。
5.1 提取目标基因上游2000bp
参考教程顺式作用元件预测和新的可视化方式、植物启动子-顺式作用元件-批量提取-预测-可视化分析,同样是使用TBtools操作。
- 需要文件
- 作物参考基因组fa文件
- 注释文件GFF or GTF
- 目标基因ID
- 直接使用TBtools中的Gtf /Gff3 Sequences Extractor获得每个基因的fa序列输出文件点击Initalize,选择CDS选择上游2000bp的fa序列
- 目标基因的fa序列,打开Fasta Extract or Filter (Quick)输出结果文件:
- 查看信息是否正确,打开Fasta Stats
- 转换序列(全部为大写),打开Sequence Manipulate (Rev&Comp
5.2 提交预测网址进行顺式作用预测
预测,这里使用两个网站进行预测,分别是PlantCare和PLCAE。
5.2.1 使用Plantcare进行预测
网址:http://bioinformatics.psb.ugent.be/webtools/plantcare/html/
- 上传序列后,Plant可以提供你自己的邮箱,运行结束后,结果直接发送到你的邮箱中。
- 邮箱中获得结果,根据你的序列多少,10分钟以上吧!
- 结果
- 使用execl打开后
1. 基因ID;
2. 顺式作用元件名称;
3. 顺式作用元件序列;
4. 顺式作用元件的起始位置;
5. 顺式作用元件的长度;
6. 顺式作用元件所在的链的方向;
7. 物种名;
8. 顺式作用元件所在的功能分类;
删除某些不需要的结果: 需要删除:
1. 剔除第2列为空的行
2. 剔除第2列为unnamed的行
3. 最后一列,无功能作用的
具体删除的数据,根据自己的分析来做。最后,可以删除掉1000行以内
-- 来自顺式作用元件预测和新的可视化方式,这个意见有重要的参考意义。如果不合并,导致元件的作用太多,绘制出的图形颜色太杂,且不好看。5. 绘图绘图前还需要准备基因的长度文件输入数据,设置参数结果:在TBtools中也可以输入进化树文件。
我们这里也可以使用的起那么AI中的呢进化树进行模板进行美化。
5.2.2 PLACE进行预测
网址:https://www.dna.affrc.go.jp/PLACE/?action=newplace
- 缺点:PLACE一次最大只能输入20条基因序列,有一定的限制性。获得结果为网页版,如要整理,只能手动整理或使用脚本进行整理。
- 优点:速度快!
- 获得结果每个基因为单独的,需要自己整理。
- 只给元件名称、开始位置、序列、功能(SITE,需要点击进去才可以看到)
- 整理,单独粘贴复制到execl中,并使用脚本进行整理。
选择哪个网站进行预测,取决于自己。只要结果符合我们自己的预期结果即可!!!
5.2.3 热图可视化
输入数据格式如下(可以根据自己的情况筛选):脚本:
install.packages('tidyverse')
intall.packages('RColorBrewer')
# 加载包
library(tidyverse)
library(RColorBrewer)
# 1.读取数据
df <- read_tsv('data.txt', col_names = F) %>% select(1,2)
# 2.整理数据
tidy <- df %>%
group_by(X1, X2) %>%
summarise(number = n()) %>%
arrange(desc(number))
# 3.查看数量分布,确定配色个数
summary(tidy$number)
# 最大值为9,所以下面的代码 hcl.colors(9, "RdYlGn")中为9
# 4.画图
ggplot(tidy, aes(x = X2, y = X1, fill = number)) +
geom_tile(color = 'black') +
geom_text(aes(label = number),col='black',cex = 1.5) +
scale_fill_gradientn(colors = rev(hcl.colors(9, "RdYlGn"))) +
scale_x_discrete(position = "top")+
theme_bw() +
theme(axis.text.x = element_text(angle = 90, hjust = 0),
axis.title = element_blank(),
axis.text = element_text(size = 7, color = 'black'))
# 通过修改 scale_fill_gradientn参数给每一个值指定颜色
cc <- c('#d9d9d9', '#f7fcb9', '#d9f0a3', '#addd8e', '#78c679', '#feb24c', '#fd8d3c', '#fc4e2a', '#b10026')
ggplot(tidy, aes(x = X2, y = X1, fill = number)) +
geom_tile(color = 'black') +
geom_text(aes(label = number),col='black',cex = 2.5) +
scale_fill_gradientn(colors = cc) +
scale_x_discrete(position = "top")+
theme_bw() +
theme(axis.text.x = element_text(angle = 90, hjust = 0),
axis.title = element_blank(),
axis.text = element_text(size = 7, color = 'black'))
5.2.4 美化
基于AI进行美化,方法同上
六 ENDING
说实话,基因家族的文章分析确实消耗的时间和精力不算是很多。生信部分就差不多这些吧!再加上一些组学的数据来验证即可。除了生信的部分,剩余就是实验来验证,将两者进行结合,好一点的文章也可以发。我自己前面没有接触过基因家族的分析,因此,本次就是现学现做,做的还是比较简单。
本次来接触基因家族的分析,感触最深的就是,TBtools真的很强大。基因家族的分析、画图都可以使用它来完成。不得了啊,真的是将做生信的门槛一降再降,点赞点赞
本期内容是自己的做了一个整理,算是“教程搬运工”,也是自己在做分析后做的总结。自己不知道,这次分析后,多久以后还能涉及基因家族的分析。总结总结!! 但是,说实话!这个总结也花费自己很长的时间,如果你想获得这个教程的文本文档,可以“喜欢点赞,支持”,我在后台看到后会第一时间将文档链接发给你!!
若我们的教程对你有所帮助,请点赞+收藏+转发,这是对我们最大的支持。
往期部分文章
「1. 最全WGCNA教程(替换数据即可出全部结果与图形)」
「2. 精美图形绘制教程」
「3. 转录组分析教程」
「4. 转录组下游分析」
「小杜的生信筆記」 ,主要发表或收录生物信息学教程,以及基于R分析和可视化(包括数据分析,图形绘制等);分享感兴趣的文献和学习资料!!