RNA-seq数据分析

转录组 转录组 275 人阅读 | 0 人回复 | 2024-06-07

目前大家常做的测序主要就是RNA-seq的测序,在之前介绍了二代测序的文库结构(不知道的同学可以往前一章看一下)。那接下来的处理就是对该文库的处理。

首先因为测序的时候在文库的两端添加了接头序列;同时测序的时候并不是每一个碱基都会准确测得(因为拍照的时候可能会出现光重叠现象)这些碱基会被标记为N或者一个比较低的质量;另外,这个接头序列是人为添加的,并不是生物体本身的。因此我们需要将这些碱基进行去除,在此我们使用fastp进行过滤:

fastp -i fq1 -I fq2 -o out1 -O out2 -w 16 

这个过滤方式已经可以使用于绝大多数的测序过滤,当然如果是特殊文库就需要进行特殊的过滤,大家可以去查阅其使用手册。

好了,现在大家拿到了干净的测序数据。但是我们需要知道基因在这个样本中的表达量,那怎么办呢?我们现在有的是一堆序列数据,因此我们需要将其比对到参考基因组上,这样我们就知道这个测序里面包含了哪些基因(虽然有无参定量,但是这里主要介绍有参定量,这是ENCODE使用的方式),随后对这些基因进行定量就可以了;我们使用STAR进行比对:

STAR --genomeDir /sdd/xujiahao/RNA-seq/star_mm38_index\
    --readFilesIn $fq1 $fq2 \
    --runThreadN 20 \
    --genomeLoad NoSharedMemory \
    --outFilterMultimapNmax 20 \
    --alignSJoverhangMin 8 \
    --alignSJDBoverhangMin 1 \
    --outFilterMismatchNmax 999 \
    --outFilterMismatchNoverReadLmax 0.04 \
    --alignIntronMin 20 \
    --alignIntronMax 1000000 \
    --alignMatesGapMax 1000000 \
    --outSAMheaderCommentFile COfile.txt \
    --outSAMheaderHD @HD VN:1.4 SO:coordinate \
    --outSAMunmapped Within \
    --outFilterType BySJout \
    --outSAMattributes NH HI AS NM MD \
    --outSAMtype BAM SortedByCoordinate \
    --quantMode TranscriptomeSAM \
    --sjdbScore 1 \
    --readFilesCommand zcat \
    --outFileNamePrefix $name \
    --limitBAMsortRAM 30000000000

其中--genomeDir参数是STAR的索引,这个需要大家根据自己的物种去构建,具体构建方式可以查阅使用手册。

经过这一步我们就把散乱的测序数据比对到了基因组上,随后我们需要进行定量。如何定量呢?其实就是数在这个基因上有多少被这个测序数据覆盖(比对的作用就在这里)。我们使用RSEM进行定量:

rsem-calculate-expression --bam --estimate-rspd --calc-ci -p 15 --no-bam-output --forward-prob 0.5 --paired-end bam  index out

这样就会得到后续的定量数据了,RSEM定量的好处会给出原始的count,以及fpkm,TPM数据。这些数据被用于不同的后续分析中。

原始count:就是在这个基因上有多少测序读断被覆盖到。

fpkm:由于基因之间的长度是不同的,所以越长的基因原始的count就越多;另外,一方面测序的深度也会有影响;例如一个样本测了100条reads,另外一个测了1000条reads,这样肯定导致原始的count数量不一致。因此fpkm把这两个因素作为分母,这样就得到了一个归一化的数据(很多文献使用该数据进行样本间的比较)。

TPM:可以理解为fpkm的升级版。举个例子你在某个中学的考试得了90分,你的同学在另一个中学考试得了95分;那么你的同学的成绩比你好吗?当然不一定,因为考试难度有差异。所以我们可以使用百分比来解决这个问题,比如你是这个中学的前5%,而你的同学在那个中学是前10%;这就说明在自己相应的中学里,你的排名更好。TPM就是干这个活,只是它乘以1000000,把百分号消除了。

微信扫一扫分享文章

+10
无需登陆也可“点赞”支持作者
分享到:
评论

使用道具 举报

生物信息总监
6 积分
6 主题
+ 关注
热门推荐