单细胞RNA测序(scRNA-seq)Cellranger流程入门和数据质控

单细胞测序 单细胞测序 672 人阅读 | 0 人回复 | 2024-07-06

单细胞 RNA 测序入门可以查看以下文章:

单细胞 RNA 测序(scRNA-seq)工作流程入门

单细胞 RNA 测序(scRNA-seq)细胞分离与扩增

单细胞RNA测序(scRNA-seq)SRA数据下载及fastq-dumq数据拆分

1. 单细胞RNA-seq样本数据说明

样本数据来源文章:Acquired cancer resistance to combination immunotherapy from transcriptional loss of class I HLA(由I类HLA转录丢失引起的对联合免疫疗法的获得性癌症抗性)

文章链接:https://www.nature.com/articles/s41467-018-06300-3

患者2586-4和9245-3样本Cell ranger的使用 数据GSE信息

2. 单细胞数据下载

根据上述文章可用性部分描述,文章在NCBI 的GEO数据库中编号分为为GSE117988和GSE118056。

GSE117988https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE117988 GSE118056https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE118056

下载GEO数据库SRA数据参考文章:单细胞RNA测序(scRNA-seq)SRA数据下载及fastq-dumq数据拆分

2.1 SRR_Acc_List.txt

SRR_Acc_List.txt文件内容如下:

SRR7722937
SRR7722938
SRR7722939
SRR7722940
SRR7722941
SRR7722942
SRR7692286
SRR7692287
SRR7692288
SRR7692289

2.2 SRA数据下载和fastq-dump拆分

此步骤时间漫长,需要长时间等待,可以后台运行。

# conda install -c bioconda sra-tools 
​
# 后台下载
nohup  prefetch --option-file SRR_Acc_List.txt &
​
# 批量拆分sra文件为fastq.gz
cat SRR_Acc_List.txt|while read srr; do (fastq-dump --gzip --split-files -A $srr ${srr}.sra); done

数据下载输出信息

2.2 拆分fastq数据重命名

sh rename_fastq.sh 运行脚本。

# rename_fastq.sh
cat SRR_Acc_List.txt| while read srr;
do 
    mv ${srr}_1*.gz ${srr}_S1_L001_I1_001.fastq.gz
    mv ${srr}_2*.gz ${srr}_S1_L001_R1_001.fastq.gz
    mv ${srr}_3*.gz ${srr}_S1_L001_R2_001.fastq.gz
done

重命名后结果

3. 单细胞测序数据质控

使用fastqc对拆分后的fastq文件进行质控。

# fastqc软件安装
conda install fastqc -y

3. 1 单细胞数据批量质控

文件名:fastqc.sh Linux 执行 **sh fastqc.sh** 运行脚本

# fastqc.sh
# 创建目录
mkdir {rawdata,qc}
​
# 将*fastq.gz结尾的文件移动至rawdata目录下
mv *fastq.gz ./rawdata
​
# 查找当前目录获取*R1*.gz和*R2*.gz文件的绝对路径
find `pwd` -type f -name '*R1*.gz' > R1.id.txt
find `pwd` -type f -name '*R2*.gz' > R2.id.txt
​
# 包含*R1*.gz和*R2*.gz的绝对路径汇总
cat R1.id.txt R2.id.txt > all.id.txt
​
# 对all.id.txt中的fastq.gz文件使用fastqc软件输出质控报告
# -t 8表示8线程,-o ./qc表示输出至当前qc目录
cat all.id.txt|xargs fastqc -t 8 -o ./qc
​

Fastq质控结果

打开html文件即可查看fastqc 报告。质控html报告

4. Cell ranger软件安装与流程测试

打开页面(需要填写信息)Cellranger下载

点击页面Copy获取wget下载链接,在Linux上进行下载。

下载页面

wget -O cellranger-8.0.0.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-8.0.0.tar.gz?Expires=1712968314&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA&Signature=YywXZs0nWbA9SFKoa0nsFl8rgTIjoB0BU~Zme85SbinU0DlDteRuuhY-GAfk6rSikGmhcVKmcS1Isb2mbUrai42d9-W84jQ9Qe2ER3uNiwQzPfr9Mn4BtMQonQEjw~9wRkBDFq9OgK6~4pEslmUXN~2rAS9KLekorSoPmfxNfefqk8l32KJ8oaSr4jIuEa9IxQdBfWvoLBSzgYW4dzndTXYVy0DKKIjhgymNsRNdBmekvsB6ghE0TWI9Cog8bnlW9DiRJ0iE~jF7a3BeEVbk1xtXyBHOLiux~RPrDUQj4W5N9nwTBmY8Ze~REtSomnACWd3Ni7I~ezT8s72MC5vz7w__"
​
# 解压
tar zxvf cellranger*.tar.gz
​
# 导入bashrc
# /path/cellranger-8.0.0为cellranger-8.0.0的文件夹路径
echo 'export PATH=/path/cellranger-8.0.0:$PATH' >> ~/.bashrc
source ~/.bashrc
​
# 测试是否运行成功
cellranger --help

cellranger 用法

4.1 Cell ranger软件主要功能

Cell ranger的用于基因表达分析4个主要功能:

1. cellranger mkfastq : 它借鉴了Illumina的bcl2fastq ,可以将一个或多个lane中的混样测序样本按照index标签生成样本对应的fastq文件。

2. cellranger count :利用mkfastq生成的fq文件,进行比对(基于STAR)、过滤、UMI计数。利用细胞的barcode生成gene-barcode矩阵,然后进行样本分群、基因表达分析。

3. cellranger aggr :接受cellranger count的输出数据,将同一组的不同测序样本的表达矩阵整合在一起,比如tumor组原来有4个样本,PBMC组有两个样本,现在可以使用aggr生成最后的tumor和PBMC两个矩阵,并且进行标准化去掉测序深度的影响。

4. cellranger reanalyze :接受cellranger count或cellranger aggr生成的gene-barcode矩阵,使用不同的参数进行降维、聚类。

结果主要是包含有细胞信息的BAM, MEX, CSV, HDF5 和HTML文件。

4.2 使用 Cell ranger查看linux服务器性能

cellranger sitecheck > linux.txt
cat linux.txt

4.3 测试cellranger 软件流程是否安装成功

# 需花费数十分钟
cellranger testrun --id=check
​
# 最后一行输出以下语句表示成功
# Pipestance completed successfully!

在这里插入图片描述

微信扫一扫分享文章

+10
无需登陆也可“点赞”支持作者
分享到:
评论

使用道具 举报

热门推荐