单细胞 RNA 测序入门可以查看以下文章:
单细胞 RNA 测序(scRNA-seq)工作流程入门
单细胞 RNA 测序(scRNA-seq)细胞分离与扩增
单细胞RNA测序(scRNA-seq)SRA数据下载及fastq-dumq数据拆分
1. 单细胞RNA-seq样本数据说明
样本数据来源文章:Acquired cancer resistance to combination immunotherapy from transcriptional loss of class I HLA(由I类HLA转录丢失引起的对联合免疫疗法的获得性癌症抗性)
文章链接:https://www.nature.com/articles/s41467-018-06300-3
2. 单细胞数据下载
根据上述文章可用性部分描述,文章在NCBI 的GEO数据库中编号分为为GSE117988和GSE118056。
GSE117988: https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE117988
GSE118056:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE118056
下载GEO数据库SRA数据参考文章:单细胞RNA测序(scRNA-seq)SRA数据下载及fastq-dumq数据拆分
2.1 SRR_Acc_List.txt
SRR_Acc_List.txt文件内容如下:
SRR7722937
SRR7722938
SRR7722939
SRR7722940
SRR7722941
SRR7722942
SRR7692286
SRR7692287
SRR7692288
SRR7692289
2.2 SRA数据下载和fastq-dump拆分
此步骤时间漫长,需要长时间等待,可以后台运行。
# conda install -c bioconda sra-tools
# 后台下载
nohup prefetch --option-file SRR_Acc_List.txt &
# 批量拆分sra文件为fastq.gz
cat SRR_Acc_List.txt|while read srr; do (fastq-dump --gzip --split-files -A $srr ${srr}.sra); done
2.2 拆分fastq数据重命名
sh rename_fastq.sh 运行脚本。
# rename_fastq.sh
cat SRR_Acc_List.txt| while read srr;
do
mv ${srr}_1*.gz ${srr}_S1_L001_I1_001.fastq.gz
mv ${srr}_2*.gz ${srr}_S1_L001_R1_001.fastq.gz
mv ${srr}_3*.gz ${srr}_S1_L001_R2_001.fastq.gz
done
3. 单细胞测序数据质控
使用fastqc对拆分后的fastq文件进行质控。
# fastqc软件安装
conda install fastqc -y
3. 1 单细胞数据批量质控
文件名:fastqc.sh Linux 执行 **sh fastqc.sh** 运行脚本
# fastqc.sh
# 创建目录
mkdir {rawdata,qc}
# 将*fastq.gz结尾的文件移动至rawdata目录下
mv *fastq.gz ./rawdata
# 查找当前目录获取*R1*.gz和*R2*.gz文件的绝对路径
find `pwd` -type f -name '*R1*.gz' > R1.id.txt
find `pwd` -type f -name '*R2*.gz' > R2.id.txt
# 包含*R1*.gz和*R2*.gz的绝对路径汇总
cat R1.id.txt R2.id.txt > all.id.txt
# 对all.id.txt中的fastq.gz文件使用fastqc软件输出质控报告
# -t 8表示8线程,-o ./qc表示输出至当前qc目录
cat all.id.txt|xargs fastqc -t 8 -o ./qc
打开html文件即可查看fastqc 报告。
4. Cell ranger软件安装与流程测试
打开页面(需要填写信息):Cellranger下载
点击页面Copy获取wget下载链接,在Linux上进行下载。
wget -O cellranger-8.0.0.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-8.0.0.tar.gz?Expires=1712968314&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA&Signature=YywXZs0nWbA9SFKoa0nsFl8rgTIjoB0BU~Zme85SbinU0DlDteRuuhY-GAfk6rSikGmhcVKmcS1Isb2mbUrai42d9-W84jQ9Qe2ER3uNiwQzPfr9Mn4BtMQonQEjw~9wRkBDFq9OgK6~4pEslmUXN~2rAS9KLekorSoPmfxNfefqk8l32KJ8oaSr4jIuEa9IxQdBfWvoLBSzgYW4dzndTXYVy0DKKIjhgymNsRNdBmekvsB6ghE0TWI9Cog8bnlW9DiRJ0iE~jF7a3BeEVbk1xtXyBHOLiux~RPrDUQj4W5N9nwTBmY8Ze~REtSomnACWd3Ni7I~ezT8s72MC5vz7w__"
# 解压
tar zxvf cellranger*.tar.gz
# 导入bashrc
# /path/cellranger-8.0.0为cellranger-8.0.0的文件夹路径
echo 'export PATH=/path/cellranger-8.0.0:$PATH' >> ~/.bashrc
source ~/.bashrc
# 测试是否运行成功
cellranger --help
4.1 Cell ranger软件主要功能
Cell ranger的用于基因表达分析4个主要功能:
1. cellranger mkfastq : 它借鉴了Illumina的bcl2fastq ,可以将一个或多个lane中的混样测序样本按照index标签生成样本对应的fastq文件。
2. cellranger count :利用mkfastq生成的fq文件,进行比对(基于STAR)、过滤、UMI计数。利用细胞的barcode生成gene-barcode矩阵,然后进行样本分群、基因表达分析。
3. cellranger aggr :接受cellranger count的输出数据,将同一组的不同测序样本的表达矩阵整合在一起,比如tumor组原来有4个样本,PBMC组有两个样本,现在可以使用aggr生成最后的tumor和PBMC两个矩阵,并且进行标准化去掉测序深度的影响。
4. cellranger reanalyze :接受cellranger count或cellranger aggr生成的gene-barcode矩阵,使用不同的参数进行降维、聚类。
结果主要是包含有细胞信息的BAM, MEX, CSV, HDF5 和HTML文件。
4.2 使用 Cell ranger查看linux服务器性能
cellranger sitecheck > linux.txt
cat linux.txt
4.3 测试cellranger 软件流程是否安装成功
# 需花费数十分钟
cellranger testrun --id=check
# 最后一行输出以下语句表示成功
# Pipestance completed successfully!