√自有分析流程
√数据高级分析
√个性化服务支持
2.癌症预后和诊断标志物;
3.疾病进展机制分析;
4.药物靶标的鉴定
一、RNA-seq分析流程
二、RNA-seq数据质量分析
1.Clean reads数据质量分析
方法描述:碱基质量值是衡量测序质量的重要指标,碱基质量(Q)与测序错误率(P)密切相关,受测序仪状态,测序试剂质量,样本特性等的影响。
2.GC含量分析
方法描述:对测序reads中四种碱基的分布比例进行评估,检查是否存在AT、CG分离现象,理论上A与T、C与G的含量在整个测序反应中分别相同,且维持 在稳定水平。
3. 有效长度统计
方法描述:去掉index序列、建库平衡用随机碱基及截取掉后面低质量的碱基后,我们用获得的clean reads进行有效长度分析。
4. reads冗余度统计
在cDNA文库构建的过程中对捕获的mRNA/ncRNA 进行随机片段化,随后加接头并进行RT-PCR。一个多样性的文库中大多数序列应该只出现一次,低水平的序列冗余度往往表明高水平的靶标序列覆盖度,而高水平的序列冗余度则意味着一定程度上的偏好富集性,如文库构建过程中PCR过度扩增。通常测序深度越高,越容易产生一定程度的重复reads,属于正常的现象。实际操作中,由于数据量较大,为了降低计算中对内存的要求,仅选取了每个文件的前200,000条reads进行分析,认为其可以代表全部序列的冗余度。
PCR duplication level计算方法为:从测序数据中随机挑选20万reads作为Total Reads,按照如下公式进行计算:PCR duplication level=Duplication Reads/Total Reads
三、RNA-seq结果展示
全基因组定位分析
Reads比对到参考基因组结果
方法描述:根据不同的基因组的特征,选取相对合适的软件,动植物用HISAT2 (Kim D, Langmead B et al. 2015)、真菌或者基因密度较高的物种用Bowtie2(Langmead and Salzberg 2012),根据需要会设定一定的容错率,将有效测序数据(clean reads)比对到参考基因组上。
Reads在基因组不同区域的分布情况
方法描述:统计在基因组上有唯一定位的reads在各个区域的分布情况
Reads在染色体上的分布情况
方法描述:把基因组平均分成100000个bin,根据比在基因组上有唯一定位的(uniquely mapped)reads数,统计落在每个bin中的reads的平均depth,然后取log2,使用circos作图。
新转录本预测
方法描述:将所有数据的基因组定位结果合并,用StringTie进行组装,然后用Cuffcompare和已知的基因模型进行比较,发现新的转录区域,并对新转录本的表达水平进行统计分析。图中为已知转录本(annotation)和新转录本(novel)的FPKM累积分布图。
饱和曲线检查
分别对10%,20%,30% … 90%的测序量各自进行基因定量分析,并将以完整测序量分析得到的基因表达水平作为最终表达水平。用各个百分比的数据量得到的基因表达水平和和最终表达水平进行比较,如果差异小于15%,则认为该基因在该数据量条件下被准确定量。
定量饱和曲线检查反映了基因表达水平定量对数据量的要求。表达量高的基因,容易被准确定量,而表达量低的基因,则需要较大的测序量才能被准确定量。
reads在转录起始位点,转录终止位点,起始密码子和终止密码子附近的分布
方法描述:分别以转录起始位点(TSS)和转录终止位点(TTS)为原点,统计其上下游1kb范围内reads的分布情况,结果如下:
方法描述:分别以起始密码子(start codon)和终止密码子(stop codon)为原点,统计其上下游1kb范围内reads的分布情况,结果如下:
DEG分析流程
样本相关性分析
方法描述: 在这部分分析中,我们根据各样本中基因表达情况进行两样本之间的相关性分析,即检查不同样品之间基因表达水平的相关性。如果相关性系数高,说明大部分基因在样本间的表达水平相似,数据均一化程度高;如果相关性系数低,则暗示基因表达模式存在显著差异,或者数据质量有问题。
样本聚类分析
方法描述:在这部分分析中,我们根据样本相关性系数进行样本间聚类分析。
差异基因火山图
差异基因聚类图
方法描述:对所有的显著差异表达基因取并集,根据表达量作heatmap。
差异基因Gene Ontology 富集分析
差异基因KEGG Pathway富集分析
Argonaute CLIP Defines a Deregulated miR-122-Bound Transcriptome that Correlates with Patient Survival in Human Liver Cancer
miR-122是一个肝脏组织特异表达的miRNA,长度在21-22 nt。miR-122通过和Ago蛋白的结合,会进一步结合到靶标基因的3’UTR上面,从而造成基因的转录后调控,会造成数百个基因的表达抑制。miR-122在肝脏中的功能研究已经比较多,尤其是在肝癌发生过程中的研究。miR-122的敲除并不会太大影响肝脏的发育和功能,但会造成年轻人的肝脏炎症反应以及脂肪肝,在年老人群中,会进一步引起肝癌。在肝癌病人中,前人也发现了miR-122的低表达。综合上述结果,miR-122被认为是一个抑癌因子,而且可以进一步作为肝癌治疗的一种药物靶点。但是到目前为止,miR-122在肝脏中的调控网络,以及作用的靶基因之间的关系还不是很完善。
Global translational reprogramming is a fundamental layer of immune regulation in plants
由于植物中不存在特异的免疫细胞,植物免疫系统的基础是植物的每一个细胞,它们在受到病原体入侵后转录组重塑的机制已经有比较深入的研究。但对于植物免疫反应过程中对蛋白翻译的调控才刚刚起步。
CELF1 preferentially binds to exon-intron boundary and regulates alternative splicing in HeLa cells
RNA结合蛋白(RBPs)参与到了转录后调控,包括RNA的可变剪接,RNA的空间折叠,从而导致RNA的表达量的变化。因此精确确定RBPs在RNA上的结合位置和结合特点是至关重要的。目前已经有成功解析RBP结合位点的方法,如CLIP-seq。但CLIP-seq也有很多的缺陷:如实验复杂,成功率低,文库的丰富度不够。和CLIP-seq比较类似的RIP-seq,虽然少了一些步骤,但获得的结果和CLIP-seq比较类似。最近有一项研究报道,使用DO-RIP-seq技术,也可以成功地获得RBPs的结合位点。而且能够获得更好的丰富度,这为RIP-seq分析RBPs的结合位点提供了方案和依据。
Maintenance of the marginal-zone B cell compartment specifically requires the RNA-binding protein ZFP36L1
RNA结合蛋白ZFP36家族可通过结合3’UTR区域AU-rich元件促进mRNA降解和抑制基因表达。在这篇文献中,研究者们发现了ZFP36家族成员ZFP36L1的一项新功能,通过对转录因子IRF8和KLF2的表达抑制,调控多个下游信号转导、细胞黏附和迁移基因的表达,控制边缘区B细胞的生存和特征维持。这项研究展示了RNA结合蛋白如何通过整合转录后调控和转录调控途径,促进细胞特征维持的调控机制。
Large-scale analysis of genome and transcriptome alterations in multiple tumors unveils novel cancer-relevant splicing networks
受到RBA结合蛋白控制的可变剪接过程可能影响大部分基因的表达。近年来越来越多的实验表明,可变剪接的失调可能以多种方式影响癌症的发生和发展。癌症特异性的可变剪接具有显著的诊断价值,是极有价值的癌症标记,也是潜在的药物靶标。目前科学家们已发现了一些具有可变剪接的癌症相关基因,但癌症中可变剪接的调控网络还有待细致发掘。
Single-Cell Transcriptome Analyses Reveal Signals to Activate Dormant Neural Stem Cells
1. 神经干细胞具有自我更新能力,能够分化产生神经组织中不同细胞类型的细胞,它的功能失调与许多神经退行性疾病的发生和发展密切相关。 2. 成体神经干细胞数量稀少,所处环境复杂,使得在体识别、解析成体神经干细胞的分子特征及示踪成体干细胞的分化谱系面临巨大的挑战。 3.近年来,单细胞转录组测序分析技术有很大的发展。
Single-cell RNA-seq reveals changes in cell cycle and differentiation programs upon aging of hematopoietic stem cells
一种罕见的多能造血干细胞群体(HSCs)需要连续生产百万成熟血细胞,同时保持不同谱系之间的正确平衡。在造血层次结构的顶点所在的最原始的长期重建造血干细胞(LT-HSCs)。LT-HSCs可以进行三种类型的细胞分裂:(1)重建对称细胞分裂产生补充LT-HSC库中的两个LT-HSC的子代细胞; (2)对称分裂来补充生产短期重建造血干细胞(STHSCs)和多能祖细胞(MPP的);及(3)不对称分裂,其中一个子细胞仍然是干细胞,其他的功能发生改变。 在骨髓(BM)中造血干细胞的能力会随着年龄增加而显著下降。相应的在老年人中骨髓性疾病例如:白血病,获得性免疫系统功能降低和贫血病的发病率显著增加。目前干细胞衰老主要有两个模型:1,特定表型的多个HSCs克隆共存,但是他们的相对频率会随年龄的变化而改变;2,所有的造血干细胞经历与年龄感官潜在的协同变化。尽管对HSCs功能的随着年龄增加而下降进行了广泛的研究,但是潜在的HSCs衰老的分子机制仍然不清楚。
Splicing of Nascent RNA Coincides with Intron Exit from RNA Polymerase II
Pre-mRNA的转录和剪切过程由两个不同的大分子复合物完成,RNA聚合酶II和剪接体。早期研究已经表明,新生RNA上能同时发生剪接行为,那么在新生RNA上发生的剪接过程,Pol II和剪接体之间的距离是多近是从未有人报道的。
Neuronal subtypes and diversity revealed by single-nucleus RNA sequencing of the human brain
对单个人类大脑神经元细胞核进行单细胞核转录组测序能够高效鉴定人类大脑神经性元不同亚型,奠定“绘制”人类脑神经元细胞基因活性方法的基础。同时,可以帮助我们更好理解人脑正常功能及疾病异常,包括阿尔茨海默氏症、帕金森症、精神分裂症和抑郁症等。
RNA Duplex Map in Living Cells Reveals Higher-Order Transcriptome Structure
Chang团队的研究者们开发出了一种基于可逆补骨脂素交联(psoralen crosslinking)的方法PARIS,在活细胞中以近碱基对分辨率整体绘制RNA双联结构图谱。研究人员通过在三种人类和小鼠细胞类型中进行PARIS分析,描述了转录组内的常见远程结构、选择性构象及RNA-RNA反式相互作用。并通过对RNA结构进行进化分析,揭示了一些保守的RNA双联结构特征。
Whole-genome mutational landscape and characterization of noncoding and structural mutations in liver cancer
通过对300名肝癌病人的全基因组测序,鉴定了在肝癌中高频率发生突变的病毒整合位点、蛋白质编码位点、非编码位点和染色体结构变异位点,并研究了这些突变位点与已知致癌与抑癌基因的相互作用,为更好的肝癌预后提供依据。
Systems genetics identifies a convergent gene network for cognition and neurodevelopmental disease
1.通过共表达调控网络的构建,建立了脑组织基因表达的module; 2. 采用多套脑组织相关的数据,其数据类型包括芯片、转录组、GWAS、外显子组,通过多套数据的组合分析,鉴定了2类基因modules(共1298个基因)与脑部认知疾病关联; 3. 同时对这1298个基因在不同脑部组织及脑部不同发育时期的基因表达模式也进行了分析; 4. 为GWAS和外显子数据的整合分析提供了很好的思路;
Systematic identification of factors for provirus silencing in embryonic stem cells
1. 原病毒(provirus),是存在于宿主染色体内的,潜在的病毒染色体组,可以从一代宿主细胞转移到另一代细胞中而不使宿主破裂。 2.前人的研究显示provirus在胚胎干细胞中的表达是受到抑制的,但具体的机制尚不清楚。 3.siRNA screen ,RNA-seq、chip-seq等成熟技术为系统性鉴定细胞调控因子提供了方便。
The primate-specific noncoding RNA HPAT5 regulates pluripotency during human preimplantation development and nuclear reprogramming
1. LncRNA 长度大于200nt的非编码RNA,Long intergenic noncoding RNAs (lincRNAs)是其中的一种。 2.二代测序技术给LncRNAs的鉴定与注释带来了极大的便利。 3.研究表明在人类的转录组中存在10000多种lincRNAs,其中2/3起源于转座子。 4.HPATs 属于lincRNAs,总共有23个成员,在胚囊的发育中有较高的表达量,但它们的功能的和作用机制都不清楚。
Frequent alteration in cytoskeleton remodelling genes in primary and metastatic lung adenocarcinomas
1. 肺腺癌是最常见的NSCLC组织学类型。 2.肺癌的发生、发展过程受遗传和环境两方面的共同影响。其中,基因变异是产生疾病的内因和基础。 3.尚无有针对性对亚洲患者肺腺癌的大规模测序研究,缺少亚洲人原发性和转移肿瘤的综合突变全景图。
TDP-43 repression of nonconserved cryptic exons is compromised in ALS-FTD
通过对比检测TPD-43敲除的小鼠ES细胞和人类HeLa细胞的选择性剪切情况,发现受到TPD-43抑制调控的隐秘外显子(Cryptic exons)剪切在ALS发生中起重要作用。研究者们鉴定出的数个受TPD-43调控剪切的隐秘外显子已在FTD-ALS病例中得到证实。
RNA-Seq of Tumor-Educated Platelets Enables Blood-Based Pan-Cancer, Multiclass, and Molecular Pathway Cancer Diagnostics
研究者们对283名健康和患癌对象身上提取血小板RNA进行测序,分析血小板RNA在各种癌症患者和健康个体中的分布情况,并评估肿瘤血小板(Tumor-educated platelets, TEPs)RNA profile能否成为癌症辅助诊断和分级的方法。
Discovery, Annotation, and Functional Analysis of Long Noncoding RNAs Controlling Cell-Cycle Gene Expression and Proliferation in Breast Cancer Cells
长链非编码RNAs (lncRNA)是一类长度大于200 bp,不编码蛋白质的RNA分子。大量的研究表明, lncRNA 在剂量补偿效应、表观遗传调控、细胞周期调控和细胞分化调控等众多生命活动中发挥重要作用。然而,到目前为止,各类细胞中的lncRNA种类、数量、功能都不明确。
Genomic-scale exchange of mRNA between a parasitic plant and its hosts.
科学家最近发现了一种潜在的新的植物沟通形式——寄生性植物菟丝子会与宿主植物交换大量的mRNA。