PAS简介
绝大多数真核生物mRNA和lncRNA的3’末端都具有一串连续的腺苷,称为poly(A)尾巴。poly(A)尾与mRNA的出核转运、mRNA的稳定性和翻译的效率息息相关,具有重要的生物学意义。poly(A)位于整个转录本的3’末端,最近的研究表明绝大多数的mRNA具有两个或以上的poly(A)位点(PAS)。PAS的选择直接影响到mRNA的3’UTR的长度,由于3’UTR是mRNA最重要的调控区,是绝大多数RNA结合蛋白和microRNA调控的靶标区域,因此PAS的选择,会直接影响到mRNA的稳定性和翻译效率。部分可变的poly(A)位点位于mRNA的编码区,这些poly(A)位点的使用会改变mRNA的编码情况,从而直接改变mRNA的蛋白输出。
产品优势
√直接、便捷
√容易实现
√自有分析流程
√个性化服务支持
产品应用
1.蛋白层面
影响蛋白表达(翻译效率)、蛋白定位、蛋白异构体
2.RNA层面
RNA的稳定性、RNA异构体、改变RNA二级结构、核输出
3.组织特异性
4.癌症预后和诊断标志物
5.作物改良
植物花期控制和应激反应
数据连用
1.PAS-seq与Ribo-seq连用,可探索mRNA 3’UTR的变化与翻译效率之间的调控关系。
2.PAS-seq与RNA-seq/miRNA-seq连用,可探索mRNA 3’UTR的变化与miRNA之间的关系。
3.PAS-seq与RNA pull down/MS连用,可探索mRNA 3’UTR的变化与RNA结合蛋白之间的关系。
4.PAS-seq与RNA-seq-可变剪接分析连用,可探索mRNA 3’UTR的变化与可变3’UTR(3pMXE)剪接事件之间的联系。

一、PAS-seq数据分析方案流程

二、PAS-seq测序数据质量分析

Clean reads数据质量分析

方法描述:碱基质量值是衡量测序质量的重要指标,碱基质量(Q)与测序错误率(P)密切相关,受测序仪状态,测序试剂质量,样本特性等的影响。质量值计算公式如下:

结果展示

GC含量分析

方法描述:对测序reads中四种碱基的分布比例进行评估,检查是否存在AT、CG分离现象,理论上A与T、C与G的含量在整个测序反应中分别相同,且维持 在稳定水平。

有效长度统计

方法描述:去掉index序列、建库平衡用随机碱基及截取掉后面低质量的碱基后,我们用获得的clean reads进行有效长度分析。

reads冗余度统计

在cDNA文库构建的过程中对捕获的mRNA/ncRNA 进行随机片段化,随后加接头并进行RT-PCR。一个多样性的文库中大多数序列应该只出现一次,低水平的序列冗余度往往表明高水平的靶标序列覆盖度,而高水平的序列冗余度则意味着一定程度上的偏好富集性,如文库构建过程中PCR过度扩增。通常测序深度越高,越容易产生一定程度的重复reads,属于正常的现象。实际操作中,由于数据量较大,为了降低计算中对内存的要求,仅选取了每个文件的前200,000条reads进行分析,认为其可以代表全部序列的冗余度。

PCR duplication level计算方法为:从测序数据中随机挑选20万reads作为Total Reads,按照如下公式进行计算:PCR duplication level=Duplication Reads/Total Reads

三、RNA-seq结果展示

全基因组定位分析

Reads比对到参考基因组结果

方法描述:在这部分分析中,我们首先从reads末尾寻找至少连续的8个A,若遇到2个以上连续的非A,则去掉poly(A)及其之后的碱基,然后保留满足长度大于等于12个碱基的reads;再从reads前端开始找A,若出现9个以上连续的A,则去掉poly(A)和poly(A)之后的碱基,然后保留满足长度大于等于12个碱基的reads。用HISAT2将获得的这两种reads同时比对到参考基因组上,对于两种条件下都比对上的reads,则优先选择末尾有poly(A)的结果。最后,这些比对到基因组上的序列,如果该序列3’端后在基因组上含有连续6个以上的A,则该序列也将被剔除(discardip)。

Reads在基因组不同区域的分布情况

方法描述:统计在基因组上pas reads在各个区域的分布情况,统计结果如下:

基因组的覆盖度和特征分析

方法描述:reads随转录单元长度的覆盖强度分析,以距转录起始位点和转录终止位点为标准,把cDNA平均分成100份,每一份称为一个bin,求落在每个bin中的reads平均数之和,从而得到每个bin上整体的reads覆盖度。

方法描述:把基因平均分成100份,每一份称为一个bin,求落在每个bin中的reads平均数之和,从而得到每个bin上整体的reads覆盖度。

reads在转录起始位点,转录终止位点,起始密码子和终止密码子附近的分布

方法描述:分别以转录起始位点和转录终止位点为原点,统计其上下游1kb范围内reads的分布情况。

方法描述:分别以起始密码子(start codon)和终止密码子(stop codon)为原点,统计其上下游1kb范围内reads的分布情况,结果如下:

饱和曲线检查

方法描述:定量饱和曲线检查反映了基因表达水平定量对数据量的要求。表达量高的基因,容易被准确定量,而表达量低的基因,则需要较大的测序量才能被准确定量。

基因检出

方法描述:由于PAS-seq主要获取的是3’加A处的reads,所以使用RPM (Reads per million reads),表示每百万 reads 中来自于某基因的 reads 数,表征基因的表达丰度。通过对mRNA测序深度进行均一化(RPM),使不同测序样本之间的表达丰度具有可比性,消除了因mRNA长度和不同样本之间测序深度差异可能导致的偏差。

RPM计算公式:RPM=total exon reads*1000000/uniquely mapped reads

四、PAS位点分析

PAC检出

方法描述:PAC在基因组上的分布情况统计如下:

PAC在基因组上的分布

方法描述:PAC在基因组上的分布情况统计如下:

PAC距离统计

方法描述:每个样本中PAC之间的距离统计结果如下:

PAC宽度统计

方法描述:分析中定义的PAC的宽度累积分布情况如下:

样本相关性分析

方法描述:我们根据同一PAS位点在不同样本间的TPM,进行任意两个样本之间的相关性分析,检查不同样品之间相关性。

PAC序列分析

方法描述:我们以PAC最高峰处为中心,向上游延伸40bp,将该范围内的序列提取出来,用HOMER(Hypergeometric Optimization of Motif EnRichment) 进行序列特征富集性分析。

PAC差异分析(shifting PAS site)

方法描述:使用CAGEr进行样本间比较,根据位置差异计算出CAGE位点的shitf score,并用柯尔莫诺夫-斯米尔诺夫检验(Kolmogorov-Smirnov test)进行显著性分析,获得不同样本间位置和丰度发生显著变化的PAS位点。

PAC发生差异的基因的Gene Ontology富集分析

方法描述:

  1. 利用blast将参考基因组的基因序列比对到Gene Ontology数据库,进行GO注释;
  2. 提取比对结果,作为背景即background;
  3. 根据shifting terminator析结果,统计每个terminator所属基因所在的GO Term,根据每个Term的基因数目,以及背景中此Term的基因数目,用Fisher Exact Test分析每个Term的显著性;
  4. 选取排名前10的GO Term及其校正p-value和百分比作图进行展示。

Dynamic analyses of alternative polyadenylationfrom RNA-seq reveal a 30-UTR landscape acrossseven tumour types

Dynamic analyses of alternative polyadenylationfrom RNA-seq reveal a 30-UTR landscape acrossseven tumour types

选择性多聚腺苷酸化(APA)是一种常见的真核生物前体mRNA转录后加工方式,其结果是从前体mRNA上加工出不同的mRNA。人类约70%基因通过多聚腺苷酸不同而产生各种转录亚型。因此,APA有可能是决定生物体种间差异的重要基因。目前,均已证实APA与多种疾病相关,但其对于肿瘤发生的临床意义、具体分子机制及功能性结果等尚处于研究的起步阶段。

Systematic Profiling of Poly(A)+ TranscriptsModulated by Core 3’ End Processing andSplicing Factors Reveals Regulatory Rules ofAlternative Cleavage and Polyadenylation

Systematic Profiling of Poly(A)+ TranscriptsModulated by Core 3’ End Processing andSplicing Factors Reveals Regulatory Rules ofAlternative Cleavage and Polyadenylation

在真核生物中,信使RNA(mRNA)前体剪切和聚腺苷酸化(C/P)是一种机制,令mRNA分子和长链非编码RNA的3’端由RNA聚合酶II切断。聚腺苷酸化位点一般认为位于顺式作用元件的上游或下游区域。与RNA聚合酶II核心启动子区结合的聚腺苷酸化核心信号区是两个蛋白质形成的复合物。哺乳动物中,上游的作用元件有距离聚腺苷酸化位点约40个碱基处的多聚腺苷酸化信号(PAS),位于多聚腺苷酸化信号上游的UGUA元件以及多聚腺苷酸化信号周围的尿嘧啶核苷(U)富集区。下游的作用元件则包括距聚腺苷酸化位点下游100碱基的尿嘧啶核苷(U)和GU富集区。早前的研究表明大部分真核基因在不同生理病理条件下会发生聚腺苷酸化水平和模式的变化,但是细胞中调控聚腺苷酸化的机理尚不清楚。本文中,研究人员结合基因敲除和高通量测序技术来研究聚腺苷酸化的调控机理,多个调控因子,包括:CFI-25/68、PABPN1、PABPC1、Fip1 and Pcf11,被证实在3’端非编码区的聚腺苷酸化事件中发挥重要作用,Fip1 和 Pcf11主要是增强近3’端聚腺苷酸化位点的功能,而CFI-25/68、PABPN1和PABPC1则是增强远3’端聚腺苷酸化位点的功能。受CFI-25/68或Fip1调控的聚腺苷酸化对顺式调控元件具有很强的偏好性,并且位点之间的距离在聚腺苷酸化调控中也起着重要作用。此外,他们还发现内含子的聚腺苷酸位点受到剪接因子的调控,U1主要是抑制靠近基因5’端内含子上的聚腺苷酸事件,而U2则通过促进基因剪接来抑制内含子上的聚腺苷酸事件。当聚腺苷酸位点接近转录起始位点时,PABPN1抑制该转录本的表达,提示PABPN1可能在RNA降解中起作用。受到核心因子调控的聚腺苷酸事件同时也受到细胞分化发育的调控,但趋势截然不同。

 菊子曰:支持各大博客网站的博客群发工具