期刊名称:生物医学研究与评论杂志
文章类型:研究
收到日期:2018年11月1日
接受日期:2018年12月27日
发表日期:2021-03-21
引用:Fedoseyeva VB, Zharinova IA, Alexandrov AA (2019) 15q11-12位点基因前mrna内含子的二级结构。rna结合蛋白和核小体定位信号功能显著基序的定位。生物医学杂志,Vol . 2, issue: 1(01- 20)。
版权:©2019 Fedoseyeva VB。这是一篇根据知识共享署名许可协议发布的开放获取文章,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是要注明原作者和来源。
摘要
在这项研究中,我们在递归剪接变体的长内含子rna的折叠结构中发现了可重复的亚结构,并在GABRB3和GABRA5的注释前mrna中发现了可重复的亚结构。我们绘制了特定位点的RNA结合蛋白识别的RNA基序,并对首选定位区域进行了表征。对premRNA变体的比较揭示了显性蛋白质的潜在影响。我们确定了密集Alu簇中RNA的结构特征,并阐明了其顶端亚结构与转录变异的A-Xist片段的相似性。核小体电位的绘制揭示了GABRB3 3 '端部分强弱信号的交替以及Alu簇附近核小体定位信号的簇。简单寡核苷酸在可重复亚结构中的分布表明在py区有富集;对于其中的一些,这可能被认为是作为核斑点组成部分的ncRNA Malat1的萃取富集的补充。双向转录本的二级结构元素在这个位点上倾向于体细胞同源配对,正如之前的实验所显示的那样。
基于内含子RNA与y-束结合RNP、丝氨酸SRSF蛋白、ncRNA Malat1以及Alu簇的相互作用,提出了内含子RNA对剪接的潜在影响模型。
关键字
前mrna内含子,基因,rna结合蛋白。
摘要
在这项研究中,我们在递归剪接变体的长内含子rna的折叠结构中发现了可重复的亚结构,并在GABRB3和GABRA5的注释前mrna中发现了可重复的亚结构。我们绘制了特定位点的RNA结合蛋白识别的RNA基序,并对首选定位区域进行了表征。对premRNA变体的比较揭示了显性蛋白质的潜在影响。我们确定了密集Alu簇中RNA的结构特征,并阐明了其顶端亚结构与转录变异的A-Xist片段的相似性。核小体电位的绘制揭示了GABRB3 3 '端部分强弱信号的交替以及Alu簇附近核小体定位信号的簇。简单寡核苷酸在可重复亚结构中的分布表明在py区有富集;对于其中的一些,这可能被认为是作为核斑点组成部分的ncRNA Malat1的萃取富集的补充。双向转录本的二级结构元素在这个位点上倾向于体细胞同源配对,正如之前的实验所显示的那样。
基于内含子RNA与y-束结合RNP、丝氨酸SRSF蛋白、ncRNA Malat1以及Alu簇的相互作用,提出了内含子RNA对剪接的潜在影响模型。
关键字
前mrna内含子,基因,rna结合蛋白。
介绍
外显子被长内含子包围的剪接模型是基于未来剪接体元件预组装的假设[1]。剪接过程由其他过程的组分辅助,如转录(RNA-Pol II CTD)和染色体激活[2-6],包括SAGA和SWI/SNF复合物[7-12]。大部分跨越数千个核苷酸的内含子参与共转录剪接(cot)而不阻碍剪接[13];然而,其中有一部分(高达20%)可能在转录后水平(post-transcriptional level, postTS)发生剪接[14,15]。例如,第一个长内含子(s)从pre-mRNA中移除的速度比其他的要慢[14],因此是post - ts的首选候选。大内含子本身的作用,至少是其主要部分的作用,在剪接过程中仍然知之甚少。尽管如此,这种相互作用的另一个方面早已为人所知,即新生RNA与细胞核内剪接因子之间的关联是内依赖的[16]。长内含子的重要性被保护长前mrna免受过早切割和聚腺苷化的现象所强调[17,18]。长内含子的作用可以通过鉴定pre-mRNA(注释为编码和/或硅预测RNA)与RNA结合蛋白和其他RNA(例如,与剪接体预组装有关的非编码RNA)的相互作用来澄清。非编码RNA Malat1与SR(丝氨酸-精氨酸)家族前mrna剪接因子从核斑点(NS)募集到转录位点有关[19]。 In addition, it is also known that the splicing of exogenous pre-mRNAs occurs when they recruit the inter-chromosomal granular cluster (GC), e.g., serinearginine NS cluster [20, 21]. The composition of the granules includes SRSF1, SRSF2, U2snRNP proteins, MALAT1 and other components of the spliceosome. The peri-chromatin filament [PF] region containing the endogenous nascent RNA and associated proteins also can recruit GC granules [20-23], although the interaction of PF and GC is not always obvious [24,25]. Splicing strongly depends on the presence of pyrimidine tracts in RNA [20,26,27]; their removal leads to attenuation of splicing and granule binding. The role of pyrimidine tracts pertains not only to the nearest branch site but also to some cryptic sites.
这项工作的目的是确定RNA特征在蛋白质结合位点的情况下,一维和二维呈现。这包括确定长内含子的RNA二级结构。首先,我们重点研究了与NS组成有关的蛋白质以及与嘧啶低聚物相互作用的蛋白质。此外,由于根据该模型,核小体的形成潜力会影响cot,因此我们阐明了核小体和CTCF在DNA水平上作图的特殊性,因为强核小体信号和CTCF[28]可能影响转录暂停。目前的工作检查了DNA位点15q11-13。文献记载的同源染色体的体细胞配对现象也包括在我们的考虑中,因为配对障碍和疾病的出现往往同时发生。
15q11-13位点的特征
该位点编码GABAA受体亚基的α5、β3和γ3基因。它们不属于最常见的受体亚基基因(α1,2, β1,2, γ1,2等),但α5(GABRA5)和β3(GABRB3)基因更广泛的结构和功能特性及其与神经退行性疾病的关联使它们成为最有吸引力的序列分析对象。β3基因不仅在大脑中表达,在其他组织中也有较低水平的表达;作为基因座的一部分,它在淋巴细胞、神经元组织和体外系统中参与S期晚期体细胞同源配对[29][30,31]。β3基因是β基因中最短的,尽管除了实验注释外,还提出了其他硅预测的双向转录变体和递归剪接变体。在反义和正义版本中存在拼接和未拼接的EST序列,从而支持了这种双向性。对β3基因开头的双向定向Alu重复簇的结构和功能特性的阐明是一个单独的问题,尽管我们知道这种重复类型的多种特性[32],但信息的完整性并没有达到预期的水平,尤其是在转录水平上。
β3、α5基因前mrna和蛋白亚型的多个注释变体在大小和表达阶段(胎儿和成人)上存在显著差异。在大脑中,转录本开头有一个长内含子的长变体1,2(在盒式外显子之后)的表达与胎儿发育阶段有关,中等长度的pre-mRNA(变体3)也在大脑中表达,在肺、心肌细胞和生发细胞中表达水平较低[33]。最短的pre-mRNA变体4(核心部分)在成人大脑中表达。β3基因的重要性在于它与Angelman综合征[34-38]、Prader-Willi综合征(长内含子的重要中间部分多次缺失)[39]、癫痫(点突变)和自闭症[40]有关。GABRB3、GABRA5被认为是惊恐障碍的候选基因[41]。
材料与方法
我们使用Markham和Zuker的程序UNAFOLD计算最小自由能(MFE)和RNA折叠[42]。计算支持MS Windows(32位架构)、Linux(64位)、Cluster/img。ras.ru/galaxy资源和MFOLD[43]用于热力学参数的确定,以及Microsoft Office、CorelDraw和Delphy7用于核苷酸基序的绘制。为了计算核小体定位[NP]电位,我们使用了先前编写的Turbo Pascal脚本[44]。对于初级序列(表S1)和pre-mRNA的注释变体,使用https://ncbi.nlm.nih.gov (GenBank)和https://genome通过Genscan和Gene id程序对启动子(注释和假设)、EST、GC-rich区域和Alu重复序列进行了计算机预测。ucsc。edu作为数据来源。
结果与讨论
本研究分为几个部分:(a)大内含子RNA的两种折叠方法,(b)在内含子RNA的一级核苷酸序列水平和二级结构水平上绘制RNA结合蛋白的识别位点,(c)评估RNA结合蛋白识别的基序及其互补对应基序附近的寡核苷酸发生情况,对于折叠的二级结构分支(一组再生螺旋环结构)和中间片段,(d)检查密集Alu簇中的RNA折叠和与之相关的a - xist样顶端亚结构,(e)核小体电位(NP)的DNA水平定位和与CTCF结合相关的转录暂停[28],以及(f)分析由反义和义前mrna介导的同源染色体之间的通信,目的是提供解释同源染色体之间配对开始的可能机制。
15q11-12位点方案
图1A、B显示了两个方向上Alu重复序列的定位;在内含子3 (GenBank, GABRB3基因)的起始(5′端)和内含子3的末端可以看到它们的簇。我们可以看到实验鉴定的转录本变体,对应于GABRB3和GABRA5基因的不同蛋白质异构体(图1C-L),计算预测的转录本与实验相匹配,长内含子递归剪接位点(图1N-S),启动子,富含gc的区域(图1M,O)和EST,包括两个方向的未剪接(hg38组装)(图1T,U)。
图1:GABRB3和GABRA5操纵子的方案,注释和计算机预测转录变异,EST和Alu重复。(A), (B) - Alu在(+)和(-)方向重复定位。(C) KJ534842, var2,成人脑。(D) L08485(成人大脑)。(E) AK315311, var 2(胎儿大脑)。(F) BC113422(脑和肺)。(G) AK302822, var3(脑、心肌细胞、肺、睾丸等)。(H) BC111979(脑和肺)。(1) AK295167, var4;(J) BC011403 (retinoblastoma)。 (K) BC010641, var1 (retinoblastoma). (L) CR749803 (retina). (M) GC-rich regions. (N-O) Gene id (-). (P) Genescan (-). (Q) Genescan (+). (R) Genescan(-). (S) Genescan (+). (T) EST (-). (U) EST (+). Start point (40 knt) corresponds to 26540 knt for chr15 (hg38 assembly). (C) - (L) Annotated human mRNA from GenBank. (N)-(O) in silico predicted mRNA by Genscan, Gene id programmes. Annotated promoters P1, P4- 6, 9, 10. (C) - (L) GenBank mRNA variants.
rna结合蛋白15q11-12位点核苷酸序列的作图数据如图2所示:丝氨酸精氨酸SRSF1(别名ASF、SRp30a、SFRS1、SF2)、SRSF2(别名SC35、SFRS2、SRp30b、SFRS2A)、SRSF5(别名SFRS5、SRP40、HRS)、hnRNP A、C和PTB蛋白。数据基于功能方法、免疫沉淀和SELEX。由于GABRB3和GABRA5基因取向不同,因此按照基因取向对(+)链和(-)链进行定位。
图2:rna结合蛋白位点的定位。(A)平均后hnRNP C位点(5T(-)的补体)[45]。(B)平均后hnRNP C结合位点(基序5T(+))。(C) hnRNP A1位点(TAGGGA/T的补体(-))[46]。(D). (C). (E) hnRNP A1位点(motif TAGGGA/T(+))的平均数据。(F) (C). (G) SRSF5位点(CDGCA(-)的补体)的平均数据[47]。(H) SRSF5位点(基序CDGCA(+))。(I) SRSF2位点(与AGGAGAT和GRYYCSYR(-)互补)[48,49]。(J) (I). (K) SRSF2位点(motif AGGAGAT和GRYYCSYR(+))的平均数据。(L) (K)的平均值。(M) SRSF1 SRSASGA, RGAAGARR, RGAAGAAC位点(+)。 (N) SRSF1 sites (complement to SRSASGA (-)) [47]. (O) SRSF1 sites (complement to RGAAGARR(-)) [50]. (P) SRSF1 sites (complement to RGAAGAAC (-)) [51]. (Q) Averaged data from (NP). (R) Averaged data from (M). (S) PTB P motifs as in (T) incorporated in Py-rich tract (> 15 nt) for (-). (T) PTB P sites (complement to TTCT, TCTT, CTCTCT (-)) after averaging. (U) Motifs of PTB P sites (TTCT, TCTT, (C)TCTCT (+)) [52-54] after averaging. f1 fragment - core-part, f2 fragment – intron 3 (GenBank, GABRB3), f3 fragment – between P5 and P8 promoters, f3+f4 fragments – between GABRB3 and GABRA5 regions, f3+f4+f5’ fragment - two first introns for a long variant CR749803 (Figure 1L), f5 fragment - GABRA5 gene. (G) - (P) R-purine, Y-pyrimidine, S: G or C; D: A, G or U.
大内含子rna的两种折叠方法
第一个根据计算机预测的剪接位点(基因id程序),我们将pre-mRNA的最长内含子(149 knt)细分为更小的片段(表S1)。它们的长度允许计算内含子rna二级结构折叠所需的可接受时间。这些片段可以认为是与递归拼接相对应的。图3描绘了GABRB3基因的长内含子RNA,它与一个核心部分(图4)一起构成转录变异体1,2。核心部分与小外显子/内含子1、2和5'UTR对应于变异4。将长149-knt的内含子截断为95 knt,并将其与核心部分连接,产生了变体3(图5)。丢失的片段包含了Alu簇,其可能具有重要的功能,导致某些组织中的表达增强。变异1、2(二价是由于起始外显子的选择性剪接)在胎儿发育阶段的大脑中表达,而变异3主要在成人大脑中表达,在心肌细胞、肺、睾丸和肌肉中表达的程度较低[蛋白质组学,GenBank]。变体4主要在成人大脑中表达。此外,在视网膜中有很长的转录本表达。最新资料显示,脑内基因座转录为双等位基因,在疾病中部分偏向于单等位基因变异[31]。 In figure 3, the short constitutive introns are numbered 1 and 2, recursive intron numbering runs from number 3 to 9 (Gene id), and their entire combination corresponds to the constitutive intron number 3 (GenBank). The exons are presented schematically without showing their secondary structure. Alu repeats are indicated by letters A with the occurrence number in double-stranded state. Numbering by letter B marks the branches that may be considered as spatially separated substructures consisting of rows of alternating loops and helices. The folding images for intronic RNAs correspond to thermodynamically optimal structures, whereas the suboptimal ones have minimal differences and are not considered in the context of fragments of such length. The coordinates of structural elements relative to the genomic sequence are given in table S1 for the hg38 assembly of Homo sapiens genome (GenBank). These folding images are further used as the basis for mapping of RNA-binding proteins motifs.
图3:内含子3 (GenBank)转录本的二级结构(内含子3 - 9,基因id)和内含子1,2 (GenBank)。这是GABRB3递归剪接版本中变体1,2部分rna结合蛋白位点定位的基础。内含子3 -内含子9(基因id)的组装对应于内含子3_GenBank。
图4:内含子转录本的二级结构作为rna结合蛋白位点定位的基础(变体4(核心部分))。该变异体也构成GABRB3变异体1,2的一部分。内含子枚举根据GenBank对变体1,2进行(变体4的枚举在括号中显示)。色点如图3所示。
图5:内含子转录本的二级结构(GenBank)作为rna结合蛋白位点(GABRB3的变体3)定位的基础。内含子的枚举对应于组成剪接(GenBank),括号中对应于长内含子细分的Gene id枚举,如图3所示,内含子1(6 ')是内含子6的截断变体(Gene id,内含子3的一部分,GenBank)。颜色斑点表示与rna结合蛋白位点的关联如图3所示。
在没有递归剪接的情况下,短外显子与邻近内含子相比如何影响折叠内含子RNA的形状?在所考虑的内含子中(从intron3_gene id到intron9_Gene_id),内含子8的形式发生了显著变化,与相邻的外显子9结合,其形式如图S2所示。
第二,滑动窗口方法用于非递归折叠变体(如果存在),以估计长内含子rna中折叠特性识别的可能性,例如内含子3 (基因库,149 knt)(图6)。这种非递归折叠可能在早期间期实现,此时剪接比转录延迟。对于每个用于折叠的滑动窗口,在得到的结构中,我们将分支区分为集中的螺旋环链簇。当滑动窗的长度和位置变化时,其中一些是可重复的子结构。其中一些与相同内含子的计算机预测片段(递归变体)的相同坐标分支相吻合(图3)。与前面的描述一样,它们被标记为Bn。149- nt内含子(变体3)的整体结构的构建由于计算整个结构的复杂性和时间要求而模糊不清,但可以将合理长度的随机分割的较短的核苷酸片段(4-5个单位)连接起来,以最小化总计算时间。经过多次尝试组合后,我们选择了具有最多可复制分支的组合。其中一种可能的变体(I-like、star-like等等)如图6 (I-like)所示。在长内含子RNA的折叠过程中有两个重要的过程:新生RNA的重建(退火和再退火)和滑移的形成。由于内含子的高at组成,短的富含at的双链片段可以在室温下重新退火[44],而较长的或富含gc的片段可以在较小程度上重排。带有dsAlu簇的片段通过退火可以形成夹子,使结构稳定(具有较高的热力学偏好),如图3-7所示,用橙色标记。 Other possible types of clips are associated with protein binding and long complementary oligonucleotides. The presence of clips, as usually exhibited by dsAlu cluster, mainly determines the existence of reproducible substructures, such as some of Bn branches.
图6:内含子转录物(内含子3_Gen- Bank)作为GABRB3变体1,2的一部分的二级结构示例(没有递归剪接)。dsAlu以橙色表示,Bn -可复制的分支。
图7:内含子转录本的二级结构(GenBank)作为rna结合蛋白位点(GABRA5的转录变体)定位的基础。
蛋白质结合位点的定位
丝氨酸精氨酸蛋白家族:我们选择了广泛参与核内过程的丝氨酸精氨酸家族蛋白,并且已经得到了相对较好的研究。SRSF1蛋白(别名ASR/SF2, SRp30a, SFRS1)可能具有多种功能:(a)剪接体组装的积极参与者[55-57];(b)外显子增强结合蛋白[58],在双位点嘌呤一致(位点不存在)的情况下,作为剪接抑制蛋白,在某些位置,特别是在内含子序列中[59-60]。这种抑制可能仅限于某些特殊情况,因此,在内含子定位的情况下,类似的位点既不能激活也不能抑制剪接内含子定位[61]。SR(丝氨酸)蛋白,包括SRSF1和SRSF2,以基因依赖的方式被招募到新生的pre-mRNA中,如多烯染色体和Balbiany环所示,甚至可能在转录过程中迁移到长基因的更下游部分[62,63]。这种重新定位使它们易于转运到细胞质,并在进一步阶段影响mRNA与核糖体的结合。此外,SRSF1蛋白是NS的一部分[64],这种参与可能是磷酸化依赖的,因为它调节选择性剪接[65];除了在mRNA剪接、稳定性和翻译方面的作用外,该蛋白还具有与mRNA无关的过程相关的其他功能,如miRNA加工、蛋白质聚合化和核仁应激反应[66]。
对于SRSF - 1蛋白,根据功能性UV交联和免疫沉淀(CLIP)方法[49,67]和SELEX[50,51,68]获得的数据,我们绘制了位点序列上RNA结合的潜在位点[图m - r]。功能法得到的结合位点(图2N)的一致序列为SRSASGA (7-mer, S:G或C, R-purine)[49],其核苷酸多样性比基于丁型肝炎病毒基因组序列得到的结合位点更为复杂,后者的一致序列为RGAAGARR (8-mer, R-purine)(图20)[50]或SELEX方法(图2P),以RGAAGAAC (8-mer, R-purine)[51]。尽管共识存在差异,但为了完整性起见,(-)链的结合位点总数见图2Q,(+)链的结合位点总数见图2M,R。
我们的定位数据以两种形式呈现:结合位点的定位(a)在线性表示的位点一级序列上,以及(b)在内含子rna的二级结构图像(2D)上。一些分支,即B9、B12- 14、B39和B45,在这些位点富集。在5′-A1、a5 - a7、B17-18、b26 - b27、B38-A41、a35 - a38、L2-5′(图2M-R、图3-5、图7)等分支间空间富集程度更高(GABRB3),而B42和B44富集程度较低。对于GABRB3最长的pre-mRNA变体(图1L),在与GABRA5基因相交的区域也存在(-)链的显著峰。在2*D定位的情况下,紫色斑点(图3-5,7)主要与内含子6,7(基因id,内含子3的中间部分,GenBank)以及内含子3的5 '端(GenBank)重合,表明富含SRSF - 1结合位点。值得注意的是,SRSF1结合位点外显子富集程度不高;它们与内含子的平均密度水平相同。长内含子3 (GenBank)的结合位点密度为1.2个单位/knt;内含子4 (GenBank)约为0.4个单位/knt;内含子3的结合位点总数(GenBank,图S1B、图2T中的f2片段)比GABRB3基因核心部分的结合位点数倍(f1片段,图S1B、图2T)。 The introns 5, 6, 7, 8 (Gene id, part of intron 3, GenBank) (density ~1.21 units/knt) are more enriched in SRSF1-binding sites than intron 4 (GenBank). Introns 5-8 (GenBank, GABRB3, Figure 2Q, Figure 4) also have significant levels of SRSF1 binding sites.
对于GABRA5基因((+)链),一个强峰I位于TSS上游(Genscan预测的chr15.140.2),其他强峰II, III位于内含子1,内含子2,3和内含子6-8的边界(它们与(-)链的峰交替)。内含子1 (GenBank, GABRA5)的密度为1.74;内含子4和5 (GenBank, GABRA5)分别等于约0.40和0.78单位/ nt;对于内含子6-8,约等于1.7单位/knt。
也就是说,在GABRA5基因的开始和结束部分,以及GABRB3基因的中间和3 '端部分,富含SRSF1识别位点。在这两个基因的3 '端部分的识别位点的积累可能对这部分具有高外显子密度的RNA加工有用。
以GABRB3和GABRA5为例,具有高SRSF1结合位点的延伸的第一内含子,由于其长度和扫描的可及性,更有可能到达染色体间GC的边界,结合SRSF1(对剪接体组装很重要)和SRSF2来招募它们或结合自由分散的蛋白质分子,从而提高它们在基因附近的局部浓度,因此,第一内含子容易发生postTS。内含子3 (GenBank, GABRB3)富集于SRSF1识别位点,在postTS情况下可作为内含子和外显子密集分布的下游区域的存储设备。总之,这可以导致前mrna的有效加工。
根据蛋白质组学数据(GeneBank) [69], SRSF1蛋白在大脑中的密度处于中等水平(21.9 RPKM)(最高水平44.79,最低4.4 RPKM),高水平组织中功能表现可能更强。
另一种蛋白SRSF2,来自同一个-丝氨酸精氨酸家族,被认为存在于NS(颗粒)中,参与选择性剪接,在果蝇和小鼠中出现在干细胞的分化中,并在转录暂停释放中发挥作用,并与SRSF1一起在哺乳动物中发挥作用[70,71]。SRSF2基因的疾病相关突变通过改变其rna结合亲和力导致剪接失调[72]。
对于一致的AGGAGAU和GRYYCSYR (y -嘧啶,R -嘌呤,S:G或C)[47,48],在最长的内含子3的第二和第三部分没有观察到明确的优势结合位点定位(图2I,J)。除了内含子长度的前三分之一(靠近5 '端)外,该图谱显示出均匀的结合特征。启动子区富含gc的位点(GABRB3)具有潜在结合位点的间歇峰I-IV(图2J,图3,为暗紫色点,表示位点密度高于4 motif/ knt)。在GABRB3最长的变体GABRA5((-)链)的内含子1,4中也观察到这些峰(图2L)。GABRA5基因(+)链内含子1和4中间歇峰的类似区域由峰I-III表示(图2L)。在GABRB3的核心部分(变体4)(图2J)和GABRB3与GABRA5之间的基因间部分(图2J)中,潜在结合位点的信号几乎不存在。潜在的SRSF2潜在结合位点的峰值主要出现在两个基因的5 '端附近的下游区域,这可能与它们在转录暂停释放中的作用有关。
根据蛋白质组学[69](hppt://ncbi.nlm.nih.gov/gene)估计,脑基因表达量为30.1 RPKM,与平均水平(最高91.7,最低8.8 RPKM)大致相同。
对于SRSF5蛋白(别名SRp40、SFRS5)来说,一个重要的功能是通过选择性剪接调节一个重要的因子开关,这与妊娠期间其在子宫内浓度的巨大变化有关[73]。SRSF5蛋白的RNA识别位点由ACDGS表示(D:A,G, or U,S:C,G)[49]。这些位点主要定位在相对没有其他蛋白质的区域。在相当均匀的背景(GABRB3)上,横向区域,即内含子8 (Gene id,部分内含子3 (GenBank))和一定程度上的内含子2 (Gene id,部分内含子3 (GenBank))以及内含子8 (GenBank)(核心基因的第二部分)在SRSF5蛋白结合位点富集(图2G,图3-5,位点密度大于10 motif/knt为棕色斑点)。对于GABRA5,在内含子1,4,5中存在一些强峰(GenBank)(图2H,(+)链),而在基因间区域,结合位点几乎不存在。
为了便于描述,我们将片段f1标记为包含短内含子、外显子和3'UTR, f2 -长内含子,f3 - GABRB3和GABRA5基因间区域,f4 -长内含子,根据计算机预测,f5 - GABRB3基因,f3+ f4 + f5 '内含子转录变体GABRB3基因(端到端横跨GABRB3和GABRA5基因,在视网膜中活跃)。从数量上看,长内含子在f2和f3+f4+f5 '中的SRSF - 1信号密度(S1图1,S1)超过了f1(基因核心数据),特别是当对GABRB3基因的整个长度进行整合时,很明显主要的份额落在长内含子上,好像它们收集了SRSF - 1蛋白分子。密度值大致在同一水平。在srsf2,5蛋白中也观察到同样的情况。在这两个基因的3 '端附近,SRSF 1,5结合位点的水平有所升高。从SRSF1初级核苷酸序列确定的RBP (RNA Binding Protein, RNA结合蛋白)潜在结合位点数据可以看出,与基因外显子数量相关的结合位点过量(约25倍)。根据已有观点,SRSF1和SRSF2蛋白通常附着在单链RNA(开放结构)的基序上[74-76]。对于另一种蛋白RBP (PTB 1),实验发现RNA基序的结构(部分开放结构)导致结合亲和力降低两倍[77]。因此,我们试图评估结合位点在RBP局部二级结构中的参与程度,这些结构是由初级序列识别的具有最可复制折叠的片段子集。我们使用MFOLD和UNAFOLD软件分析了热力学最优和次优变体,发现在足够长的片段情况下,变体之间对RBP结合位点ds和ss态数比值的评价差异不显著。 The occurrence of different structures of binding sites from fully closed (in ds state) to fully open (in ss state) varies widely. The average partial openness can be estimated at 45% (ratio of the number of nucleotides in ss states to the nucleotide number in primary binding site sequences), accordingly, the excess of the number of available binding sites in introns over the number of exons can be reduced. An accurate quantitative assessment is difficult due to the influence of possible thermal fluctuations on the openness and other nuances. It is important that partially open binding sites are likely to be weaker compared with fully open states and consequently the more reversibly binded by protein.
PTB蛋白结合
其他重要的聚嘧啶结合蛋白PTB P1及其类似蛋白PTB P2(仅在大脑中表达,特别是在神经元前体细胞中表达)是多功能蛋白[78]。PTB P1在功能上介导RNA环的形成[79],并与U2AF竞争结合py -tract (PPT)[80,81]。在某些情况下,PTB P1可以影响选择性剪接和外显子跳变(例如,非神经元剪接提取物中GABRB2基因的外显子跳变)[53,54,78],尽管与其他组织相比,大脑中的PTB P1水平足够低(蛋白质组学数据[69])。它的RRM1 (RNA识别基序)结合单链RNA;虽然RRM1和RPM2在溶液中保持独立,但rrm3和RPM4可能相互作用,产生单一的球状蛋白片段[83,84]。
PTB结合的RNA序列包含15-25个嘧啶碱基,优先选择含有UCUU、UUCU、(C)UCUCU的特殊嘧啶束[52,53,85]。UCUU/UUCU基序的发生率明显高于(C)UCUCU基序,并且与通常情况一样,该基序与更多非特异性Py-tracts共定位。我们沿着15q11-12位点绘制了这些区域。在长内含子3 (GenBank, GABRB3)中,它们在1维表示(图2T)和2*D表示(图3-5,图7,绿色或深绿色斑点,绿色斑点表示密度高于20 motif/knt的束,深绿色斑点表示密度高于25 motif/knt的束)中定位于中心部分,即在强峰B15和弱峰B11中,以及在分支间空间inter(interB14-B15, interB15-B16)。对于GABRB3基因的核心部分(图4),这种定位显示出强烈的峰值В32-33, B34/B34 ', B35。对于GABRA5基因的长内含子4,5 (GenBank),一维表示的峰(图2U)对应于分支B55, B57, B58,也显示在2*D表示中(图7)。对于计算机预测转录变体的chr15.140.2内含子,GABRA5注释转录本的5 '端上游也绘制了特异性y-基序的强峰。为了进一步阐明特异性ptb结合的Py-motif在非特异性Py片段中的结合程度,我们评估了包含特异性Pymotifs的15-25 nt Py非特异性片段的数量。大部分特异性ptb结合的py基序分散在含有15-25嘧啶的连续片段外。
在B11分支中,只有一个完美的Py片段(>15 nt)具有特定的Py-motif, B15 - 1 Py-tract (>15 nt)具有特定的Py-motif, B31-33 - 4区段,B34 - 8 Py区段有15-nt片段,B35 - 4区段有15 nt, B55 - 1区段有15 nt, B57 -3区段有15 nt, B58 - 1区段长于15 nt,具有特定的Py-motif。
绿色斑点主要位于图片的上部(图3),即长内含子3的中心(GenBank)。在内含子4 (GenBank)中,富含py的基序和束的强度高于内含子3 (GenBank),并且更加集中。这种增加的水平既指基序的总数,也指富含特定py -基序的几乎全尺寸片段(>15 nt)的数量。这个区域以外的水平很低。GABRA5基因的中间部分(内含子4,5)也含有强峰。
GABRB3和GABRA5基因内含子中的嘧啶束与剪接位点的定位距离较远,因此不太可能影响外显子跳变,其在剪接位点的远程定位中的作用尚不清楚。然而,不能排除它们对PTB P复合物组织长RNA环的影响,因为它们在组织和分化阶段依赖的方式下,在弱和受调节的外显子剪接中发挥抑制作用,这需要辅因子。
hnRNP
hnRNP L蛋白结合(CA)n,其中n约为30,定位在外显子内距离3 ' -剪接位点一定距离处,作为剪接增强子[86]。在大多数其他情况下,它可以作为剪接的消声器或增强子,这取决于它的结合位点是否接近另一个5 ' -剪接位点[87]。不仅规律的CA重复序列具有高亲和力,某些富CA集群也具有高亲和力。在我们的研究中,我们根据SELEX数据[87]对用黄色斑点标记的规则CA重复序列进行hnRNP L作图。通常为单链状态。在基因座中不存在长(CA)n重复(n>30)。2*D二级结构图像中的黄色点(图3-5,7)对应于低聚物,根据已发表的数据[87],它们的定位有利于剪接的沉默潜力。
对于hnRNP - G结合位点,偏好CCA重复序列[88]。长内含子3的B6分支(图3)具有足够长的相似序列重复。由于hnRNP G和hnRNP L结合位点可能有一些重叠,因此它们都用黄色点来标记(图3-5,7,密度较高的22 motif/knt为黄色运动)。请注意,根据蛋白质组学资料[69],与其他组织的谱相比,hnRNP L、G蛋白在大脑中的存在水平低于平均水平。CCA三核苷酸是CCAT重复序列的一部分,两者都在B6中遇到。CCAT是YY1转录因子的结合位点,它既能结合DNA[89],也能结合RNA,特异性较低。
hnRNP A1执行许多角色。众所周知,hnRNP A1和SRSF1在实现选择性剪接方面相互竞争[90]。hnRNP A1还与端粒序列相互作用[91,92],与颗粒结合并加速单链底物的退火[93]。这种蛋白质在组织中的水平与许多功能相一致,而在大脑中,它低于平均水平。hnRNP A1高亲和力结合基序TAGGGA/T的图谱[46,89]显示了许多潜在的结合位点,主要在gc区,长内含子外的结合位点与长内含子内的结合位点一样频繁(图2C-F)。
hnRNP C是一种高度浓缩的rna结合核蛋白(在大脑中,约为48.8 RPKM,最大82 RPKM,最小7.76 RPKM),它识别5U和4U [45];然而,并不是所有的潜在结合位点都被占据,在绘制5U区域后(图2A, B),其图大致符合PTB P曲线,但有一些变化。我们还在2*D表示中绘制了hnRNP C结合位点(5U),并通过将5T替换为5N来完成折叠过程的计算机模拟,以考虑高核密度对折叠结果的影响。比较结果与非再生分支的一些变化有关(数据未显示)。hnRNP C蛋白对亚结构细节的影响需要单独考虑。
然而,目前,我们评估了hnRNP C结合位点(4U和5U基序彼此分离的变体)的基序中处于ss状态的核苷酸数量与核苷酸总数的比例为30%,这意味着这些基序仅部分可用于蛋白质结合。与SRSF1和SRSF2的结合位点相比,这弥补了hnRNP C的结合位点密度的冗余性。相对于SRSF1和SRSF2蛋白位点的优先定位,长polyT序列通常处于较远的位置。相互隔离的4U通常与SRSF1和SRSF2结合位点的一级序列和二级结构都相距较远。至少在中等hnRNP C浓度的组织中,hnRNP C对SRSF1和SRSF2与内含子RNA以空间位阻形式结合的影响不是压倒性的。
我们的研究结果表明,与其他内含子(0.6 - 0.7单位/knt)相比,内含子3 (GenBank, GABRB3)的多腺苷化信号密度(多腺苷化信号密度,0.95单位/knt)增加了对长内含子的保护,以防止过早切割和多腺苷化[17-18]。在聚腺苷化位点簇中,A8 (Alu)的最大密度为27。GABRA5基因内含子的聚腺苷化信号密度在0.4-0.5单位/ nt范围内,两种基因的第一个内含子密度最高。
此外,尽管大脑中存在高水平的Drosha (RNase III)[69],但应该强调的是,该位点不包含用于加工成miRNA的Drosha pre-mRNA底物。此外,该位点不包含REST结合位点(REST是非神经元组织中神经元基因的转录抑制因子)。
简单核苷酸束的富集及其与ncRNA Malat1分支相互作用的潜力
PTB蛋白识别的短(4-6 nt) py基序普遍分布分散,这促使我们研究了该位点的寡核苷酸频率。我们将重点放在简单核苷酸序列的四聚体上,因为它们是rna结合蛋白识别的最短的简单序列,并且它们具有二级结构单链环互补(接吻)的最佳长度。由于序列组成更复杂,因此在富含at的内含子中遇到的频率更低的四聚体过于复杂,无法进行简单的分析。
与RNA的py束相互作用的蛋白由PTBP1, PTB P2, U2AF65 (U2AF2)基因提出。识别基序最短的蛋白以PTBP1、PTBP2为代表。它们需要UCUU/UUCU识别基元(PTBP1, PTBP2结合位点),分支点附近的py -束元件被U2AF65识别。为了了解GABRB3、GABRA5基因内含子中不同核苷酸束的可用性及其分布,我们基于核苷酸组成对四聚体的发生进行了初步评估。我们在不考虑核苷酸序列马尔可夫链特征的情况下完成了一个粗略的频率估计。从图8可以看出,内含子5、6 (Gene id)作为大内含子3 (GenBank, GABRB3)和内含子4 (GenBank, GABRB3)的一部分主要富集于3tc -束和3tg -束,而内含子3、4、7、9 (Gene id,部分内含子3,GenBank)富集于3AC束(未示出)。更复杂的2TAC、2ATC、2TAG、2ATG、AT2G和2G2C四聚体在这些内含子中代表性较小,我们没有考虑这些内含子3、4、7、8、9 (Gene id,部分内含子3 (GenBank))的四聚体,它们统一代表简单的3TC、3AG、3TG、3TC束和更复杂的2TAC、2ATC、2TAG、2ATG四聚体。
图8:内含子和Malat1 ncRNA中寡核苷酸的出现。内含子5(基因id,内含子3的一部分,GenBank, GABRB3)。(B)内含子6(基因id,部分内含子3,GenBank, GABRB3)。(C)内含子4 (GenBank, GABRB3)。(D)内含子4 (GenBank, GABRA5)。©内含子5 (GenBank, GABRA5)。(F) ncRNA Malat1 ncRNA (EF177381)。
自然,寻找含有嘌呤束和嘌呤束互补的基因组元件是很重要的。这些可能是相同内含子的局部元素,也可能是遥远的内含子。ncRNA Malat1的远端序列也应包括在内。根据前面提到的显微镜研究[20,27,94,95],含有丝氨酸蛋白和Malat1的NS(颗粒)被招募到染色质周围纤维区(PF), Malat1与新生RNA相互作用[96]。此外,具有pytract的pre-mRNA可以招募NS进行剪接,而招募和剪接过程只有在py -tract存在的情况下才能实现[95]。因此,我们在考虑寡核苷酸密度时,将ncRNA Malat1作为颗粒的一个组成部分。
在上述内含子中,根据15q11-12位点的定位结果,我们选择了顶端分支B9、B10、B11、B14-B15、B15、B16、B28、B31-33、B34、B35 (GABRB3)和B52-B59元件(GABRA5)进行分析。在图9A、B中,分支B11、B15、B31-33、B34、B35和分支间片段B14-B15、B15- b16从密度和总体数量上表示为Py束的主要载体。在图9A,B中,对于分支,分支间片段和分支子结构,全长的总束数和每1 knt项目长度的密度数等于
图9:GABRB3和GABRA5基因内含子部分片段的Py和Pu四聚体总数或密度差分布。(A) (Py (3tc)-Pu (3ag))差异(四聚体总数)。(B) (Py (3tc)-Pu (3ag))密度差(每元素长度的四聚体总数,单位为nt)。(A)-(B) TTCT/TCTT和AAGA/AGAA配对为黑色,TTTC/CTTT和AAAG/GAAA配对为灰色。(C) (Py (3tg)-Pu (3ac))密度差。TTGT/TGTT和AACA/ACAA对为黑色,TTTG/GTTT和AAAC/CAAA对为灰色。
count(Py) = number(TTCT) + number(TCTT) - number(TTCTT),
count(Pu) = number(AAGA) + number(AGAA) - number(AAGAA)。
图9A显示了每片段长度的束总计数count (Py)- count (Pu)之间的差异,以及它们每片段长度的密度差异(图9B)。从Py和Pu的差异图可以看出,分支B10、B14-B15、B15(内含子3,GenBank, GABRB3),特别是B28、B31-B33、B34′、B35(内含子4,GenBank, GABRB3)富集的Py-束比Pu-束多,B52、B54-B58 (GABRA5)也是如此,相反,Malat1富集的是Putracts而不是Py-束,尤其是Malat1-2片段。CTTT/TTTC与AAAG/GAAA、TTGT/TGTT与AACA/ ACAA、GTTT/TTTG与AAAC/CAAA的相似图。对Py和Pu对(CTTT/TTTC和AAAG/GAAA)的分析证实了上述Py (TCTT/ TTCT)和Pu (AGAA/ AAGA)的优势类型。对于TTGT/TGTT和AACA/ ACAA四聚体,差异图(图9C)揭示了TTGT/TGTT在大部分序列收集中(如B9, B10等,包括Malat1)优于AACA/ ACAA,这一观察结果与UG-rich和uarrich基序积极参与整个RNA折叠结构的双链延伸有关,此外,这是另一个重要的讨论。
更详细地说,对于内含子6(基因id,内含子3的一部分,GenBank), py -tract的密度(TTCT/TCTT)为13.4个单位/knt,而Pu (AAGA/AGAA)为11个单位/knt,对于内含子4 (GenBank), py -tract的密度为15.7个单位/knt,而Pu为8.6个单位/knt。例如,对于B15, Pytracts的密度几乎是Pu-tracts的两倍,例如,ρ(Py)~ 15单位/knt, ρ(Pu)~ 8单位/knt, (GenBank中内含子3中Py的最高浓度),对于B31-33, ρ(Py)~29, ρ(Pu)~5, B34 ρ(Py)~20, ρ(Pu)~10, B55 ρ(Py)~20, ρ(Pu)~5, B57 ρ(Py)~30, ρ(Pu)~4, B58 ρ(Py)~23, ρ(Pu)~5单位/knt。内含子4 (GenBank)的密度大于内含子6 (Gene id)和整个内含子3 (GenBank)的密度。我们还确定了B10、B11、B12-B15、B15、B15-B16、B16中的UUCU/ UCUU四聚体在单链(ss)状态下的存在率为50%(详细来说,B15中有近35%处于ss和ds状态,30%处于ss和ds状态的交界处);对于b34,大约43%处于ss状态;对于B55,约45%的基序处于ss态;B57约占58%;对于B58,大约56%处于ss状态。这些结果表明,内含子4中py -束的ss态密度大于内含子3 (GABRB3),并且ss态中最高的py浓度是B57、B58 (GABRA5)固有的。在Malat1中观察到相反的情况,其中pu束比py束多2倍以上。 An average density of Pu-tracts reaches 17 unit/knt, of Py-tracts, 8 units/knt for Malat1, and particularly in the middle part of Malat1-2 (Figure S3), the maximum density reaches 31-unit knt. In Malat1-2 fragment, AGAA/AAGA tetramers are present at 45% in a ss-state.
在Py和Pu类型分支回路的ss之间的局部相互作用中,特别是在interB14-B15、B15、B31-B33、b34、B55、B57、B58中,平衡明显转向Py束的流行,分支/分支间的局部相互作用不太可能导致Py束的冗余完全补偿,相反,对于Malat1,平衡很大程度上转向Pu束的流行。Malat1片段中的pu -四聚体浓度与GABRB3和GABRA5片段中的py -四聚体浓度的重合突出了最重要的片段以及ss-state部分。首先,这意味着通过交配环在核苷酸水平上以互补方式相互作用的能力,即在编码RNA和Malat1之间形成三级结构元件。对于PTB蛋白,嘧啶束的结构特异性得到了证实[77],这表明这种偏好是指主要基序中非结构化的ss链变异。追踪Malat1-2中带有Pu基序的ss环通常类似于pre-mRNA中富含py的分支的ss环的空间重复图。其次,编码RNA py -tract与Malat1 pu -tract的分支相互作用可能通过PTB P1,2和/或U2AF65蛋白的参与间接实现,也不能排除hnRNP C的影响。蛋白质的影响需要进一步研究。这种相互作用可能以组织依赖的方式实现,因为蛋白质在组织中的浓度变化很大[69](每种蛋白质的蛋白质组学数据(http:// ncbi.nlm.nih.gov/gene))。
Alu重复序列簇
为了研究GABRB3基因起始Alu簇在RNA水平上的作用和结构特性,我们对内含子RNA折叠进行了分步建模。从最小值(800 nt)开始,离散地增加片段的长度,每一步添加新的与相邻序列的Alu重复序列。这种模式相当于在步骤之间有长停顿的转录。从严格意义上讲,该模型不同于原生的动力学折叠。如图10所示,有2条链。上面的一个(图10A-E)从Alu1延伸到alu7。随着Alu 7的加入,转录延伸后的折叠沿着下链进一步发展(图10G-J)。在上链直方图(图10M)中,dsAlu退火的核为alu2(+)和Alu3(-),从直方图中可以看出,它们之间的间隔约为1700nt,而Alu3(-)和Alu4(+)之间的间隔约为400nt。在后一种情况下,退火的统计频率比alu2(+)和Alu3(-)之间的统计频率高约2倍。这种差异在逻辑上源于酶ADAR对dsAlu编辑率的评估[97]。假设长内含子的平均延伸率是这样的(~ 3kt /min)。 Thus, it follows that the nucleation of annealing for the whole cluster will be generated by the closest sense and antisense Alu, that is, by Alu 3(-) and Alu4 (+). Most likely, the lower chain is realized for an average rate of elongation inherent to long introns. In the special case of slow elongation or specific pauses, if any exist, the upper chain may by more preferential. After an addition of Alu7 and so on, the lower chain becomes thermodynamically more preferable then the upper chain.
图10:Alu簇折叠的不同步骤对应于添加下一个Alu与相邻序列重复。(A) - (F)上链。(G) - (J)下链。(J)内含子3的折叠,基因id,作为内含子3的一部分,GenBank。(K)分支B1的RNA产物二级结构。(L) A-Xist片段的二级结构,来自[98]。(M) Alu重复序列之间距离直方图。
整个链中较远的部分(Alu5-11)将根据出现在新生RNA和现有Alu重复序列中的极性进行退火。下链由3个ds-Alu和含有侧分支的中间片段组成,具有加劲肋的能力。这些片段(Alu1- alu2、Alu4-Alu5、Alu7-Alu8、5'end - Alu1)交替富集于Py和pu区,无明显的类型优势。这种现象可以防止片段折叠成缠结,这将发生在光滑的双链核苷酸片段上。在加入Alu7之后,直到Alu8出现,整个结构的延长是以牺牲非alu序列为代价的。后续添加alu8 - alu11不影响主伸缩结构的长度。
alu3(-)和Alu4(+)之间一个重要的顶端分支B1 (~ 400nt)退火后的形式与A- xist片段的结构接近,并且在茎环结合处具有相同的短寡聚物(' GGAUA '基序)(相比之下,A- xist片段具有相当均匀分布的8个重复[98]),该基序的突变导致与Polycomb suppression complex 2 (PRC2)的结合下降[99]。该A-Xist直接与PRC2相互作用,在其他因子的参与下导致X染色体失活[100]。对PRC2结合的共识搜索没有成功,导致研究人员提出PRC2与RNA相关的混杂性[101];然而,某些偏好是确定的(T>A, G>C)。对于B1序列,这种偏好得到满足(图3,红色点表示' GGAUA '重复密度高于5个motif/ nt)。就结构偏好而言,与PRC2相互作用的小RNA具有2个类似于A-Xist RNA的茎环结构,并且实验证实它们具有与PRC2相互作用的潜力[102]。众所周知,PRC2还与ncRNA和内含子rna相互作用,在这方面,我们的顶端结构B1也与2茎环结构以及A-Xist结构有许多相似之处(比较图10L,K中的结构(L)和(K))。这些发现与关于PRC2复合物RNA结合位点特性的观点一致。
由于其长度,整个结构的偏好导致其能够展示到远核空间,并且无疑,由于许多自由度,有利于扫描空间和跨越细胞核区域以及到达同一染色体的远部分的能力。
在本文的后面,我们将表明,重要的核小体定位簇位于下游区域,这将使该复合物在具有高水平PRC2成分的组织中更有效地发挥转录沉默作用。综上所述,我们可以说,在许多组织中,变体1,2中的Alu簇(特别是在胎儿形态中)可能是由于Alu簇结构和长内含子中最近的NP簇而导致转录沉默的可能机制之一。根据蛋白质组学数据[69],与许多其他组织相比,PRC2复合物的成分在大脑中并不丰富,这主要与胎儿发育阶段大脑中的表达有关。对于转录变异体3(包含Alu簇缺失的截断变异体1,2),除大脑外,还允许在其他一些组织中表达,如上所述。然而,变体3(图5)也包含一些已经被认为是Alu簇结构的隐型结构变体,例如,具有顶部B11-14亚结构(内含子1(6 '))的延长结构和在B12中含有TGrich含量的密集定位的特殊' GGAUA '基元。
核小体定位
在图11-V, W中,我们提出了在两种尺寸(小窗口和大窗口)的滑动窗口内对核小体定位信号(NP)进行平均的两种变体。可以看出(a)、(d)片段与基因剩余部分之间存在区别(图11V)。片段(a)具有最高和最低NP信号交替的特征,这意味着存在紧密dna相关的组蛋白八聚体,它们被彼此的零信号隔离,这可能会阻碍核小体簇的形成,并使转录延伸复杂化。为了克服这一障碍,需要重塑蛋白的参与。根据不同的模型,这些蛋白可以通过棘轮机制移动组蛋白八聚体,或者可能导致组蛋白八聚体排出[103],从而消除延伸障碍。这些蛋白是SWI/SNF(ISWI)和SAGA复合物的一部分[104-107]。根据蛋白质组学数据[69],这些蛋白(至少是运动BRG1和SNF2h蛋白)在大脑中的水平与平均水平相比是足够高的。GABRB3-GABRA5基因间区对应的片段(d)在NP信号中也有很多波峰和低谷(图11V)。
图11:基因座、内含子序列及NP和CTCF在DNA序列上的定位图。(A)箱线图,GABRB3基因每个内含子的reads数。(B) GABRA5基因每个内含子的reads数。(C) - (U)图1轨迹图。一些转录本的跳跃外显子呈椭圆形(C),(L), UTR呈半椭圆形(G)。(V) NP映射(短窗口平均)。(W) NP的映射(大窗口平均)。(X) ctcf2结合位点的定位。(Y)每个内含子长度读取数直方图(GABRB3基因)https://www.ncbi.nlm.nih.gov/gene/2562。
在II-IX位点的另一种情况下,核小体簇可能形成,以便在较大尺寸的滑动窗口中平均时检测到。在PRC2复合体存在的情况下,这些位点可能会随着表观遗传标记的引入而转变为沉默。值得注意的是,如前所示,位点III、IV与具有一些类似a - xist性质的顶端B1分支位于双向Alu簇的下游。带有a - xist样间隔的双向Alu簇的长方形次级RNA结构可能作为PRC2复合物的底物。这可能有助于III、IV位点转化为沉默状态。另一个重要的观察结果是,在内含子3 (GenBank, GABRB3基因)的5 '端附近区域,III峰、IV峰和CTCF [28] III峰(图11X)与SRSF2结合位点的峰(图2J、图3,暗紫色斑点)交替存在。在GABRA5开始的CTCF峰(图11X)和NP峰V-VII(图11W)也发现了同样的情况。值得注意的是,SRSF2蛋白有助于将RP-II从转录暂停中释放出来[70,71],而核小体定位峰和CTCF峰可能是导致延伸暂停的原因。
在图11A, Y中,每个内含子的读取数来自GenBank数据。靠近3 '端的内含子比位于中间的内含子具有更高的reads水平,比位于5 '端的大内含子具有更高的reads水平。这一发现与核小体与内含子体相比集中在外显子边缘的观点一致[108]。很难对这一观察结果作出明确的解释。这种观察结果可能与靠近3 '端(通常具有高外显子密度)的转录和加工延迟有关,或者与p1, p5和p6启动子的转录起始水平不同有关。这种解释在在线检测系统的情况下更有可能。另一种解释是包含内含子的外显子环形成的可能性。GABRB3基因检测到外显子RNA形成的环状存在[109]。
本节和前几节的数据表明,转录的双水平调控取决于每个组织中与SWI/SNF (ISWI)、SAGA或PRC2复合物相关的重塑或抑制蛋白的可用性。
同源染色体配对
在双翅目中,同源染色体体细胞配对很普遍,并且是转录依赖的[29,110,111]。至少这个过程的第一阶段与基因座中双向转录本的可用性和丰度是一致的。除了双翅目,智人在15q11-12位点也观察到同源配对[29,112]。基因库资源显示,该基因座的双向转录本为带注释的mRNA,通过芯片预测的变异,以及双向EST的可用性(图1T,U)。我们通过UNAFOLD研究了作为长双向转录本一部分的大内含子RNA的二级结构(图12)。类似地,与前面的情况一样,分支可以被认为是具有空间长圆形特征的多个稳定的茎环子结构。它们在核苷酸序列上具有大致相同的坐标(表S1),并且分支茎环结构的ss环之间存在许多互补,即对分支中的环序列互补,例如B25(内含子8,Gene id,(-)链)和B46(内含子1,Genscan,(+)链),B20-21(内含子7,Gene id,(-)链)和B47(内含子1,Genscan,(+)链),B18(内含子7,Gene id,(-)链)和B48(内含子7,Gene id,(-)链),(+)链),B51 (chr15.140,内含子1,Genscan(+)链)和B49(转录变体CL749803的一部分,图1L,(-)链)以及B52 (chr15.140,内含子2,Genscan,(+)链)和B50(转录变体CL749803的一部分,图1L,(-)链)。至少在视网膜中发现了转录变异CL749809。在其他组织中,尽管EST的双向性(图1T,U)支持广泛区域内的同源物配对,但与CL749809相关的这部分双向配对预测仍然值得商榷。 For further justification, we successfully attempted to elucidate the elements of tertiary structure by simulation of ss loop complementary sequences annealing by short oligonucleotides that also confirms the possibility of homologous pairing. As shown, the deletion variants that failed to provide homologous pairing are connected with multiple forms of diseases.
图12:15q11-12位点的双向转录本方案和内含子RNA折叠结构的图像。(A) chr15.137, Genscan,绿色。(B) chr15.140, Genscan,绿色。(C) GABRB3转录本,var1,2, GenBank。(D)转录本GABRB3, var3, GenBank。(E) CR749803(表S1)。(F) chr15.137,内含子1,Genscan。(G) chr15.137,内含子4,Genscan。(H) chr15.140,内含子1,Genscan。(1) chr15.140,内含子2,Genscan。 (J) intron 8, Gene id, part of intron 3, GenBank). (K) intron 7, Gene id, part of intron 3, GenBank). (L) part of intron1, Table S1, transcription variant CL749803, Figure 1L).
结论
在研究长内含子rna的热力学平衡二级结构时,发现了一些可重复的亚结构。这些子结构是最重要的结果,它们在折叠的最优和次优变体中重现。它们中的许多由dsAlu重复序列构成,并与rna结合蛋白位点富集的区域相关。在与pre-mRNA 5端(GABRB3, variant1,2)相邻的具有双向Alu重复序列的长第一内含子区域,包含dsAlu重复序列链(3个单位)的细长次级亚结构被鉴定为顶端茎环a - xist样分支(a - xist片段与PRC2相互作用,与X染色体失活有关)。这条3 dsAlu重复链的形成倾向于以高延伸率发生。在DNA上定位NP信号时,我们还发现核苷酸序列上的核小体簇可能导致与PRC2相互作用时的转录沉默。与许多组织相比,大脑中PRC2复合物的成分低于平均水平。基于这个原因,我们可以得出结论,沉默潜能在其他组织中比在大脑中更具特征。转录变体1和2只在大脑中表达。此外,Alu簇缺失后,截断的变体3在组织中的表达范围扩大。
第一长内含子RNA中心的主要部分(GABRB3、变体1、变体2和部分变体3)可以招募结合rnaba的丝氨酸精氨酸蛋白SRSF1、2、PTB P和/或NS。其他部分有hnRNP C、L、G和YY1结合蛋白的潜在结合位点。这种与不同蛋白质的潜在结合是组织依赖性的,这应该与它们在细胞核中的浓度水平相对应(蛋白质组学数据)。对RNA二级结构对结合的影响的评估表明,与完全非结构化的变体相比,RBP (SRSF1,2, PTB P, hnRNP C)的附着平均减弱。根据统计数据,第一个长内含子比其他内含子更容易发生转录后剪接,因此,它们可以在GABRB3基因区域整体上促进未来剪接体成分水平的提高,直至转录终止。靠近pre-mRNA 3 '端,内含子-外显子改变较多的区域(GABRB3, variant1-4)也富含丝氨酸蛋白SRSF1、2个rna结合位点和降低转录率的强分离NP信号。所有这些原因都可以在一定程度上解释该区域加工效率的变化(加工速度减慢和/或剪接精度提高)。
在第一个长内含子中,靠近前mrna 5 '端的区域(GABRB3,在变体1、2中,部分在变体3中)富含NP簇、CTCF结合位点、隐聚腺苷化位点,以组织特异性的方式引发转录暂停和SRSF2结合位点,这可能促进SRSF2蛋白参与RP-II暂停释放,并整体上加速转录,达到长内含子的高延伸率特征。在邻近前mrna 5 '端(GABRA5)的区域也发现了类似的情况。
对于15q11-12位点,人类基因组中染色体同源体配对被认为是一个罕见的事件,而双翅目的特征是类似的频繁现象,这些事件与配对位点存在大量双向转录本有关。对于基因座15q11-12,我们还在GenBank中发现了双向转录本,包括注释的转录本和计算机预测的转录本。长内含子rna成对成对的双向转录本折叠还发现了一些具有几乎相同坐标的可复制亚结构,这些亚结构很容易通过(+)和(-)链在ss环中进行大量基序退火而相互作用,从而启动同源配对。
确认
我们感谢Ryazanskii S.S.在计算机服务和技术支持方面提供的技术援助,Suzdaleva M.V.和Mikhailova K.B.提供的技术帮助。
没有参考文献