期刊名称:应用微生物学研究杂志
文章类型:研究
收到日期:2019年3月15日
接受日期:2019年3月18日
发表日期:2019-03-19
引用:刘兆宇,闫广新(2019)综合生物信息学分析识别肝细胞癌中差异表达基因。应用微生物学报Vol: 2 Issu: 1(01-07)。
版权:©2019刘肇宇。这是一篇开放获取的文章,根据创作共用署名许可协议(Creative Commons Attribution License)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
摘要
肝细胞癌是世界上最常见的肿瘤之一,具有很高的死亡率。本研究阐明了肝细胞癌相关发展的机制。从gene expression Omnibus下载HCC基因表达谱(GSE54238, GSE84004)进行综合分析。共鉴定359个基因,其中上调基因195个,下调基因164个。浓缩结果的分析表明,“细胞外同素异形体”是一个实质上丰富的术语。“细胞周期”、“代谢途径”和“DNA复制”是《京都基因与基因组途径百科全书》中三个内容丰富的词条。随后,构建了蛋白质-蛋白质相互作用网络。选择蛋白质-蛋白质相互作用网络中最重要的模块进行路径富集分析。结果表明CCNA2,PLK1,CDC20,UBE2C而且AURKA在the cancer Genome Atlas中,这5个枢纽基因在肝癌中的表达明显增加。单因素回归分析显示,高表达组患者的总生存期和无病生存期均长于表达组。此外,重要模块中的基因主要参与“细胞周期”、“DNA复制”和“卵母细胞减数分裂”信号通路。最后,通过上游miRNA分析,发现mir-300和mir-381-3p相互调节CCNA2,AURKA而且UBE2C.这些结果提供了一组靶点,可以帮助研究人员进一步阐明肝癌的潜在机制。
关键字
HCC, GEO, TCGA, DEGs,生物信息学分析。
摘要
肝细胞癌是世界上最常见的肿瘤之一,具有很高的死亡率。本研究阐明了肝细胞癌相关发展的机制。从gene expression Omnibus下载HCC基因表达谱(GSE54238, GSE84004)进行综合分析。共鉴定359个基因,其中上调基因195个,下调基因164个。浓缩结果的分析表明,“细胞外同素异形体”是一个实质上丰富的术语。“细胞周期”、“代谢途径”和“DNA复制”是《京都基因与基因组途径百科全书》中三个内容丰富的词条。随后,构建了蛋白质-蛋白质相互作用网络。选择蛋白质-蛋白质相互作用网络中最重要的模块进行路径富集分析。结果表明CCNA2,PLK1,CDC20,UBE2C而且AURKA在the cancer Genome Atlas中,这5个枢纽基因在肝癌中的表达明显增加。单因素回归分析显示,高表达组患者的总生存期和无病生存期均长于表达组。此外,重要模块中的基因主要参与“细胞周期”、“DNA复制”和“卵母细胞减数分裂”信号通路。最后,通过上游miRNA分析,发现mir-300和mir-381-3p相互调节CCNA2,AURKA而且UBE2C.这些结果提供了一组靶点,可以帮助研究人员进一步阐明肝癌的潜在机制。
关键字
HCC, GEO, TCGA, DEGs,生物信息学分析。
简介
肝癌是世界上最常见的癌症之一,主要包括肝细胞癌(HCC)、肝内胆管(ICC)和HCCICC混合型三种不同的病理类型,其中HCC占所有HCC的85% ~ 90%。HCC的发病率和死亡率随年龄增长而增加,男性HCC的发病率约为女性的3倍[1]。尽管近年来HCC的治疗取得了很大进展,但HCC患者的5年生存率仍<25%[2]。因此,需要更多的研究来了解HCC发生发展的分子机制,这对于制定更有效的诊断和治疗方法很重要。
目前,基因微阵列技术已被广泛用于收集基因芯片表达谱数据,并对许多人类癌症的基因表达谱进行研究。在公共数据库平台上发布了大量的数据,研究人员对这些数据库进行了整合,以寻找有关癌症发病机制的有价值的信息。Lau等人通过微阵列技术[3]在10对HCC和非肿瘤组织中鉴定了约4000个基因。Zhou等人分析了来自四个独立基因表达综合(GEO)微阵列数据集的大量人类HCC标本的mRNA表达谱,并确定了HCC发展的关键基因和潜在分子机制[4]。此外,Wang等人为HCC OS预测[5]的预后特征的识别提供了一条途径。此后,微阵列技术被应用于肝癌的遗传变化研究,定义了该疾病的几种不同的遗传变异,并确定了预测预后不良和转移的遗传特征[6-8]。虽然通过这些技术已经很好地了解了HCC的细胞和分子遗传改变,但其分子机制尚未完全阐明。
为了进一步研究HCC的分子机制,我们从GEO下载了两个微阵列数据集GSE54238和GSE84004,以识别HCC和正常肝组织中的差异表达基因(DEGs)。此外,我们将生物信息学整合到DEG的基因本论(GO)和京都基因与基因组百科(KEGG)分析中,构建蛋白质-蛋白质相互作用(PPI)网络,并对中心基因进行分析。然后我们从The Cancer Genome Atlas (TCGA)下载相关数据,对关键基因进行验证和评估。综上所述,本研究将有助于更好地了解HCC的发生和发展,并有助于HCC的早期诊断和治疗。
材料与方法
基因表达数据
数据从基因表达综合库(GEO)下载,这是一个公共数据存储库。本研究使用两组HCC RNA表达数据集GSE54238和GSE84004。数据集GSE54238基于GPL16955 (Arraystar human lncRNA microarray V1 100309),包括10例正常肝、10例慢性炎症肝、10例肝硬化肝、13例早期HCC和13例晚期HCC样本;基于GPL22109 (NimbleGenHuman 100309AShuman100426pz数组)的数据集GSE84004包含38个非肿瘤肝脏样本和38个肝癌样本。
度分析
原始数据转化为表达矩阵,然后用R中Affy包中的鲁棒多阵列平均算法进行归一化处理。然后用limma R包中的t检验方法识别肿瘤组织与相邻非肿瘤组织样本之间的DEGs。以|log2倍变化|>1和P<0.05作为DEG鉴别的阈值。
GO和KEGG分析
注释、可视化和集成发现数据库(DAVID)[9]是高通量基因分析的基本资源,为研究人员提供了一套全面的功能注释工具,以了解许多基因背后的生物学含义。利用DAVID数据库对鉴定的DEG进行GO[10]检测,包括分子功能、生物过程、细胞成分和KEGG[11]途径富集分析。
PPI网络建设与模块分析
识别相互作用基因(STRING)[12]的搜索工具是预测PPI信息的生物数据库。综合评分> - 0.4的相互作用具有统计学意义。使用Cytoscape软件(3.6.1版本)可视化综合调控网络。根据Cytoscape插件cytoHubba(0.1版)中的度级别,将排名前5位的基因定义为枢纽基因。分子复合体检测(MCODE)用于筛选PPI网络的模块。标准设置为:degree cutoff = 2, node score cutoff = 0.2, k-core = 2,最大深度= 100。此外,还对模块中的deg进行了函数和路径富集分析。
轮毂基因在TCGA中的表达验证
癌症基因组图谱(TCGA)[13]是一个癌症数据库,包含各种人类癌症的临床、基因组变异、mRNA表达、miRNA表达和甲基化数据等。我们从TCGA获得了HCC的临床信息和RNA测序数据。用单变量Cox回归分析和Kaplan-Meier曲线评估5个枢纽基因的预后。
上游miRNA分析
根据starBase(2.0版本)中miRNA-mRNA对的信息,分别对上游mrna进行预测。然后根据mrna的表达水平识别其上游共享的miRNAs。
结果
度分析
HCC表达芯片数据集GSE54238和GSE84004归一化。用limma包筛选GSE54283数据集(校正P值<0.05,logFC>2),得到1690个deg。从GSE84004数据集中筛选出了1001个deg。构建了识别的DEGs的表达热图(图1)和火山图。进一步的Venn分析显示,两组数据中均获得359个DEGs,其中上调基因195个,下调基因164个(图2)。差异表达上调或下调最显著的前10个基因列于(表1)。
表1:前10个显著上调或下调差异表达基因。
调节基因 | 表达下调的基因 | ||
---|---|---|---|
基因名字 | 假定值 | 基因名字 | 假定值 |
GPC3 | 2.33 e-11 | CRHBP | 1.39平台以及 |
AURKA | 1.34 e-09 | ADRA1A | 3.13平台以及 |
克服各种 | 3.54 e-09 | CLEC1B | 4.43平台以及 |
P4HA2 | 3.19 e-08 | AADAT | 5.87平台以及 |
PYGB | 1.05 e-07 | IGFALS | 9.18平台以及 |
PRCC | 1.40 e-07 | FCN2 | 1.21 e-09 |
PSMD11 | 1.63 e-07 | CNDP1 | 1.79 e-09 |
AKR1B15 | 2.39 e-07 | 胸径 | 1.83 e-09 |
STIP1 | 2.64 e-07 | ”丛书 | 1.95 e-09 |
SCAMP3 | 3.75 e-07 | FCN3 | 2.56 e-09 |
图1:前100个度数的分级聚类热图。(A) GSE54238数据(B) GSE84004数据。红色表示相对基因表达上调,绿色表示相对基因表达下调,黑色表示基因表达无明显变化。差异表达基因。
图2:(A)两组样本之间数据的差异表达式。左边是GSE54238数据,右边是GSE84004数据集。红点代表基于|倍变| >1.0和校正p值<0.05筛选的上调基因。绿色点代表基于|倍变| >1.0和校正p值<0.05筛选的基因表达下调。黑点代表基因表达无显著差异的基因。(B)图解GSE54238和GSE84004数据中deg的数量。灰色交集表示两个数据集之间的公共deg。DEG,差异表达基因;FC,折叠变化。
功能富集分析
上调基因以识别与所识别基因参与最显著的通路,deg提交给DAVID进行GO和KEGG通路分析。GO分析显示,在生物学过程中,DEGs主要富集于“氧化还原过程”、“细胞分裂”、“环氧合酶P450途径”和“补体激活调节”。在细胞成分方面,DEGs主要富集于“细胞外泌体”、“细胞液”、“细胞外间隙”和“细胞外区”。在分子功能方面,DEGs主要富集在“花生四烯酸环氧化酶活性”、“视黄醇脱氢酶活性”和“酒精脱氢酶活性,锌依赖性”(图3)。kegg途径分析表明,DEGs显著富集在“细胞周期”、“代谢途径”和“DNA复制”(图4)。
图3:DEGs的GO官能分析。利用DAVID对DEGs进行氧化石墨烯富集分析。给出了生物过程、分子功能和细胞成分分支中富集氧化石墨烯最显著(P<0.05)的10个术语。差异表达基因DEGs;GO,基因本体论
图4:肝细胞差异表达基因KEGG通路分析中明显富集的通路。京都基因和基因组百科全书。
PPI网络建设与模块分析
通过构建一个PPI网络(图5),揭示了识别的deg之间的相互作用。网络中共有366个节点和1440条边。按程度划分,前5个中枢节点分别为cyclin A2 (CCNA2;度,25),polo样激酶1 (PLK1;度,24),细胞分裂周期20 (CDC20;度,18),泛素结合酶E2 C (UBE2C;度,18)和着丝粒蛋白极光激酶A (AURKA;学位,17)。随后构建了一个具有32个节点和447条边的显著模块,该模块的MCODE评分最高(图6)。随后的功能富集分析显示,该模块中的基因主要富集在“核浆”、“MCM复合体”、“ATP结合”、“有丝分裂姐妹染色单体分离”和“dna复制启动”。所选模块基因的GO和通路分析(表2)。
表1
类别 | 通路ID | 术语 | 数 | P值 |
---|---|---|---|---|
英国石油公司 | 去:0000070 | 有丝分裂姐妹染色单体分离 | 4 | 9.34 e-06 |
英国石油公司 | 去:0006270 | DNA复制启动 | 4 | 1.52 e-05 |
英国石油公司 | 去:0045143 | 同源染色体分离 | 3. | 1.60 e-05 |
CC | 去:0005654 | 核浆 | 15 | 8.64 e-08 |
CC | 去:0042555 | MCM复杂 | 4 | 5.02 e-07 |
CC | 去:0005737 | 细胞质 | 17 | 1.70 e-05 |
CC | 去:0000784 | 核染色体,端粒区 | 5 | 3.45 e-05 |
曼氏金融 | 去:0005524 | ATP结合 | 12 | 6.09 e-06 |
KEGG | cfa04110 | 细胞周期 | 11 | 1.43 e-12 |
KEGG | cfa03030 | DNA复制 | 8 | 1.03 e-11 |
KEGG | cfa04114 | 卵母细胞减数分裂 | 6 | 1.89 e-05 |
图5:PPI网络由常见的deg、模块分析和枢纽基因构建。利用STRING在线数据库,将366个DEG筛选到DEG PPI网络综合体中。节点代表蛋白质,边缘代表蛋白质与绿圈的相互作用,红圈分别代表下调和上调的DEGs。PPI,蛋白质-蛋白质相互作用;DEG,差异表达基因。
图6:PPI网络中得分最高的模块。PPI,蛋白质相互作用。
肝细胞癌靶蛋白mRNA水平的验证
基于TCGA,我们确定了'CCNA2”、“PLK1”、“CDC20”、“UBE2C和AURKA’的表达明显高于正常肝脏样本(图7)。
图7:轮毂基因在TCGA中的表达分析。比较(A) CCNA2, (B) PLK1, (C) CDC20, (D) UBE2C和(E) AURKA在正常肝脏和HCC中的RNA表达水平。
进行单变量Cox回归分析。结果显示,5个枢纽基因与HCC患者的总生存期(log-rank P<0.05)和无病生存期(log-rank P<0.05)显著相关(图8)。这些结果提示,这些枢纽基因可能是HCC患者生存预测的有用候选基因。
图8:Kaplan-Meier曲线显示TCGA中HCC患者的OS和RFS。(A) CCNA2, (B) PLK1, (C) CDC20, (D) UBE2C和(E) AURKA在正常肝脏与HCC中的比较。
上游miRNA分析
根据starBase v2.0中的信息,选择miRanda预测程序搜索5个枢纽基因上游的miRNAs。通过比较DEM目标,CCNA2被发现是48种mirna的潜在靶标,AURKA被发现是31个miRNAs的潜在靶标,UBE2C被发现是九种miRNAs的潜在靶点,而PLK1被发现是三种miRNAs的潜在靶点。CDC20未发现其为miRNA的潜在靶点。值得注意的是,上游miRNA分析显示mir-300和mir-381-3p是常见的上游miRNAsCCNA2,UBE2C而且AURKA.
讨论
HCC是临床最常见的恶性肿瘤之一,发病率在所有恶性肿瘤中[14]居第三位。尽管近年来对HCC的研究取得了很大进展,但其发病机制尚不完全清楚。由于个体的生物学多样性和复杂性,HCC的早期诊断和治疗仍然是一个谜。随着高通量测序技术的快速发展,越来越多的基因功能被认识到,通过识别靶基因及相关通路[16]可以促进HCC的早期诊断和治疗。
在本研究中,我们对GSE84004和GSE54283基因芯片进行分析,提取相关差异基因,分析359个DEGs。为了解释这些DEGs的常见生物学功能,我们在DAVID平台上进行了GO和KEGG分析。在生物过程方面,已有研究报道氧化还原过程对维持细胞内稳态至关重要,可维持细胞增殖[17]。氧化还原过程的中断导致脂质、蛋白质和DNA的氧化损伤,从而促进肿瘤细胞的生长。此外,环氧化酶细胞色素P450通路在各种细胞功能中发挥着核心作用。同时,细胞分裂和补体激活调节在肿瘤发生和发展过程中起着致瘤作用[18]。
从细胞组成上看,体内大部分物质的代谢和部分蛋白质的修饰都是在胞浆中进行的,肿瘤细胞无限的生长潜力取决于胞浆中氨基酸的可利用性以及代谢能[19]。最近,研究人员发现致癌外泌体可促进免疫逃逸,当致癌外泌体超过抑瘤信号时,最终可在微环境中引起致瘤性[20,21]。在分子功能上,花生四烯酸环氧化酶、视黄醇脱氢酶和醇脱氢酶分别参与细胞色素P450、视黄酸等因子的产生。这些因子在许多生物学上重要物质的代谢、催化氧化或降低多种底物的特异性、维持肿瘤细胞[22]活性等方面发挥着重要作用。此外,肝组织锌染色证实,HCC细胞中的锌明显低于未转化的肝细胞[23]。对KEGG通路的分析显示,这些DEGs主要富集于“细胞周期”、“代谢途径”和“DNA复制”[24- 26]。为了预测这些DEGs的关联和蛋白功能,我们构建了一个PPI网络,其中选取了连接程度最高的前5个中心基因,包括CCNA2、PLK1、CDC20、UBE2C和AURKA。肿瘤的发展是一个极其复杂的过程,在这个过程中,致癌基因发生了许多遗传和表观遗传修饰。PPI网络的模块分析还显示,这些基因与“细胞周期”、“DNA复制”和“卵母细胞减数分裂”信号通路相关。此外,为了验证这些中心基因的表达水平,我们通过TCGA获得了HCC样本的临床信息和RNA测序数据,并进行了分析。我们发现5个hub基因在肿瘤和相应的非肿瘤组织中存在显著差异。 Then, we performed univariate Cox regression analysis. The results showed that the five hub genes were significantly correlated with the total survival time and the survival time without recurrence of HCC patients.
细胞周期蛋白A2,由CCNA2基因属于高度保守的细胞周期蛋白家族,其成员的功能是调节细胞周期。该蛋白结合并激活周期蛋白依赖性激酶2,从而促进G1/S和G2/M过渡[27]。许多研究表明,CCNA2的基因改变已在几种恶性肿瘤中被发现,如食管癌乳腺癌[28,29]。最近有证据表明CCNA2在有丝分裂过程中与actin和RhoA相互作用,通过耗尽诱导有丝分裂中活性RhoA的显著降低,从而促进细胞增殖[30]。
Polo样激酶1,丝氨酸/苏氨酸蛋白激酶由PLK1基因,属于CDC5/Polo亚家族。它在有丝分裂过程中高度表达,在许多不同类型的癌症中都有升高的水平。这种蛋白质在癌细胞中的耗竭会显著抑制细胞增殖并诱导细胞凋亡;因此,它是癌症治疗的靶点。PLK1通过直接激活戊糖磷酸途径,协调细胞周期进程中的生物合成,并促进RNF2降解,调节细胞有丝分裂,最终调节肿瘤的发生[31,32]。
CDC20编码细胞分裂周期20,这是细胞周期检查点的调节器。它直接与另一调节因子Cdh1结合,激活晚期有丝分裂促进复合体APC, APC在细胞分裂后期和有丝分裂退出中发挥重要作用[33,34]。最近,越来越多的研究表明CDC20是一种致癌因子,在多种人类恶性肿瘤中广泛调控,包括肺癌、肾癌和前列腺癌。此外,CDC20与肿瘤的拓扑预后密切相关[35-37]。
UBE2C编码泛素结合酶E2 C,是E2泛素结合酶家族的一员,该家族包括泛素激活酶、泛素结合酶和泛素蛋白连接酶[38],它们共同标记蛋白质进行蛋白酶体降解,通过蛋白酶体降解有丝分裂周期蛋白被破坏,促进细胞周期进程[39]。UBE2C在多种癌症中起作用,包括食道癌、胃癌和肺癌[40-42]。
AURKA编码极光激酶A,作为极光激酶家族[43]的成员,通过调节纺锤体、中心体和染色体分离来调节有丝分裂期间的G2/M过渡[44-46]。先前的研究表明,AURKB过表达可导致多核细胞和多倍体[47],并与成神经细胞瘤[48]的基因组不稳定性和不良预后高度相关。其他研究也表明了这一点AURKA可促进肿瘤细胞中抗凋亡蛋白的表达,该基因可作为生物标志物和靶点用于多种肿瘤治疗[49-51]。
在这项研究中,我们发现所有5个枢纽基因都与细胞周期相关。miRNA分析结果表明CCNA2,AURKA而且UBE2C是mir-300和mir-381-3p共享的潜在靶基因。已有研究表明,mir-300和mir-381-3p在胃癌、甲状腺癌、骨肉瘤等肿瘤中的表达是紊乱的[52-55]。尽管mir-300和mir-381-3p在HCC中的作用机制尚不清楚,但我们假设mir-300和mir-381-3p可能通过调控改变细胞周期CCNA2,AURKA而且UBE2C,从而促进肝癌细胞增殖。
结论
总之,本研究通过对两个队列数据集的综合分析,确定了可能参与HCC进展的候选基因和途径。这些结果可能有助于更深入地了解HCC的分子机制,并为未来的研究提供一系列潜在的生物标志物。这些发现为HCC的诊断和治疗提供了重要的见解。然而,缺乏实验验证是我们研究的一个局限性。因此,需要进一步的实验研究,以更大的样本量来验证这些发现。
没有参考文献