中华预防医学杂志    2020年05期 转录组数据的图形呈现    PDF     文章点击量:113    
中华预防医学杂志2020年05期
中华医学会主办。
0

文章信息

裴晓婷 焦新伟 平智广
PeiXiaoting,JiaoXinwei,PingZhiguang
转录组数据的图形呈现
Visualization of transcriptome data
中华预防医学杂志, 2020,54(5)
http://dx.doi.org/10.3760/cma.j.cn112150-20191226-00959
引用本文:

文章历史

投稿日期: 2019-12-26
上一篇:早期成长逆境与端粒长度关联的研究进展
下一篇:膳食胆固醇或鸡蛋摄入与心血管疾病发生及死亡的关系研究
转录组数据的图形呈现
裴晓婷 焦新伟 平智广     
裴晓婷 郑州大学人民医院河南省人民医院河南省立眼科医院河南省眼科研究所河南省眼科学与视觉科学重点实验室 450003
焦新伟 郑州大学人民医院河南省人民医院河南省立眼科医院河南省眼科研究所河南省眼科学与视觉科学重点实验室 450003
平智广 郑州大学公共卫生学院 450001
摘要: 转录组学作为生物表型和功能研究的重要手段,已经成为目前的热点之一。转录组学研究伴随着海量数据的产生,数据量的增加使得隐藏在其中的规律和特征不易被发现,将大数据转换为可视化图形无疑是展示数据中隐藏信息的最直观的方法。本文将对转录组学研究中韦恩图、热图、火山图、主成分分析散点图、富集分析图、时间序列分析图等常用图形进行介绍解读,以帮助读者在研究中合理运用。
关键词 :转录组;大数据;可视化
Visualization of transcriptome data
PeiXiaoting,JiaoXinwei,PingZhiguang     
People's Hospital of Zhengzhou University/Henan Provincial People's Hospital/Henan Eye Hospital/ Henan Eye Institute/Henan Key Laboratory of Ophthalmology and Visual Science, Zhengzhou 450003, China
Corresponding author: Ping Zhiguang, Email: pingzhg@zzu.edu.cn
Abstract:As an important method to study the phenotype and function of organisms, transcriptome has become one of hot topics in current research. The transcriptomics research usually accompanies with massive data. With the increase of the amount of data, the rules and features hidden in it are not easy to be found. Transforming big data into visual graphics is the most undoubtedly intuitive way to display the hidden information of big data. Several graphs commonly used in transcriptome study were introduced in this paper, such as Venn diagram, heat map, principal component analysis scatter plot, enrichment analysis plot, and time series analysis plot, in order to help readers to choose suitable graphics in future studies.
Key words :Transcriptome;Big data;Visualization
全文

近年来,随着高通量技术的发展,单个基因的研究已经不能满足研究的需要,生物医学已经进入了组学时代[1],基因组学、转录组学、蛋白质组学被认为是研究生物表型和功能的重要手段,已经成为目前研究的热点[2,3]。转录组广义上指在某一生理条件下,细胞内所有转录产物的集合,包括mRNA、ncRNA、rRNA等,狭义上指的是所有mRNA的集合。与基因组不同的是,转录组的定义中包含了时间和空间的限定[4],同一个体中的不同细胞、组织中基因表达情况并不一样,而且,即使是同一细胞,在不同的生长时期及生长环境下,其基因表达情况也是不完全相同的。通过对不同细胞、组织,或同一组织不同时间、不同环境下的基因表达量进行定量分析,可以发现机体生长发育、疾病发生发展的分子机制,为疾病的预防和控制提供理论依据[5]
        转录组学的发展伴随着海量数据的产生,数据量的增加使得数据特征不容易被发现,而且,在差异分析时,如果还像小样本数据一样做假设检验,多次比较可能会出现假阳性错误[6]。因此,将大数据可视化无疑是展示数据中隐藏信息的最直观的方法[7]。在转录组学研究中,可视化的图形不仅可以展示组间、组内的表达差异,还可以观察基因表达量随时间变化的趋势,更好的反映处理因素的效果。因此,本文将对转录组学研究中几种常用的图形进行介绍解读。

一、韦恩图  韦恩图(Venn diagram),是用若干条封闭曲线(多为圆形或椭圆)直观地表示集合及其关系的图形[8],主要用于表示两个或多个元素重叠区域的频数或频率[9]。常用的绘制韦恩图的软件有在线软件(https://bioinfogp.cnb.csic.es/tools/venny/index.html)、R软件、Origin软件等。在转录组数据中,常常会涉及到几千甚至上万的基因数量,有时为了研究需要,会分别获得两组或多组数据中具有某种特定功能或特点的基因集。通过绘制韦恩图,可以直观的显示出这些特定功能的基因集中,哪些是组间共有的基因,哪些是每组独有的基因[10]。如图1A,分别是对照组和实验组中具有同一种生物学功能的基因集,对照组有2 168个基因,实验组有6 297个基因,韦恩图将所有基因分成了三部分,第一部分是对照组中独有的基因,有1 056个,占14.4%,第二部分是实验组中独有的基因,有5 185个,占70.5%,第三部分是对照组和实验组同时拥有的基因,有1 112个,占15.1%。韦恩图不但可以展示两组基因集的重叠区域,如果分组有多个,还可以绘制多组基因集的包含关系,如图1B,是五组基因集之间的重叠关系,图中数字为组与组之间的重叠数量,五组基因数分别为451、412、335、374、367个,组2中独有的基因数量为93个,5组共有的基因为31个。除了每部分基因数和频率,软件还可以获得各个部分的基因名称清单,即每组独有和多组共有的基因都有哪些,便于后续的进一步的分析。虽然韦恩图在展示组间重叠区域的时候很直观,但是当分组较多时(>5),绘制出的韦恩图就会比较复杂,划分区域较多,此时韦恩图便不再适用。

图1基因集重叠关系韦恩图 A为两组基因集之间的基因重叠关系;B为五组基因集之间的基因重叠关系

二、热图  热图(heatmap)是用相同或不同色系的颜色深浅表示不同个体某一指标量的多少或水平高低,通常有两大作用,一是通过对数据或样品的聚类实现数据质量控制;二是直观展示研究对象的差异变化情况,观察数据的节律性[11]。在转录组学研究中,热图的每个基本单元格常用来表示不同个体不同基因表达量的多少。如图2A,为聚类热图,每一行代表一个基因,每一列代表一个研究个体,红色代表相对上调,绿色代表相对下调,颜色越深,表达量越大,上方树形图(对列的聚类分析)可以明显的看到,实验组基因的总体表达模式与对照组的基因表达模式存在很大的差异,说明组间差异较大,该处理因素有效,或者说分组因素可以有效的将研究个体分开。这证明无论是对照组还是实验组,各自的样本重复性都是很好的,至少可以证明其在实验处理上不存在大的失误,得出的数据也是可信的。如果出现同一组的某一个或某几个样本与另一组个体聚为一类,就需要小心调查前期实验是否存在问题了。左侧的树形图(对行的聚类分析)显示了表达量相似的基因被聚为一类。图2B中,为非聚类热图,每一列代表一个时间点的基因表达量,每一行同样代表一个基因,在不使用列聚类与行聚类的功能时,此时的热图可以反映每个基因表达量随时间的变化,直观地显示基因表达的节律性,适用于重复测量基因(如昼夜节律)的研究。

图2基因表达量的热图示例 A为根据基因表达量进行聚类后的热图;B为基因表达节律性的热图 T:实验组;C:对照组

三、火山图  火山图(volcano Plot)本质上是一种散点图,主要是用来展示组间差异表达基因的图形,常用于转录组学研究中[12]图3为常见的火山图表示形式,横坐标为log2(FC),FC(Fold Change)为差异倍数,即实验组与对照组表达量的比值,通常认为FC≥2或FC≤0.5,并且FDR <0.05为组间表达量差异有统计学意义(FDR为错误发现率,代表显著性,也叫Q值),FC≥2(log2(FC)≥1),并且FDR <0.05表示实验组与对照组相比,表达量上调,在图中用红色点表示,FC≤0.5 (log2(FC)≤-1),并且FDR <0.05表示实验组与对照组相比,表达量下调,在图中用蓝色点表示,0.5<FC<2(-1< log2(FC)<1)或,FDR≥0.05表示实验组与对照组相比,表达量差异无统计学意义,在图中用灰色点表示。纵坐标为-log10(FDR),即检验两组样本差异是否统计学意义。两条黑色竖的虚线代表横坐标的无效线,即X轴log2(FC)= 1和log2(FC)=-1两条线,黑色横的虚线代表纵坐标的无效线,即Y轴-log10(FDR)=1.3(FDR=0.05)时的线。两条竖的无效线之间,以及横的无效线与X轴之间的点均代表组间表达量差异无统计学意义的基因。常用的火山图绘制软件有R软件的ggplot2程序包。

图3火山图示例FC为差异倍数;FDR为错误发现率

四、主成分分析散点图  主成分分析散点图(principal component analysis scatter plot):在实际研究中,为了全面分析问题,往往搜集多个相关的变量,如果把所有搜集的变量都纳入分析,就会出现变量间存在较强相关关系的现象,使自变量与因变量的关系不容易被解释,或者使结果变的不稳定。而主成分分析就解决了这一问题,主成分这一概念最早是由Karl Pearson于1901年提出的,1933年Hotelling将此概念推广到了随机变量中,主成分分析是考虑了多个变量间相关性的一种多元统计方法,其原理是从原始变量中提取少数几个主成分,使它们尽可能多地保留原始变量的信息(通常认为所提取的主成分,累计方差贡献率要>75%),且彼此间互不相关[13]。随着生物医学的研究进展,主成分分析逐渐被运用到转录组学研究中去,根据主成分分析绘制的散点图可以非常直观地展示出组间和组内的差异。如图4,是由老年和成年个体的转录组数据绘制的主成分分析散点图,自变量为待检测基因一天中24 h的表达量,结果提取了三个主成分,累计贡献率为83.2%。横纵坐标分别代表不同的主成分,两个坐标系代表研究变量在第一主成分(PC1)、第二主成分(PC2)和第三主成分(PC3)上的相关关系散点图,各主成分无特殊含义,坐标轴上的数值仅代表变量之间在相应主成分上的相对距离,每个点代表一个变量,即每个小时所有基因的表达量,不同颜色的点代表不同的分组。图4显示,第一、第二和第三主成分所解释的变异占总变异的比例分别为45.9%、28.9%和8.4%,在第一主成分上,两组数据被有效地分开,在第二和第三主成分上,蓝色和橙色代表的组别没有被分开。从第一主成分来看,该资料组内差异较小,组间差异较大,说明年龄可能是引起组间差异的主要原因之一。

图4主成分分析散点图示例

五、富集分析图  富集分析(enrichment analysis)是将长串的基因或蛋白与某个生物学现象联系起来的一种方法。富集是指将基因按照先验知识,也就是基因组注释信息,对基因进行分类的过程。基因经过分类后,能够帮助我们寻找到基因是否具有某方面的共性(如功能、组成等)。常见的富集分析方法包括京都基因与基因组百科全书(kyoto encyclopedia of genes and genomes,KEGG)通路富集分析[14]、基因本体学(gene ontology,GO)功能注释[15]、基因集富集分析(gene set enrichment analysis,GSEA)[16]、相位富集分析(phase set enrichment analysis,PSEA)[17]。现介绍富集分析的统计检验原理,如一种生物共有基因10 000个,某个KEGG通路共包含100个基因。而研究找到的差异基因或感兴趣的基因有200个,在这200个基因里面,有50个基因属于上述KEGG通路里的基因,根据相应的统计学检验判断其显著性,进而说明这200个基因是否为随机的200个基因,或者是否具有一定的富集。下面对四种富集分析进行一一介绍。

(一)KEGG富集分析  KEGG是一个整合了基因组、化学和系统功能信息的综合数据库。KEGG下属4个大类和17个子数据库,而其中有一个数据库叫做KEGG Pathway数据库属于其中最常用的一个,专门存储不同物种中基因通路的信息,包括代谢、信号转导、疾病、细胞生长周期等。KEGG富集分析最常用的图形展示形式为柱状图和气泡图。如图5A为富集分析柱状图,纵坐标代表通路的名称,该例子中只展示了Q值最显著的前10条通路,这些差异基因(或者说该处理因素)主要与生物的信号转导和内源性物质分泌有关,包括钙信号通路、cAMP信号通路、Jak-STAT信号通路、PPAR信号通路、IL-17信号通路、肾素分泌、唾液分泌、胰腺分泌等。折线对应主要横坐标(上方),点的位置代表富集到每个通路的基因数目。柱子的长度对应次要横坐标(下方),代表通路的显著性,即-log10(Q value),柱子的长度大于1.3(即Q=0.05)时,代表这些基因在该通路上显著富集。图5B为富集分析的另一种表现形式,气泡图,和柱状图表达的内容一样,只是这里圆的大小代表富集到的基因数目,圆的颜色代表富集通路的统计学意义,颜色越深,表示该通路越可能具有统计学意义。

图5KEGG富集分析图示例 A为KEGG富集分析柱状图;B为KEGG富集分析气泡图

(二)GO富集分析  GO是按照生物过程、分子功能和细胞组成对基因进行注释和分类的。通过对差异表达基因进行GO terms富集度统计分析,计算出差异基因GO terms的P值和FDR值(错误发现率),定位差异基因最可能相关的GO term。GO富集分析的图形展示形式与KEGG富集分析类似,包括柱状图和气泡图,图形解释也同KEGG,只是纵坐标不再是通路,而是不同的生物过程、分子功能或细胞组成[18]

(三)GSEA富集分析  GSEA是一种用于确定一组预先定义的基因集S(基于先验知识的基因注释信息)是否在两种生物状态(表型)之间具有统计学差异的计算方法,其原理是通过评估预先定义的基因集S和待测基因集L(一般是表达矩阵),判断S基因集中的基因是随机分布于L(排序后的数据集),还是聚集分布在L的顶部或者底部(也就是富集)[16,19]。其输入数据包含两部分,一是已知功能的基因集(可以是GO注释、MsigDB的注释或其他符合格式的基因集定义),二是表达矩阵,软件会对基因根据其于表型的关联度(可以理解为表达值的变化)从大到小排序,然后判断基因集内每条注释下的基因是否富集于表型相关度排序后基因表的顶部或者底部。若研究的基因集S的成员显著聚集在L的顶部或底部,则说明此基因集成员对表型的差异有贡献。图6展示的是脂肪酸代谢这个功能集在待测基因集上的聚集程度,富集得分(enrichment score,ES)反应基因集S在排序列表L两端富集的程度,正值ES表示基因集在列表的顶部富集,负值ES表示基因集在列表的底部富集。领头亚基(leading edge subset)是对富集得分贡献最大的基因成员,当ES为正值时,领头亚集位于对应排序序列之前,反之,则位于对应排序序列之后,领头亚集的出现说明这些基因在通路中有富集,非随机分布。红色框中的每一条竖线代表基因集中的一个基因,及其在基因列表中的排序位置。下面部分展示的是基因与表型关联的矩阵,红色为与第一个表型(G:高血糖组)呈正相关,在高血糖组表达高,蓝色与第二个表型(CON:对照组)呈正相关,在对照组中表达高。关联矩阵下方是所有基因排序后的分布,横坐标为每个基因的排序(Rank值),纵坐标为信噪比(Signal2nois),它表示基因与表型的关系,正值表示与第一个表型相关,负值表示与第二个表型相关。

图6基因集富集得分图示例

(四)PSEA富集分析  PSEA是一种基于循环正态分布(Von Mises分布),将先验知识融入到周期性数据中,用于识别并显示出时间依赖的生物相关基因集的分析方法。PSEA使用的检验方法是Kuiper检验,一种评估样本累积概率分布和背景分布之间差异的非参数检验方法[17]。PSEA主要包括三个步骤,第一步:输入待检测的基因集及每个基因对应的相位。第二步:选择包含生物学特性的基因集的文件(.gmt格式),注释良好的基因集可以从GSEA(gene set enrichment analysis)官网(http://software. broadinstitute. org/gsea/msigdb/index. jsp)下载。第三步:选择合适的参数,包括设置每组最小基因数、每个检验的最大模拟次数、循环周期、Kuiper检验的检验水准等。PSEA的结果见图7,除了图形,PSEA的结果还会输出一个包含每条通路富集的基因数、Kuiper统计量、P值、Q值和相位的文本文件,图7左侧每条通路的圆轴方向(角度)代表路径中昼夜节律基因的向量平均相位,橙色虚线的长度和粗细代表该通路对整个基因集的贡献度,线越长越粗,代表该通路对整个基因集的贡献越大。如图中KEGG-RIBOSOME(核糖体)是贡献最大的通路,说明该基因集可能与核糖体的功能相关。图7右侧为基因的累计相位分布曲线,蓝色线条表示背景分布,即先验分布,橙色线条表示KEGG_AXON_GUIDANCE(轴突导向)通路中待检测基因集的实际分布。

图7相位富集分析图示例

六、时间序列分析图  在转录组学研究中,往往会对基因表达量进行重复多次检测,以了解基因表达的节律性和周期性,而时间序列分析图可以很好地反映基因表达量随时间的变化趋势,时间序列分析图本质上也是一种折线图,每一条线代表一个基因,也就是一个类别。图8展示了三种表达模式的基因集,其中横坐标代表时间(ZT时间),本例中观察周期为1 d,即24 h,纵坐标是标准化后的表达量。族1(cluster1)中的基因在白天表达量逐渐上升,晚上又逐渐下降,族2(cluster2)中的基因表达趋势与族1正好相反。族3(cluster3)中的基因表达量在白天先升高再下降,而晚上先下降到波谷,又逐渐上升。R软件的Mfuzz程序包可以根据基因的表达变化趋势对基因进行聚类,该程序包采用的fuzzy c-means算法是一种软聚类算法,这种算法有效的定义了基因和cluster之间的关系,即基因是否属于某个族[20],对应的值为memebership,通常规定memebership>0.7的基因属于该族。

图8时间序列分析图示例
随着生物信息化和组学时代的发展,大量的数据被收集储存,如果直接观察数据,很难发现隐藏在其中的规律特征,根据研究目的,将转录组数据进行可视化,从而直观地发现不同环境下基因表达的差异或规律。除了韦恩图、热图、火山图等这些常见的图形以外,还有反映周期数据时间分布的玫瑰图、基因表达量变化幅度的小提琴图、基因互作关系的共表达网络图等,均能从不同角度反映基因集表达量、组间表达差异的时间和空间变化。另外,这些图形不仅仅可以应用在转录组学研究中,在其他领域如16 S测序、蛋白组学、重复测量资料等,根据数据特征合理运用,均能呈现很好的效果。
        总而言之,采用可视化图形展示转录数据,既可以轻松找到隐藏在数据中的规律,发现对疾病、特征起关键作用的基因集,又能代替冗长的文字向读者传达主要信息,提高文章的可读性和美观性。

[选择题](单选题)
        1.广义上的转录组不包含( )
        A. mRNA B. ncRNA C. DNA D. rRNA
        2.热图的作用不包括( )
        A.通过对数据或样品的聚类实现数据质量控制
        B.展示研究对象的差异变化情况,观察数据的节律性
        C.展示两个或多个基因集之间的重叠关系
        D.观察处理因素的效果
        3.通常情况下,下列哪种情况代表实验组基因表达量上调( )
        A.实验组比对照组,差异倍数为3,FDR=0.07
        B.实验组比对照组,差异倍数为0.3,FDR=0.02
        C.实验组比对照组,差异倍数为1.5,FDR=0.01
        D.实验组比对照组,差异倍数为3,FDR=0.02
        4.下列哪种富集分析不属于GO富集( )
        A.生物过程富集分析
        B.相位富集分析
        C.分子功能富集分析
        D.细胞组成富集分析
        5.下列对主成分分析散点图描述错误的是( )
        A.主成分分析散点图可以直观地显示组间转录差异
        B.主成分分析散点图上点越近表示变量相关性越大
        C.组间的点分散,组内的点聚集,说明组间差异较大,组内差异较小
        D.主成分分析散点图只能观察组间差异大小,不能观察组内差异大小

参考文献
[1]朱真,朱嗣博,张铁军,等.宏基因组学与人类健康关系研究进展 [J].中国公共卫生, 2019, 35(1): 122-124. DOI: 10.11847/zgggws1118997.
[2]李扬,闫晗,田小利 .转录组学结合全基因组关联分析鉴定ROR1为冠心病新易感基因[J].中华老年医学杂志,2019,38(7):727-732. DOI: 10.3760/cma.j.issn.0254-9026.2019.07.004.
[3]BruningO, RauwerdaH, DekkerRJ, et al. Valuable lessons-learned in transcriptomics experimentation[J]. Transcription, 2015, 6(3): 51-55. DOI: 10.1080/21541264.2015.1064195.
[4]CrosettoN, BienkoM, van OudenaardenA. Spatially resolved transcriptomics and beyond[J]. Nat Rev Genet, 2015,16(1):57-66. DOI: 10.1038/nrg3832.
[5]PatilS, ArakeriG, AlamirA, et al. Role of salivary transcriptomics as potential biomarkers in oral cancer: A systematic review[J]. J Oral Pathol Med, 2019, 48(10): 871-879. DOI: 10.1111/jop.12895.
[6]姜凌.生物统计中多重检验问题的分析研究[D].济南:山东大学, 2008.
[7]StoegerT, BattichN, HerrmannMD, et al. Computer vision for image-based transcriptomics[J]. Methods, 2015, 85: 44-53. DOI: 10.1016/j.ymeth.2015.05.016.
[8]MeyersPD, McNicholasMJ. Improved data illustration in complex multi-ligament knee reconstruction surgery: using the historical principles of Florence Nightingale and John Venn[J]. Acta Orthop, 2008, 79(2): 244-248. DOI: 10.1080/17453670710015049.
[9]顾巨林,张庭铭 .韦恩图在高中生物学教学中的应用及例析 [J].生物学教学 ,2008, 33(6): 16-18. DOI: 10.3969/j.issn.1004-7549.2008.06.007.
[10]LvS, XuX, WuZ. Identification of key candidate genes and pathways in endometrial cancer: Evidence from bioinformatics analysis[J]. Oncol Lett, 2019, 18(6): 6679-6689. DOI: 10.3892/ol.2019.11040.
[11]LuDL, LinCP, JiaoXW, et al. Short-term High Fructose Intake Reprograms the Transcriptional Clock Rhythm of the Murine Extraorbital Lacrimal Gland[J]. Invest Ophth Vis Sci, 2019, 60(6): 2038-2048. DOI: 10.1167/iovs.18-26030.
[12]方积乾. 生物医学研究的统计方法第2版[M].北京:高等教育出版社, 2019.
[13]万崇华,罗家洪. 高级医学统计学[M].北京:科学出版社, 2014.
[14]ChenGY, RuanL. Downregulation Of microRNA-133b And Its Clinical Value In Non-Small Cell Lung Cancer[J]. Onco Targets Ther, 2019, 12: 9421-9434. DOI: 10.2147/OTT.S231312.
[15]AshburnerM, BallCA, BlakeJA, et al. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium[J]. Nat Genet, 2000, 25(1): 25-29. DOI: 10.1038/75556.
[16]HahneF, HuberW, GentlemanR, et al. Bioconductor Case Studies: Chapter 13[M]. Springer, 2008.
[17]ZhangR, PodtelezhnikovAA, HogeneschJB, et al. Discovering Biology in Periodic Data through Phase Set Enrichment Analysis (PSEA) [J]. J Biol Rhythms, 2016, 31(3):244-257. DOI: 10.1177/0748730416631895.
[18]KaleshK, DennyPW. A BONCAT-iTRAQ method enables temporally resolved quantitative profiling of newly synthesised proteins in Leishmania mexicana parasites during starvation[J]. PLoS Negl Trop Dis, 2019, 13(12): e0007651. DOI: 10.1371/journal.pntd.0007651.
[19]SubramanianA, TamayoP, MoothaVK, et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles[J]. Proc Natl Acad Sci U S A, 2005, 102(43): 15545-15550. DOI: 10.1073/pnas.0506580102.
[20]LokeshK, MatthiasEF. Mfuzz: a software package for soft clustering of microarray data[J]. Bioinformation, 2007, 2(1):5-7. DOI: 10.6026/97320630002005.