相信每一位做过高通量分析的老师对上面这个图片都不陌生。没错,它就是有名的topGO有向无环图。为什么它如此有名?为什么在做功能注释时GO数据库都是必选之一?它到底是个怎样的数据库?上面这个图又如何解读?今天,小编就为大家一一解开这些疑惑。
【什么是GO数据】
GO (gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各物种的,对基因和蛋白质功能进行限定和描述,并能随着研究的深入而持续更新的数据库。GO中最基本的概念是“标签(term)”,这些terms是用来描述基因和基因产物特性的,即GO数据库是给每个基因贴上标签,以便研究者能够通过标签快速寻找到目标基因。另外,这些terms被分为3种不同的类型,也被称为GO的3个一级功能,它们分别是细胞学组件(Cellular Component,简称CC)、生物学途径(Biological Process,简称BP)、分子功能(Molecular Function,简称MF)。
【怎么理解GO的一级功能】
做过高通量分析的老师都会发现,在GO分析中,所有的结果都是按照3个一级功能来整理分类的。也就是说,理论上每个基因都存在这3个不同层次的注释。下面小编就为大家详细介绍这3个GO的一级功能。
√ 细胞学组件(CC):用于描述亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等;
√ 生物学途径(BP):指分子功能的有序组合,以达成更广的生物功能,如有丝分裂或嘌呤代谢等;
√ 分子功能(MF):用于描述基因、基因产物的功能,如与碳水化合物结合或ATP水解酶活性等等。
那么,如何理解同一个基因注释到不同的类别中呢?现在小编就拿周期蛋白依赖性激酶1(CDK1)为例,来解答这个问题。基因CDK1在GO中注释到的功能有spindle(纺锤)、cell cycle(细胞周期)、protein binding(蛋白结合),则可以理解为CDK1是存在于纺锤体(或纺锤丝)上(CC),通过与某一蛋白形成复合物(MF)来参与细胞周期的(BP)。
【GO term之间的关系】
GO数据库的一级功能之下,细分了很多二级功能,这些二级功能代表的是该基因注释到的更为具体的功能。那么某一基因到底注释到了哪些功能上?我们通常会用GO有向无环图(如上图)来展示,图中每个方框表示一个term,方框中注明了该term的名称,id及Corrected P-Value。方框的颜色是由Corrected P-Value值决定,Corrected P-Value值越小,颜色越深。通常我们关注的都是结果中颜色较深的这些term代表的功能,因为它们的富集显著性较高。term与term之间的连线代表它们之间的关系。GO term之间的关系包括3类,分别是is a、part of 和regulates。
is a代表前者是后者的子类型,并且具有传递性。以下图为例,线粒体(mitochondrion)是一种胞内细胞器(intracellular organelle),而胞内细胞器是一种细胞器官(organelle),从而可以推出:线粒体是一种细胞器官。
图中的实线表示结点之间的关系,虚线表示推理而并未证明的关系。
part of代表前者是后者的一部分,前者存在,那么后者一定存在;后者存在,前者可能存在。也具有传递性。以下图为例,线粒体(mitochondrion)是细胞质(cytoplasm)的一部分,细胞质又是细胞(cell)的一部分,从而可得出:线粒体是细胞的一部分。
图中的实线表示结点之间的关系,虚线表示推理而并未证明的关系