基于D3的生物信息关联基因数据可视化

/ 2

基于 D3的生物信息关联基因数据可视化

段晓瑞 1 杨文颖 1 范镇业 1 董素芬 1, *

  1. 河北农业大学 信息科学与技术学院 河北 保定 071001;)


摘要:随着基因组时代的到来,生物信息领域对于基因关联效应的突破迫在眉睫,数据可视化应用的注入对于推动生物信息关联基因的发展将是一个重要的转折点。文章采用D3数据可视化技术,通过力导向图实现对基因关联性和关键基因的差异性表达。

关键词:数据可视化;力导向图;基因关联;差异性表达;

1 引言

生物信息领域的大数据具有传统大数据的特点,同时其数据结构也更加复杂,隐藏在数据里的基因关联性成为了当前生物技术发展的迫切需求。利用传统方式来处理数据很难发现数据的关联性,这就对关键基因的解读带来了很大的挑战[1]。文章利用数据可视化技术对基因数据进行处理和解读,通过D3.js中的力导向图来展示基因数据之间的关联效应和批量基因在不同条件下的差异性。

2 背景

在生命科学领域,可视化是不可缺少的一部分,基于转录组、蛋白质组学数据进行基因定量表达分析、获取不同条件下差异表达的基因、并进行关键基因表达产物的KEGG代谢路径和GO分析已经是当前生命科学领域数据分析的重要内容之一。

全基因组关联分析是一种针对全基因组范围内的遗传变异进行基因分型, 寻找某一群体内表达产物与分子标记或候选基因间关系的分析方法,对于连锁标记、目的基因挖掘和复杂性状的研究具有重要作用[2]。随着测序技术的发展,高通量的全基因组关联分析在多基因表达的遗传解析中有了大量成功应用,同时结合选择信号分析有助于对表达产物的检测[3]

3 关联基因数据可视化研究

以基因组学、医学遗传学等为代表的生命科学领域,关于基因组学中的数据类型多种多样,数据结构各异,依据以往传统的处理手段依据无法梳理清楚基因数据里错综复杂的关联信息,将可视化技术应用于这个领域范畴的研究迫在眉睫,针对基因之间复杂的关联信息的可视化研究,将会清晰细节的展示基因组之间错综复杂的网络关系,从而挖掘有用的信息。

3.1基因关联性

基因关联性的钻研对于生命科学范畴的发展至关重要,对于基因组关联性的分析起源于一项具有年龄相关性的黄斑变性GWAS研究,后来又有了冠心病、肥胖等等,大多数的研究都来源于也应用于遗传疾病方向,除此之外在生物圈这个大系统中不仅仅只有人类基因会呈现关联性,所有生物的生存都会依赖于本身基因的关联性。

在研究生物体适应性的时候不能单个的测量某个单个单点基因对其的影响程度,而是需要研究基因表达结果的关联性。由于生物基因关联效应的存在,在面对大量关键基因数据分析时,面临着数据结果难以整合以及不能高效解读关键结果的问题,大大限制了科研人员的对关键基因表达数据的全面获取效率。

3.2 D3可视化技术应用于基因表达

在生物信息领域对于基因关联性的分析中,对于基因组比较数据的可视化快速实现也有所研究,但是可视化方面的应用一般是采用韦恩图来表达基因之间的关系,因为韦恩图的局限性,很难展现数据集中每个基因的关系。

本研究采用了D3中力导向网络图进行可视化展示。基因组的关联效应的存在刚好是适用于力导向图的特征,当对采集的大量基因数据展示时,每个基因数据初始状态是以混沌状态随机出现在各个位置上,然后在两种力的作用下渐渐出现平衡状态最终稳定下来展示基因数据的各个结果及其相关性的程度。因为力导向图特定的运动方式,使得力导向图可以很好的对于基因之间聚类效果进行展示,从而可以使得生物科研人员可以很好的观察到基因结果之间的远近关联关系。对于基因表达结果的研究突破以往的只能观察数量聚类和关联规则的限制,进一步分析基因与基因之间存在的类似于人际关系网之间的复杂关系,推动生物基因领域的发展。

3.3批量基因差异表达分析

研究基因与基因之前的关系,不仅仅只是基因与基因本身的关系还有批量基因差异性表达,基因的多样性不仅在于其种类的多样性,更多的也是对于我们研究最为有用的便是批量基因的差异表达,同一个基因在不同环境会展示出不一样的表达结果,不同的基因在相同的环境下也会展示出一样的表达结果,所谓的基因表达结果的研究也就是对基因组、转录组、蛋白质组学数据进行定量分析和差异化多样性表达分析,以便于获取不同条件下基因的差异性表达。

采用力导向图整合不同条件下批量基因差异表达,并进行关键基因表达产物的KEGG代谢路径和GO分析展示可视化结果。

KEGG是基因组破译方面的数据库,作用是透过KEGG让研究者可以做到从基因组到细胞层次做一次整合性的连接,也就是一个基因的代谢通路,通过他们可以展示出基因更高一阶的生物学功能。

GO数据库把基因的功能分为了三个部分,细胞组分、分子功能、生物过程。利用GO数据库我们就可以得到我们采集的基因在这三个层面上与什么有关。

利用KEGG通路和GO这两个数据库对实验基因数据进行整合并计算出其在不同条件下批量基因的不同调控水平,而力导向图就可以对这些基因进行整合并展示,不同基因在同一条件下的调控水平,例如在水稻抗碱和抗旱实验环境下,大量基因的调控水平,力导向图可以很好的展示出在本次实验中有多少基因展示的是上调属性,多少基因展示的是下调属性,多少基因展示的是冲突属性,并且还可以很好的展示出上调属性、下调属性、冲突属性和基因分别是哪些基因,力导向图还可以进行颜色的区分显示使得研究人员可以更加简单细致的分析。

每次实验研究采集的基因表达结果的数据是庞大的,采用其他图表展示时总会出现一下杂乱无法利用分析的情况,而力导向图对于庞大的数据天生有着区分的优势,虽然也会出现“毛球”现象,但是力导向图可以通过改变节点的颜色形状来重构或者分级显示。在生物信息领域,对于批量基因的研究中力导向图有着其他图表没有的优势,所以力导向图更加适合于对批量基因表达的研究,并且对于其结果的展示更加清晰明了,方便科研人员的研究。

3.4 关联基因数据可视化研究意义

为了对基因关联关系进行有效的可视化呈现,本项目利用了D3.js技术中封装的力导向图为基础,使用php进行算法设计对数据进行处理,最后进行最终结果的展示,便于科研人员对于基因关联方向上的研究,推动未来基因工程的发展。

4 应用前景

现有成果具有一定的研究价值,但现有研究的意义远不止于此。关联基因数据的可视化研究具有多领域可用的巨大优势,可依据现有可视化模板对其他基因数据进行分析研究,获取更多基因背后的奥秘。可继续深入研究关联基因可视化的现有成果以获取更多未知的科学信息,可在现有研究基础上结合其他技术进行扩展,例如建立结合现实的综合性应用平台进行该技术的实际应用,结合其他方法手段进行跨领域的研究实现等。随着科技的发展,人们能接触到的信息面更广,掌握的技术与知识更先进,未来关联基因可视化领域会有更加广阔的前景。

参考文献:

[1]柳玲,刘水清,王宇. 基于SVG的WebGIS的设计与实现[J]. 重庆大学学报(自然科学版),2007,(04):108-112.

[2]曹英杰,杨剑飞,王宇. 全基因组关联分析在作物育种研究中的应用[J]. 核农学报,2019,33(08):1508-1518.

[3]石丽丹,王小女,张孟浩,聚明明,李新建,韩雪蕾,王克君,李秀领,周李生,乔瑞敏.大白母猪乳头数全基因组关联分析[J/OL].中国畜牧杂志:1-14[2021-08-18].

[4]周琳,孔雷,赵方庆.生物大数据可视化的现状及挑战[J].科学通报,2015,60(Z1):547-557.

[5]Klein RJ, Zeiss C, Chew EY,ect. Complement factor H polymorphism in age-related macular degeneration. Science, 2005, 308(5720): 385−389

通讯作者:董素芬(1982-),女,河北省邯郸市人,硕士,副教授,主要从事大数据可视化研究,本项目由河北农业大学大学生创新创业训练项目(202110086013)和河北省引进留学人员项目(C20190336)共同支持