第两千零四十六章 文科狗数据库(1 / 1)

此外还有一类数据库,数据逻辑层与关系型数据库相比,在表现形式上相当灵活,主要有四种形式:一是键值模型,这种模型在表现形式上比较单一,但却有很强的扩展性。二是列式模型,这种模型相比于键值模型能够支持较为复杂的数据,但扩展性相对较差。三是文档模型,这种模型对于复杂数据的支持和扩展性都有很大优势。四是图模型,这种模型的使用场景不多,通常是基于图数据结构的数据定制的。之所以需要这样的数据库,是因为有些工作场景对数据库的逻辑结构并不明确,对于数据的扩展速度和扩展量同样也并不明确,要是利用关系型数据库来存储的话,将会随时面临不稳定的行列调整,在一个已经存放有海量数据的关系型数据库中,随时进行的列的增删,将是一场困难甚至无法实现的灾难。

因此非关系型数据库,都是用来对付需要方便扩展,数据量极大,性能要求极高,可用性极高,数据模型灵活的应用场景。

因为这类数据库存储数据的方式比较离散,因此被称作非关系型数据库。它们基本都是为了解决海量数据,高增长数据的实际运用问题而生的,因此又被周至称为“工科狗数据库”。

非关系数据库中有一类较为特殊的数据块,其数据逻辑层是基于图论为数据基础的数据管理系统。

图是一组点和边的集合,“点”表示实体,“边”表示实体间的关系。在图数据库中,数据间的关系和数据本身同样重要,它们被作为数据的一部分存储起来。

这样的架构使图数据库能够快速响应复杂关联查询,因为实体间的关系已经提前存储到了数据库中。

图数据库可以直观地可视化关系,是存储、查询、分析高度互联数据的最优办法。

这样的数据结构直接存储了节点之间的依赖关系,除了把数据间关联作为数据的一部分特征进行存储外,在关联上还可以添加标签、方向以及属性,这也是图数据库在关系查询上相比其他类型数据库有巨大性能优势的原因。

要举一个例子的话,点所代表实体或实例,可以是人员、企业、帐户或要跟踪的任何其他项目。它们大致相当于关系数据库中的记录、关系或行,或者文档存储数据库中的文档。

而边也称作关系,可以理解为将节点连接到其他节点的线;比如这些人员属于这家企业,这个企业开设了这些账户等等。

在探索节点、属性和边的连接和互连时,往往会得到意想不到的价值洞见,比如发现企业上下游人员对企业中某成员的不正常交易,就属于分析出一种不合理的“边”。

边可以是有向的,也可以是无向的。在无向图中,连接两个节点的边具有单一含义。在有向图中,连接两个不同节点的边,根据它们的方向具有不同的含义。

比如家庭成员中,父和子的关系,就属于两个节点所构建的一条边,在两个方向上的不同含义。

这样一种数据库对于处理和分析文科知识体系来说是最合适的,因此周至决心要发展它,甚至直接将其命名为“文科狗数据库”。

但是这个理由其实最多占到了一半,剩下的另一半,却是因为图数据库到了周至穿越过来的那一世,成了最常见的社交网络数据存储分析的最佳工具,成了查巧及深度遍历大量复杂且互连接的数据的最佳工具。

随着社交网络、电子商务以及资源检索等领域的爆炸性发展,采用图形数据库这种可以处理复杂关联的存储技术,而进一步组织存储、计算分析挖掘低结构化且互连的数据变得尤为有效,因此很快就得到了蓬勃发展,并且延伸出了图的匹配、关键字查询、图的分类、图的聚类和频繁子图挖掘这五个研究方向。

带来的好处,就是能够优化检索高达十亿级别的数据,极大提高了数据遍历速度及遍历稳定性,大大减少了检索过程中的服务器压力,减少系统开销,不受数据海量增长影响,完成互联网时代尤关系型数据库根本无法胜任的工作。

不过图数据库是随着后世分布式存储,大数据分析,AI检索等高端工具一起进入大家的视野的,因此导致很多人认为这是一个新的东西。

其实这是一个误会,比如大数据的数学理论,其实完成时间是在四几年,完全是当时的应用场景和软硬件工具都无法将之实现而已。

图数据库的发展其实也有着非常长的历史。早在六十年代,IBM的IMS导航型数据库已经支持了层次模型以及树状结构,不过形式较为特殊。

六十年代后期,网络模型数据库已经诞生,而且已经可以支持图结构。

CODASYL(数据系统语言委员会)于 1959年定义了 COBOL,1969年定义了网络数据库语言。

只不过还是因为硬件的性能无法支持复杂的查询需求,没有大范围的推广使用而已。

在三十年的时间里,图数据库其实一直在随着计算机性能的不断改善而进化发展,不过现在依然还处于实验室研究阶段,大家作为高端学术在玩,一时间还看不清它的应用场景。

因此在周至指导的安盛基金旗下信息情报研究所,就捡到了大量的漏,从全世界各个研究所,计算机院系,大型信息企业等处,购得了许多的知识产权作为技术储备。

要等到两千年以后,随着互联网时代大量关联数据的产生、RDF资源描述框架在网络交换资源中的普遍应用、以及具备ACID事务保证的图数据库的出现,才能让图数据再次回到了历史舞台中央。

等到那个时候,拥有图数据库核心知识产权的公司,毫无疑问将成为时代的宠儿。

但是凡事都得有个因由,也就是底层逻辑,要是没有一个发展图数据库的合理而强大背景支持,周至想要得到李老三的理解,想要得到公司的资源倾斜,乃至得到学校和国家的大力支持,那几乎是难如登天的事情。

数字图书馆这个项目,就是周至给发展图数据库找到的最佳锚点。