当前位置: 主页 > 数据库

国际电影数据库-库科奇数据

发布时间:2023-02-10 14:16   浏览次数:次   作者:佚名

自1960年代数据库诞生以来,新场景、新技术开启了数据库的一轮又一轮变革,从行存储、列存储、键值对数据库,到图数据库¹。 对复杂数据的探索永无止境。

就图数据库而言,它不同于传统的关系数据库。 它基于“图论”中的数学概念。 更擅长处理、计算和分析海量、复杂、多变的数据之间的关系。 而Figure²是一个可以直观地对现实世界进行建模的工具,这也符合人脑的思维习惯。

比如我们今年春节去看电影《满江红》,除了看沉腾、易烊千玺、小悦悦、张译等演员的表演,了解剧情本身,我们需要再补一份。 ,以“图”的方式扩展为:

库科奇数据_国际电影数据库_数据黑名单库他再次告诫我们什么

图片:一“图”抵千字(副图)

在这里,作者想表达的是图数据库的高维表达能力——所想(所见)即所得。 我们可以用自己的思维无限扩展。 通过节点与节点的关联,我们可以直接通过图数据构建现实世界中的属性和关系。 建模简单,性能强,搜索功能丰富,可扩展。 强的。

与真正表达“关系”的图技术不同,传统关系数据库中的“关系”二字其实是题外话,与技术本身无关。 只有“关系数据库之父”Edgar Frank Codd在他的论文中,将基于集合论构建的二维表称为关系。 我们还是以电影《满江红》为例。 如果以二维表的形式呈现,至少需要三个表,见表1、表2、表3。

库科奇数据_国际电影数据库_数据黑名单库他再次告诫我们什么

数据黑名单库他再次告诫我们什么_国际电影数据库_库科奇数据

数据黑名单库他再次告诫我们什么_国际电影数据库_库科奇数据

当我们想知道“冯伯亭事件”时,查询一般很快,可以直接从表2中得到。但是,当我们想深入了解岳飞被杀的前因后果时,就需要查找相关资料从表2中“冯波亭事件”中的人物,再与表1和表3进行关联,分别找出这些人的立场和政治阵营。 这个查询太复杂了,也体现了关系数据库的低维性。 将表格转化为“图”后,人、物与物、人与物之间的各种关系和联想一目了然,可以帮助我们捕捉更深层次的洞察力。

国际电影数据库_库科奇数据_数据黑名单库他再次告诫我们什么

图:从岳飞的“点”,到岳家军形成的“圈”,再到南宋朝廷内外的“身”,以及几个人物围绕“大屠杀”等事件交织的“网”冯伯亭惨案与绍兴和会,历史各有千秋,真相不言自明(副图)

库科奇数据_数据黑名单库他再次告诫我们什么_国际电影数据库

图:岳飞手记

仍然以电影《满江红》为例,进入英图的图数据库前端管理组件(Ultipa Manager)国际电影数据库,搜索“岳飞(名将)”这个人物,填写搜索范围,立即显示所有围绕这个节点(node)的连接,以及关联的关联。 请参见下图。

图:英图旗下数据库产品Ultipa Manager

值得一提的是,以上所有查询和搜索都是通过低代码甚至零代码操作完成的。 作者只需要填写搜索范围的值,2D、3D、列表、表格,甚至是异构数据融合,就可以灵活变换多种视觉模式。

这套工具的用户群已经扩展到各个行业,很多金融机构的业务人员也在使用。 他们完全没有编程基础,可以轻松设计业务模型、连接数据、运行图模型、完成图查询等,不再依赖IT人员完成从业务分析到代码执行的操作,实现了业务的飞跃效率和业务与技术的全面渗透。 有研发经验的人当然知道,这种暴露在用户端的极简设计背后隐藏的技术细节其实非常复杂,开发难度犹如水下冰山。

数据黑名单库他再次告诫我们什么_国际电影数据库_库科奇数据

图:图数据库兼顾了图计算和图存储。 它是一种采用多维数据建模的新型计算能力优先级数据库。

与图数据库不同的是,在传统的关系型数据库中,当涉及到多表关联查询时,计算量的增加与表中数据的笛卡尔积成正比。 数据量越大,表关联就越复杂和高效。 低的; 而图数据库采用的计算逻辑是最近邻关联计算(查询)模式,计算复杂度低,效率呈指数级提升。

比如用关系数据库和图数据库做深度渗透,从第2层到第5层,性能上的差异实际上呈指数增长。 比如在做1层穿透的时候,两者可能没有本质区别。 从第2层开始,会呈指数级(10倍以上)变化,直到用传统数据库做4-5层渗透。 已经不能返回任何结果了,也就是说已经超出了机器的计算范围,已经罢工了。 (有兴趣的读者可以详细阅读:高并发图数据库系统是如何实现的?³)同样,在Ultipa英图数据库中,海量复杂的操作和查询是图数据库的最大优势,并且在“完成”实时”。 “实时”是一个术语。 通俗地说,就是一眨眼的功夫,就可以达到大海捞针的神奇效果,洞悉错综复杂的关系和背后的联系。

操作查询在现实生活中意义重大。 例如协助执法机关调查电信诈骗,基于传统大数据技术框架的多节点数据组网和渗透操作极其复杂、耗时(运行数周),且无法实时反馈实现了,而英图查询语言的自组网模式仅需毫秒级,实时发现嫌疑人之间错综复杂的相关犯罪证据。

基于在图数据库(图计算)领域多年的研发实践,从复杂数据中产生洞察的根源在于技术能否真正实现实时、全面、准确、深入的溯源、归因和分析。图关联和图遍历以及图搜索能力的渗透。 这恰恰是传统关系型数据库无法解决的痛点。 当然,并不是所有的图数据库厂商都能实现这种硬核能力,比如使用非原生存储和计算引擎的图数据库(有兴趣的读者可以详细阅读:图数据库和关系数据库的区别⁴)。

此外,可以在图表上轻松识别各种关系。 英图数据库有多种方式可供选择,可以帮助用户快速搜索查询。 例如,“AB路径”就是其中之一。 如果要搜索岳飞(点,节点)和其他IP(边,边)的关系,只需要搜索两个点:岳飞(点,节点)和金庸(点,节点)或者岳飞(点,节点)和张艺谋(点,节点),他们之间的关系就这么点一下,见下图。

数据黑名单库他再次告诫我们什么_国际电影数据库_库科奇数据

图:岳飞与金庸的AB关系; 岳飞张艺谋AB关系(副图)

ab().src({name == "岳飞(名将)"}).dest({name == "金庸"}).depth() as path 返回路径{*}

笔者在实践中总结,以英图为代表的图数据库致力于通过图赋能的智能技术赋能企业数字化转型。 与其他数据库相比,优势如下:

1.灵活:支持高维建模(相对于SQL的二维表),动态建模(schema可以动态调整——不是所有的图数据库都能实现这个能力)。

2. 计算速度快、计算能力强:高效的复杂查询与计算、多表关联查询(递归查询、深度下钻)、动态、海量、复杂模型的实时计算与分析。

3、前所未有的能力:实时面向业务的归因分析、溯源、溯源、逆溯、正向模拟等操作(传统数据库因多表关联导致的“笛卡尔积”问题无法实现) 快速归因分析).

4. 白盒和可解释性:不同于传统的复杂SQL代码查询的黑盒问题,以及深度学习和人工智能算法中常见的黑盒和不可解释性问题,图数据库中的查询和算法整体特点是计算(查询)结果基本是确定性的,每一步都是可解释和白盒化的。

5.需要注意的是,并不是所有的图数据库都是一样的! 有的图数据库只有存储能力,没有计算能力,有的可以计算,但因为涉及到数据迁移,效率很低。 也有一些图数据库是使用NoSQL或者MapReduce架构实现的,但是并没有针对图计算的特点进行全面深度的优化。 最终的效果是分布越横向,效率越低。 有的厂商甚至盲目地将数据全部搬入内存,导致内存使用率急剧上升,也会导致频繁OOM,造成宕机。 正确的实现路径是“分布式+存储计算一体化+多级存储优化+深度图查询优化”。 数据库国际电影数据库,有兴趣的读者可以参考How to implement a high-concurrency graph database system? ³。

就图技术在商业领域的应用而言,当我们刚刚意识到数据挖掘的真正价值需要通过深钻和关联来获取时,我们看到世界著名的巨头们已经悄悄将图转移了。数据库技术转化为自身优势,从而确立了在各自领域的优势地位。

脸书(Facebook)、领英(LinkedIn)等,用它来管理社交关系。 还有高盛、黑石等投资和资产管理公司,甚至零售巨头沃尔玛,早在多年前就开始应用图技术来管理产品关联。 此外还有大家每天都在使用的京东、淘宝、天猫等,各种商品的推荐也使用了图谱技术……

当然,这张图不是同一张图。 各大互联网公司的图,无论是技术架构,还是能够满足的业务场景,都与一般的图数据库相去甚远。 总之,(通用)图数据库的发展任重而道远,充满挑战,也充满机遇。 如果说历史的教训是,每一次颠覆性创新的主体不一定是KPI驱动的大厂,而是那些坚持硅谷风格、勇于创新的创业公司,那么下一个大厂就是不是今天的创业公司呢?

此外,继SQL(数据库行业第一个国际标准)之后,图数据库查询语言国际标准GQL也将于今年发布。 这意味着图数据库在学术界和工业界真正成为了一项承前启后的技术,对未来数据库的发展产生了重要影响。 也标志着它将成为数据库行业的又一新标杆。

如今,图无处不在,物流、金融、交通、传媒、电信、电力、医疗……图数据库技术已经应用到各行各业。

最后,如果你对英图数据库的可视化感兴趣,可以阅读:走进Ultipa Manager文章的高可见度系列。

在文章的最后,感谢影图高级内容策略师Wanyi Sun对本文严谨的技术表达的指导和贡献。

【参考

[1] 图数据库;

[2] 什么是图;

[3] 高并发图数据库系统是如何实现的?

[4] 图数据库与关系数据库的区别;

[5] 《图数据库原理、架构与应用》; 孙玉玺,英图团队; 2022-8; 机械工业出版社.

想要系统学习的读者欢迎阅读机械工业出版社2022年8月出版的《图数据库原理、体系结构与应用》一书。本书是中国第一部“图数据库”领域的原创专着——说话的世界。 大量在实战中总结的内容,对你深入理解图数据库的概念、原理、架构设计、应用开发都有很大的帮助。

国际电影数据库_库科奇数据_数据黑名单库他再次告诫我们什么

结尾