2023-01-13 18:17:27 头条新闻网
报告编委黄勇爱分析合伙人&首席分析师洪逸群爱分析高级分析师张良筠爱分析分析师外部专家(按姓氏拼音排序)李远志柏睿数据 副总裁谢寅镜舟科技 资深解决方案架构师许哲中信建投证券 数据组VP姚延栋YMatrix 创始人&CEO张晨创邻科技 CEO
特别鸣谢(按拼音排序)
报告摘要
随着近几年整个产业数字化进程的深入,数据库的应用场景变得更多、更复杂,导致数据库需要应对相比以往急剧增长的数据规模,处理更加多样的数据类型,以及具备更加复杂的场景化能力。
因此,近年来,高性能、非关系型数据支持、简化使用和运维,场景化解决方案等能力成为企业应用数据库的关键考量因素,多种新一代的数据库也逐渐在企业中落地。
分析型数据库释放业务数据潜在价值
分析型数据库作为数据基础设施的核心,需要提供高效的数据查询和计算服务支撑业务运转。然而企业现有的大数据引擎逐渐暴露出了即席查询不够敏捷、大数据量高并发响应慢、固定报表运算效率低下的性能缺陷。此外,多数据源存储系统的分散独立使得数据联通查询分析遇到困难。
针对现有数据分析引擎的性能缺陷和多数据源无法联通的问题,分析型数据库着重提升了即席查询、大规模数据高并发查询、固定报表运算效率,并且提供联邦的功能支持跨多数据源进行查询和分析,打破了企业数据孤岛,释放业务数据价值。
图数据库助力挖掘数据关联关系
在进行业务数据分析时,识别数据间的关联并对其特点进行研究是一项重要的工作,例如在社交网络、金融风控、营销等场景都需要从海量数据中发掘出单体之间的隐藏关系。但由于传统的关系型数据库对关联关系的查询能力有限,以及相关分析工具和解决方案的缺失,关联关系的挖掘成为企业面临的难题。
图分析解决方案为了应对企业在数据关系探索上的难题,利用图数据库的存储和关系计算能力,支持用户使用图算法对海量数据进行挖掘并对其关系特点进行分析。此外,知识图谱平台具备图谱构建和知识推理计算能力,将图的关联关系转化为知识,实现业务洞察。
超融合数据库支撑企业多元化业务快速发展
中大型企业在复杂多样的业务场景中沉淀了海量数据,而且由于业务持续扩张增长的趋势,企业需要不断加强数字化基座的能力来匹配海量数据规模和业务发展速度。然而企业现有的的数据库承载数据类型有限并且性能表现不足,难以满足企业对数据库服务的需求。
为了解决在业务快速发展过程中遇到的承载数据类型限制和性能表现欠佳的问题,超融合数据库部署了针对不同数据类型的专有引擎,技术架构的简易化不会为企业增加过多的运维管理成本。同时,超融合数据库具备与常见的专用数据库或大数据引擎同等或更好的性能表现。
目录
1. 报告综述
2. 分析型数据库
3. 图数据库
4. 超融合数据库
5. 结语
1.报告综述
作为承载各类数据存储和处理需求的基础设施,数据库在企业数字化转型的过程中起到了关键的支撑作用。但随着近几年产业数字化进程的深入,数据库的应用场景比以往更多、更复杂,导致数据库需要应对以下几点关键变化和挑战。
首先,企业内的数据规模在急剧增长。无论是企业寻求通过数字化转型实现数据驱动业务决策,还是一些新兴行业企业业务的快速扩张,都让企业的数据量从原先的几十TB,迅速增长至几百TB,甚至是PB级。然而传统的数据库在性能方面,很难应对如此大规模数据量的查询分析。
其次,企业需要存储和处理的数据类型变得更多样。关系型数据占主导地位的时代已经过去,现在,企业在很多新兴应用场景中为了提高数据存储和分析效率,采用了新的数据模型。例如,营销、风控中用于关联关系分析的图数据,制造业中用于记录生产过程的时序数据,以及文档、健值、GIS等各种数据模型。如何处理多种类型数据,成为企业在数据库层面需要首先解决的问题。
最后,企业越来越需要数据库具备场景化的解决方案。通常,企业已经建有一定的数据基础设施,且不同行业企业的数据应用场景往往有一些特殊要求,为了减少数据迁移和加载,并加速数据分析,企业需要数据库具备相应场景化的功能和解决方案。例如,在大数据量固定报表场景,企业需要数据库具备预计算能力;在企业有多套业务系统需要联合分析的场景,企业需要数据库具备联邦查询能力;在工业企业需要不断收集数据做预测性维护的场景,企业需要数据库具备库内机器学习的能力。
图 1: 数据库应用面临的三大挑战
面对这些变化和挑战,数据库业内一直在升级或推出新的数据库产品,以满足企业的需求。为了提升数据库性能,企业可以采用基于分布式、内存存储,以及多种技术优化的新一代数据库;为了处理多种类型数据,企业可以选择各种专用数据库,如图数据库、时序数据库、搜索引擎等,而当企业部署了多套数据库系统,运维难度大,且又需要做联合分析时,在内核层融合多类型数据处理能力的超融合数据库,则是最佳选择;为了实现场景解决方案,具备预计算、联邦查询、库内机器学习等其中一种或多种能力的数据库,逐渐成为企业重点关注的因素。
为了帮助企业更好地理解如何应用合适的数据库解决企业面临的这些普遍问题,本报告选取了分析型数据库、图数据库和超融合数据库市场的4个典型的数据库应用案例,对每个案例中的企业需求、解决方案和落地效果进行详细分析,并总结提炼案例背后体现的共性价值。 2.分析型数据库 2.1分析型数据库多方位优化性能,高效提供数据服务
在数字化转型的驱动下,各行业均呈现出数据量爆发式增长、数据应用场景多样化拓展的趋势。面对海量数据,如何从中发掘出有效信息来支持决策,成为企业业务运转和实现转型增长的关键。分析型数据库作为数据基础设施的核心,不仅要为各系统输送数据查询和分析的能力,而且要保证自身服务的高效性来满足及时用数的需求。
然而,在业务场景不断拓展、数据规模持续增长的压力下,企业传统使用的查询分析引擎性能表现严重不足,无法支持实时业务决策,具体表现在: 即席查询不够敏捷。在企业进行决策时,数据分析作为了解业务运转情况的重要手段之一,需要通过多表关联、自由组合查询条件的方式对多维度指标进行上卷和下钻探查。然而传统的分析引擎在大数据量、复杂查询的场景下逐渐无法适用,会出现响应慢,甚至无法获取查询结果的问题,不能够很好地支持数据聚合计算、明细查询等需求; 大数据量、高并发请求响应慢。随着数据查询和分析的需求逐渐向业务端推进,业务人员也常常需要进行日常查询操作来支撑实时决策。然而大型企业通常业务人员众多,不免带来同时间下多点并发查询的请求,对数据库造成性能压力,引起响应延时的问题; 固定报表运算效率低下。除了自助分析之外,企业还需要通过固定报表了解关键指标的动态和趋势。固定报表通常由多个SQL组成,涉及数据量大且计算维度多,容易造成数据库计算效率低下的问题。
针对现有数据库在性能上的欠缺,分析型数据库厂商着重提升了即席查询、大规模数据高并发执行、固定报表等方面的性能来满足企业用数需求。具体从以下方面着手解决问题:
图2: 优化分析型数据库性能加速服务响应
优化在大数据量、多表关联复杂计算的能力。分析型数据库通过具备高效数据存取的全内存架构、查询索引优化、多表连接优化等手段提升数据吞吐量和查询计算效率,减少业务决策的停顿等待时间; 提升数据吞吐量、任务执行并发度。为了满足大数据量、高并发的数据查询请求,分析型数据库通常采用分布式部署,利用大规模并行执行架构的优势,配合均衡分配节点负载等手段提升数据吞吐量,使数 据库具备多任务并发能力; 引入预计算加速固定查询。在固定报表的场景下,分析型数据库可以引入预计算能力,利用构建物化视图的方式复用常见查询,加速复杂SQL计算能力。 2.2高效联通多数据系统,联邦查询跨源提供数据查询
随着数据来源的拓展,以及数据存储系统相对独立,企业难以将多数据源进行打通,造成数据联通查询分析困难的问题。当分析人员需要结合其他业务数据或站在全局视角进行决策时,会遇到系统间数据流转不畅、数据加工繁琐、用数口径不一致等问题,难以保证决策的准确性。
此外,Hadoop大数据解决方案需要大量数据搬迁,将多源数据整合成内表进行统一查询,企业在已经具备成熟的大数据存储引擎的情况下通常进行大规模数据迁移的成本会很高。
图3:联邦功能跨多数据源查询
针对企业多数据源的情况,一些分析型数据库提供联邦查询的功能,支持查询多源数据。外表联邦查询功能通过只保存表对应的元数据,并直接向所在数据源发起查询,避开了数据迁移工作,并且实现了数据层面的整合分析。
同时,外表联邦查询功能支持包括MySQL、Elasticsearch、Hive、Iceberg在内的多个第三方数据源,并且可以满足用户对不同维度、不同层面聚合或明细查询的多样需求。 案例1:某国有商业银行构建实时交互式数据分析平台,高效助力普惠金融业务在银行数字化转型的过程中,客户分析和精细化管理至关重要。在普惠金融业务中,如何对下沉的海量客户建立数字普惠全景视图,实现经营状况及资产质量分析、客户分析、产品分析、营销分析等交互式数据分析能力,对于银行普惠金融业务的开展起到了关键支撑作用。某国有大型商业银行充分利用征信、工商、纳税、电力、司法、结算、供应链、政务、采购平台、贷款信息等行内外数据,将风险指标融入客户多维画像信息,建立普惠金融营销、准入、信用评价、授信、定价、贷后监测预警、催收等分析模型,实现关键业务指标实时报送,提供交互式数据分析。该平台对底层数据基础设施的实时性、高并发、稳定性和可用性等能力都提出了更高的要求。具体而言,需要解决以下需求:1)海量异构数据的实时查询。面对多样复杂的客户画像数据,数据库作为支撑业务用户日常在线使用的系统,需要能够执行行内超过200个以上标签动态组合以及5张表以上任意条件筛选和组合的复杂查询,达到秒级响应时间;2)支撑高并发业务查询场景。该银行总共有5万多位客户经理提供日常对公和对私的业务服务,会不免出现同时间下的多点数据查询需求。因此,数据库要能够在高并发场景下及时响应来满足精准营销和信贷风控的业务需要;3)能够稳定可靠地对外提供数据服务,满足系统可用性级别要求。金融行业对数据一致性、系统的RPO和RTO指标、多数据中心等方面有严苛的要求,要保证数据不错不漏、故障无损快速切换,提供多数据中心备灾措施等。基于分布式全内存数据库RapidsDB构建数据分析平台为了满足以上性能及业务需求,该银行将借助分布式内存计算技术提升数据库分析性能,作为重点考察方向。柏睿数据分布式全内存数据库RapidsDB在快速部署、集群弹性、性能线性扩展、广泛兼容、异构数据支持、海量数据计算等多方面获得行方的高度肯定,从而在行方同类数据库产品选型中脱颖而出。柏睿数据成立于 2014 年,是一家以数据库为核心的“Data+AI〞数据智能基础软件公司,国内首家因突破数据库核心技术而获得国家级专精特新“小巨人”称号的民营企业。柏睿数据作为国内掌握全内存数据库引擎关键专利的企业,基于完全自主研发的全内存分布式数据库产品体系和人工智能产品体系,打造软硬一体化智能数据处理平台,其产品在算力性能、智能化、安全性、标准化等关键技术指标上均业界领先,已为金融、政务、能源、通信、医疗等众多行业标杆客户提供原创性数字化转型技术产品服务。图4: 基于分布式全内存数据库RapidsDB构建的实时交互式数据分析平台柏睿分布式全内存数据库RapidsDB在该行的普惠金融业务场景中代替了原有的“Oracle + ElasticSearch”复杂技术栈,实现极速性能提升,而且保证了金融级别的稳定可靠和高可用性。为了解决海量用户数据实时查询的性能问题,RapidsDB采用全内存架构避开了磁盘访问I/O,达到更快的查询速度;在多表关联场景下,柏睿通过动态查询优化、索引使用优化、join连接优化实现了多表关联场景中更强的性能表现,达到复杂查询的即时响应能力。为了支撑上万名业务经理高并发的查询需求。RapidsDB采用分布式架构,通过动态扩展应对任务执行量的增长,并且配合查询优化器均衡分配节点负载。同时,RapidsDB通过数据结构无锁化实现了最大程度的并发能力。针对金融级数据可靠性和可用性的要求,首先,RapidsDB在内存存储之外还通过事务日志和定期快照不断地将数据备份到磁盘,实现数据库内存与持久化存储,如Flash、SSD、HD等,协同工作来确保数据无丢失风险。其次,在集群内部可用性方面,数据节点通过成对的配置在彼此之间共享数据副本,保持数据实时同步。主备节点均可对外提供服务,如果出现任何叶的故障,RapidsDB将自动切换副本分区。在节点出现故障的情况下,RapidsDB通过将适当的副本分区升级为主分区来转移节点故障,以便数据库保持在线。在满足集群内高可用的基础上,RapidsDB还实现了跨机房数据和系统服务的高可用,支持“同城双中心”、“两地三中心”、“三地五中心”等金融级别的灾备方案,在系统本身发生故障、应用层报错、网络错误、人为错误等情形下,数据库系统均能保障良好的高可用性。基于RapidsDB数据库的数据分析平台落地后的价值与效果第一,通过RapidsDB在大规模异构数据场景下的高性能表现,满足了该银行对多表关联复杂查询的需求。实现了1100亿行数据、40TB大数据量下的实时查询,支持前端SQL条件灵活组合、最多15个表join的多表复杂查询。第二,RapidsDB支撑了全银行5万名客户经理的日常查询服务,具备典型情况下上百个并发查询和极端情况下4000多个并发查询的能力,能够充分应对业务多点并发的读取请求,达到平均3.6秒的响应时间。第三,RapidsDB能够稳定可靠地运行,提供99.999%高可用的数据服务,满足金融行业对数据库的严苛要求,有效支撑了该银行普惠金融业务的快速发展。项目经验总结该银行的数据分析平台成功上线以来,柏睿数据RapidsDB分布式全内存数据库展现了出色的性能和稳定性来支撑该银行普惠金融业务的转型升级。该项目的成功落地为同类型业务或者相似规模的企业提供了以下分析型数据库的使用建议:1)在类似普惠金融拥有海量多元化数据沉淀,并且要求高实时性查询的业务场景中,全内存数据库因为运行时不需要将数据同步到物理磁盘,从而避免了磁盘I/O限制对系统性能的影响并且减少了系统维护的工作量,所以被该类型业务场景所青睐。因此,对于数据存取效率要求较高的系统,全内存数据库可以比主要利用磁盘存取的数据库发挥更大的性能作用。2)在类似国有银行员工数量众多、内部组织架构复杂的大型企业中,通常有大量业务人员同时进行日常查询操作来保证业务正常运转。因此,分析型数据库需要具备分布式相关技术,通过动态扩展和平衡分配任务量支持多点并发的任务请求,保证同一时间下查询的及时响应。 案例2:中信建投基于分析型数据库构建统一查询服务平台,满足企业大规模用数需求中信建投证券(简称“中信建投”)是经中国证监会批准设立的全国性大型综合证券公司,其在企业融资、收购兼并、证券经纪、资产管理、股票及衍生品交易等领域形成了自身特色和核心业务优势,并搭建了研究咨询、信息技术、运营管理、风险管理、合规管理等专业高效的业务支持体系。目前,中信建投拥有超过1,000万证券经纪业务客户,托管证券市值超过5.5万亿元,位居行业第2名。近年来,在证券服务逐渐互联网化,以及券商牌照红利逐渐消退的行业背景下,中信建投不断加大对数字化的投入,尤其重视数据基础设施的建设,期望在客户服务、经营管理等多方面由经验依赖向数据驱动转变,从而提高服务水平和决策效率。因此,在公司总部和各分支机构,包括经纪、资管、投行等业务部门,以及稽核、审计、财务、法务等职能部门,对自助分析、多维分析、固定报表和API数据服务等形式的用数需求一直在不断增长。为了推动整体数字化建设和数据治理工作,中信建投已经在2019年搭建了基于Hadoop体系的数据湖,将大量历史数据迁移到Hadoop上,用Hive对数据进行加工处理,所有的查询计算都通过Presto执行。但是,该方案在最近两年数据量快速增长、业务场景多样化发展的趋势下逐渐无法适用。具体而言,中信建投目前在数据查询分析中主要存在以下痛点和需求:1)数据加工链路复杂。在数据分析的流程上,数据部门通常是首先用presto做即席查询,再通过Hive进行数据加工,最后将加工过后的数据下发到各部门的Oracle或MySQL事务型数据库,业务人员在事务数据库里对下发数据进行查询和分析。整个过程需要在三套系统之间进行数据交换,且三套系统使用的SQL语法也不一致,需要不同人员进行开发维护,从而产生了多种问题:数据开发和维护成本高;数据口径可能不一致,导致数据应用结果不准确;用数需求难以得到及时满足,通常要“T+1”才能给到数据报表。2)大数据量下性能不足,查询响应慢。中信建投目前大部分的数据都存储在Hive中,业务部门在进行自助分析时通常涉及的相关数据量较大,而Presto在大数据量、多表关联查询时会出现响应比较慢,甚至无法获得查询结果的问题,无法满足单表及多表复杂查询场景下响应的及时性。此外,Presto因为资源隔离不足会出现应用抢占资源的情况,不能很好支持高并发的查询请求。3)大量实时数据分散在各个业务系统,无法进行联合分析。由于中信建投内部存在非常多的业务系统,各业务系统相互独立且数据会不断更新,而这些实时数据无法更新到Hive中,导致业务数据之间不能及时打通进行联合分析。4)缺少预计算能力加速固定查询。固定报表和API数据服务为各业务提供包括数据汇总结果、明细查询、数据接口在内的多项能力,而基于固定数据查询的可视化报表通常数据查询量大、计算维度较多,一个看板页面涉及大约一两百个SQL语句,整体运算效率低下。针对这种情况,中信建投希望通过预计算实现查询加速,并且要求开发工作轻量化且资源消耗较低。引入StarRocks构建统一查询服务平台通过综合对比数据库即席查询、实时分析性能、预计算能力、数据联邦技术,并且结合中信建投已经在Hadoop体系中有大量投入,不希望做大规模数据搬迁的具体情况,将Hive外表查询支持、SQL语法及函数的兼容性等方面纳入选型考虑,中信建投最终选择引入StarRocks来构建统一的查询服务平台,满足各部门的用数需求。StarRocks是数据分析新范式的开创者、新标准的领导者。面世三年来,StarRocks 一直专注打造世界顶级的新一代极速全场景 MPP 数据库,帮助企业构建极速统一的湖仓新范式,是实现数字化转型和降本增效的关键基础设施。当前全球超过 200 家市值 70 亿元以上的头部企业都在基于 StarRocks 构建新一代数据分析能力,包括腾讯、携程、平安银行、中原银行、中信建投、招商证券、众安保险、大润发、百草味、顺丰、京东物流、TCL、OPPO 等,并与全球云计算领导者亚马逊云、阿里云、腾讯云等达成战略合作。项目在 GitHub 星数已超 3700 个,成为年度开源热力值增速第一的项目,市场渗透率跻身中国前十名。图5:中信建投统一数据查询服务平台作为一款高性能全场景的分析型数据库,StarRocks使用MPP 架构、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。StarRocks 既支持从各类实时和离线的外部数据源高效导入数据,也支持直接分析数据湖上各种格式的数据,统一的SQL交互将数据分析结果或物化视图预计算结果分发到各个数据应用,为中信建投实现了三套系统使用功能的整合以及数据应用流程的简化。具体而言,针对中信建投的痛点问题,StarRocks具备如下优势:1)在性能方面,针对大规模数据下自助BI敏捷高效的需求。StarRocks向量化执行引擎,全面实现了SIMD指令,保证查询和向量化导入可以充分利用单机单核CPU的处理能力;StarRocks自研的Pipeline协程引擎,使得StarRocks可以应对更高的并发查询,充分利用单机多核CPU的处理能力,与此同时可以更优雅的进行CPU时间分片调度从而实现资源隔离的功能;StarRocks采用大规模并行处理(MPP)架构,可以充分利用多机多核的集群资源,保证查询性能可以线性扩展;并用基于成本的优化器CBO、RuntimeFilter、延迟物化、全局低基数字典等多种⼿段实现极致查询性能。2)在外部表联邦查询方面,StarRocks可通过创建外部表的⽅式,在 StarRocks 读取其他数据源,如MySQL、Elasticsearch、Hive等外部表中的数据,从⽽打破数据的隔离。以Hive外表功能为例,中信建投可以将其Hive中的离线数据导⼊ StarRocks 中进⾏⾼性能分析查询。同时,StarRocks 也可以扮演数据湖的⻆⾊,将离线数据与实时数据进⾏关联,打通不同数据存储间的壁垒,从⽽⽀撑业务分析时在数据湖中进⾏数据探查和极致分析的需求。3)在预计算方面,为了实现固定报表的加速,StarRocks引入预计算的手段,通过创建多表、外表物化视图的方式对明细数据进行上卷和下钻,复用常见查询有效优化了复杂SQL计算效率,满足用户对固定维度聚合分析以及原始明细数据任意维度分析的多样需求。中信建投统一查询服务平台落地后的效果与价值第一,大数据查询性能得到显著提升。采用StarRocks内部表加速明细数据关联查询,实现了上亿级别数据量大表关联秒级响应,内表查询效率提升10倍以上,外表查询效率提升1倍以上,完全满足大数据量下查询分析及时响应的需求;第二,预计算能力降低了固定报表加工成本。采用StarRocks预计算能力可以将固定报表和API数据服务响应速度提升1倍以上。多表物化视图、外表物化视图、QueryRewrite等高阶功能,可以有效降低数据建模成本,使得“直面分析,按需加速”成为可能。第三,降低数据迁移成本,提升数据管理和使用效率。StarRocks基于Hive外表做查询,减少了元数据和底层数据的迁移成本,并实现了实时数据联通分析。同时,以StarRocks为统一数据服务入口,降低了整体数据查询和加工的复杂度,提升了数据管理和使用效率。项目经验总结中信建投进行数字化转型过程中已经部署了大部分的数据基础设施,但是已有的基于Hadoop构建数据湖的体系在近两年来暴露出众多问题,已经无法匹配业务的发展速度。中信建投基于自身业务需求和已有技术架构情况选择以StarRocks构建统一数据服务入口的实践,为同类型券商企业提供了以下经验建议:1)分析型数据库的选型需要充分考虑企业自身的用数需求,以及现有数据平台的技术架构,选择符合自身实际情况的数据库是获得较好的落地效果的关键。例如,中信建投大部分的数据都存储在Hive中,StarRocks提供的类Presto的外表查询功能可以避免数据迁移增加的额外成本,同时也很好地满足了公司的用数需求。2)随着企业数据库规模不断增长,以及分析场景更加复杂,分析型数据库需要不断提升数据查询分析的性能,以及针对固定报表、自助BI等各种应用场景,提供场景化解决方案、生态工具,才能满足用户在数据查询分析方面功能和性能的复杂需求。
3.图数据库 3.1传统数据库关系查询能力不足,图数据库及相关解决方案加速业务洞察
在各行各业中都存在着诸多依赖个体属性及其之间关联信息的场景,例如社交网络、金融风控、营销等,需要对单体之间的关系进行识别,并对其特点进行研究。然而,要在海量的数据中,发掘个体之间隐藏的联系,是项很复杂工作,这为企业带来了新的挑战。具体而言,企业在关联关系的探索上,存在以下难点或需求: 传统的关系型数据库对数据关联关系查询的支持有限。对于一些简单的关联关系查询,企业通常可以采用传统的关系型数据库解决,但关系型数据库在进行关联信息检索时需要执行多个表的连接操作,在数据关系较复杂时,会出现操作繁琐,且性能严重不足,导致无法查询结果的问题。因此,关系型数据库在实际应用中只能执行一二度简单关系的查询,而不具备复杂关系查询的能力。 企业缺少相关分析工具和解决方案来对关联数据进行挖掘分析。在具体应用场景中,关联关系的查询分析,除了需要底层数据库引擎的支撑,通常还需要结合领域知识,将关联关系转换为知识见解,帮助业务决策。此外,对于一些复杂的查询分析,还需要一些AI算法来加速获取结果。
为了解决企业在数据关系探索上的难题,针对数据关系进行高效存储和计算的图数据库获得了企业的青睐。作为典型的非结构化数据解决方案,图数据库将关联数据的实体作为顶点存储,关系作为边存储,突破了数据复杂关联存储查询造成的性能瓶颈。同时,知识图谱,以及图分析算法也为图数据的挖掘分析起到关键作用。图数据库及相关的解决方案具体包括如下三方面的内容:
图6:图分析解决方案赋能数据关系洞察
高性能图数据存储与处理引擎。图数据库以图模型存储数据,最大能高效地存储万亿点边的数据,有效承载了企业沉淀的海量关系信息。借助优秀的关系传导能力,图数据库能够实现高效的多跳查询,以此发掘关系型数据库无法发现的深度关系; 图算法支持高效的数据关系挖掘。借助图算法,用户能够实现海量数据挖掘和复杂关系分析,例如最短路径,社交网络中心性、社区检测、社群特征、相似性和分类等常用的图算法,能够帮助用户在纷繁复杂的数据中发现有价值的信息,辅助进行业务决策; 知识图谱平台支持场景应用。为了赋能业务场景,企业在具备图数据库引擎的基础上,还需要构建知识图谱平台,将图的关联关系转化为知识,从而形成业务洞察。通常,知识图谱平台需要具备两大关键的能力:1)知识图谱构建,即利用图谱构建工具,实现知识抽取、知识表示和知识融合,从而构建知识图谱;2)知识推理计算,即通过推理计算引擎,结合行业知识,发现知识中的显性或隐性关系。 案例3:民生银行基于图数据库构建知识图谱应用平台,通过图分析盘活数据资产作为头部股份制商业银行,民生银行始终坚定践行“民营企业的银行、敏捷开放的银行、用心服务的银行”的战略定位,高度重视数字化转型,主动融入数字中国建设,着力在“生态银行”和“智慧银行”两大领域实现突破和提升,致力于为客户提供专业特色的现代金融服务。随着金融行业数智转型的进程加快,银行业务数据量出现爆炸式增长,对金融行业的数据处理能力提出了更高要求。同时,面向海量数据的充分沉淀,挖掘数据资产的潜在价值,释放蕴藏在数据要素中的生产力变得至关重要。对于民生银行而言,全行业务场景众多,由此积累了规模庞大的账户数据,也带来了丰富的用户关系信息。在此基础上,如何选择新的数据库进行技术革新,赋能业务实现数据驱动的决策,成为民生银行内部一项重要的发展课题。具体而言,民生银行需要采用新的数据技术解决以下难题:1)对大规模的业务数据进行高效的关联关系分析与挖掘。风险控制和营销作为银行两大重要业务发展手段,需要对海量用户数据进行深度关联关系挖掘,以识别潜在风险、了解客户偏好。在传统的关系型数据库中,数据被存储在二维表中,使用关系模型检索需要执行多个表的连接操作,在深度关系挖掘能力与数据处理性能上表现严重不足;2)对行内数据拉通整合,进行统一的查询分析。民生银行内部各个业务系统较为多元,但是未在数据层面打通,各个业务之间相对独立,并未建立关联关系。此外,业务人员缺少统一的应用平台对多元化的业务进行全局联通分析,数据管理分散,无法站在全局的视野分析业务变化,进行实时决策;3)底层数据基础设施的研发难度和成本较大,需要在解决技术难题的基础上满足大型企业要求的高可用、多租户、权限管理等能力需求。此外,随着国家信创政策日益严格,金融业作为国家经济命脉,必须充分实现关键数据基础设施的国产化,具备数据库系统的安全可控性,保障信息安全。基于Galaxybase图数据库构建知识图谱应用平台,赋能银行业务升级数字化转型需求驱动下,民生银行需要挖掘数据关联关系,发挥数字资产价值,更好地提升风控、营销等核心业务能力。因此民生银行决定通过招标建设知识图谱应用平台,通过综合考虑大规模的关联关系查询、多元化数据拉通整合、底层技术自主可控以及厂商技术领先性和实践经验等因素,最终创邻科技从众多图数据库厂商中脱颖而出。创邻科技是国内领先的商业化高性能分布式图数据库供应商,在分布式数据存储、大数据并行处理、图挖掘等领域有业界领先的技术储备。创邻科技聚焦金融板块,目前已成功服务五大行、头部股份制银行以及城商行、农商行等企业用户,核心产品Galaxybase国产高性能图平台已累计支持数万亿点边的大型金融图谱应用,性能国际领先。图7:基于Galaxybase图数据库构建的“万象”知识图谱应用平台在创邻科技的帮助下,民生银行以大数据、人工智能技术为基础,引入Galaxybase图数据库构建“万象”知识图谱应用平台,提供信息展示和交互式分析,具备本体建模、图谱构建、图谱挖掘、知识服务的一站式全流程应用能力,助力民生银行业务升级。具体而言,基于Galaxybase图数据库的“万象”知识图谱应用平台使民生银行具备了以下能力:1)借助Galaxybase图数据库的图谱可视化和关系挖掘能力,民生银行能够基于图谱对各类信息拉通聚合,进行关联关系挖掘,提供信息展示和交互式分析功能。以构建企业全息图谱为例,通过引入行外的全量工商、司法、知识产权等复杂数据且对企业的多重关系进行分析和挖掘,能够实现关联信息的高效聚合,直观呈现复杂客户关系网络,简化业务分析难度。2)图技术的形态识别和关系传导能力可以在反欺诈业务中发挥重要作用,依托Galaxybase图数据库所具备的实时数据处理与图构建能力,“万象”知识图谱平台能对信贷申请件数据进行实时组网,通过设备信息、地理位置信息、黑样本、转账等关联关系识别定位欺诈团伙,并且结合传统欺诈特征和网络特征进行机器学习对申请条件评分,有效识别欺诈申请,进行及时预警,实时拦截欺诈风险,避免欺诈损失。3)基于图神经网络的知识推理,“万象”知识图谱平台能够提升银行的营销能力。通过对涵盖个人客户的银行客群建立经营分析图谱,“万象”知识图谱平台可以基于用户关系链进行社群关系推理,利用种子账户所在社群触达全新用户并实现拉新,由社群触达的新成员,还能够以不同的速度、方式和幅度进行裂变传播,有效解决传统客户管理系统获客难的问题,达成“快速实现账户增长,低成本轻松获客”的目标。为了满足数据联通整合的需求,民生银行基于Galaxybase图数据库对行内外跨部门、跨产品、跨业务线中的实体及元数据信息进行了整合。同时,平台配备可视化图分析平台,业务人员无需编程技能即可通过可视化图形配置界面构建知识图谱、部署图算法、执行计算并展示结果。此外,Galaxybase图数据库具备企业级特性,通过主备集群能力支持数据库高可用,并且提供企业级的运维管理和安全监控能力,支持点边类型和属性的细粒度权限管理。在信创方面,Galaxybase图数据库为国产自研产品,能够满足金融行业对数据技术安全自主可控的要求。“万象”知识图谱平台落地后的效果与价值第一,打破数据孤岛,支撑海量数据的实时分析与关联价值挖掘。通过构建“万象”知识图谱应用平台,民生银行能对行内外跨部门、跨产品、跨业务线中的实体及元数据信息进行整合,构建多触点、全维度的可视化关联信息图谱,提供360°全景可视化视图,破除数据孤岛。同时,“万象”知识图谱平台底层采用的分布式架构支持动态在线扩容,新进的业务数据也能够实时入网,业务人员能够结合不同的场景利用知识图谱进行实时决策。第二,图谱可视化技术为用户提供业务全流程数据关系展现。“万象”知识图谱平台能够为业务系统输出图查询、关联和计算能力,同时为业务分析人员提供全息图谱,提升内外数据关联分析能力;针对研发人员,则提供数据关联关系分析平台,分析挖掘环境更加便利,可实现便捷的可视化建模。最后,“万象”知识图谱平台能够为业务沉淀出一系列可视化数据产品,实现全流程业务能力升级。第三,强劲的多跳查询性能帮助银行实现实时深挖隐藏关联关系。依托于Galaxybase原生分布式并行图数据库可以极快地处理复杂的多跳关联关系,“万象”知识图谱应用平台能够对于银行的海量业务数据进行多跳查询,挖掘查找数据间的异常关联关系,因此能够快速对传统方法不能找到的风险进行预判和警报,完美契合银行的反洗钱、反欺诈、对公信贷等业务。项目经验总结在数字经济时代,为了实现数据价值的充分释放,就需要将数据进行关联,从单纯的数据管理转变为数据关系的挖掘、分析和利用。民生银行引入创邻科技Galaxybase图平台建设知识图谱应用平台的实践,为同类型的业务场景提供了以下图数据库及相关应用的选型和使用经验:1)关注图数据库底层技术支撑能力。银行业务数字化的快速发展一定会造成行内数据量爆发式增长,银行企业在选择图数据库时一定要考虑在超大数据规模下的底层数据库支撑能力,要能够在不降低查询和计算性能的情况下高效实现知识图谱的构建;同时,对于关联关系的深度挖掘,银行企业需要关注图数据库的多跳查询性能,能够实时挖掘复杂关系是关键。2)重视信创政策,推进底层国产化替代。对于金融机构而言,实现底层数据基础设施的国产化有助于保证整体系统安全稳定地运行,而且数据库及其配套应用需要不断迭代和适配来满足未来业务场景的拓展,建议各银行在招标过程中将图数据库的国产技术和图应用解决方案综合实力纳入考虑,旨在减少后续更换底层数据库的潜在风险和成本。 4.超融合数据库 4.1企业多元化快速发展,超融合数据库在单一技术栈上满足各业务需求
在数字化转型的驱动下,中大型企业在复杂多样的业务场景下沉淀了海量多源异构的数据,而且由于业务持续扩张增长的趋势,部分企业需要不断加强数字化建设的力度来匹配业务的发展速度。在这种情况下,中大型企业现有的数据库解决方案在企业需求的增长下变得愈发难以为继。具体而言,业务的极速发展和数字化带来数据规模膨胀、数据类型多样化使得现有的数据库设施遇到了以下方面的难题:
图8:大数据量、多数据类型带来的数据库使用问题
1.承载数据类型有限。业务场景的拓展带来了更加复杂的数据类型,企业需要对异构的数据进行高效存储以便后续查询分析,而传统的关系型数据对非结构化数据的承载能力有限。通过引入专用的非结构化数据库,企业虽然可以存储与之相对应的非结构化数据,但是却造成数据库系统分散独立的情况,难以统一维护管理,从而带来额外的运维成本。
2.海量数据查询遇到数据库性能的瓶颈。随着大型企业快速发展带来的数据规模膨胀以及查询复杂度的提升,原有数据库在响应速度上难以满足企业实时查询分析的需求,从而导致业务运转停顿或无法进行数据决策。
为了解决企业在业务快速发展过程中遇到的多数据类型和性能方面的难题,超融合数据库是在内核层面采用模块化和插件化的架构,通过插拔不同类型的数据引擎,实现对不同模型数据进行处理能力的数据库。超融合数据库能够支持用户在一套系统中统一处理关系、图、时序、文档等多种模型的数据,简易的架构不会为企业增加过多的运维管理成本。同时,超融合数据库具备与常见的专用数据库或大数据引擎同等或更好的性能表现。具体而言,超融合数据库为企业带来了以下优势:
图9:超融合数据库支持多类型数据,单一架构简化运维
1.支持多种类型数据。超融合数据库在单一架构上实现了多模态数据的融通管理,通过部署适用于不同数据类型的存储和计算引擎,超融合数据库实现了多种异构数据,例如结构化数据、时序数据、图数据等,的统一写入、存储和管理。
2.简化运维。超融合数据库采用创新性架构,利用模块化的引擎来支持不同类型数据的存储和计算,避免了引入多种专用数据库造成系统冗余的情况。此外,超融合数据库使用统一的应用访问接口和优化器简化系统架构,在有效支撑业务发展的前提下,极大减少了数据库的运维成本。
3.查询分析性能提升。超融合数据库相比常见的大数据引擎具备更强的性能表现,在单表查询、复杂SQL运算等能力上均有显著的提升。此外,超融合数据库还针对不同类型数据的处理需求进行优化,以获得比常见专用数据库更强的性能表现。总体而言,强劲的性能表现能够缩短数据库服务响应时间,能够使业务运行更加流畅,及时支撑实时决策。 案例4:某新能源头部制造企业基于超融合数据库打造“数据湖仓平台”,支撑企业高速发展伴随近年来新能源汽车在全球范围内的销量剧增,处于新能源汽车产业链重要位置的国内某头部制造企业也迎来了业务的快速发展。为了提高产能,并降本增效,该企业需要不断加强数字化建设,以支撑全球产品溯源追踪、生产及售后运营分析、设备预测性维护等多项业务。然而,随着该企业业务规模的迅速扩张,其需要处理的数据规模急剧膨胀,数据类型也比以往更加复杂,导致该企业原先基于MySQL、Greenplum构建的数据库系统面临显著的性能和功能瓶颈,也给该企业的业务开展带来以下挑战:1)原有数仓集群遭遇性能瓶颈,维护扩容复杂,难以应对业务快速增长需求。随着业务的快速扩展,带来数据规模的快速增长,以及查询复杂度快速提升,原有集群的 CPU 使用率长期维持高位运行,导致计算和查询作业长时间排队,致使业务间歇性卡顿,部分大型报表的等待时间甚至超过30 分钟,严重影响了业务的运行效率和使用体验。另一方面,原有数仓平台的扩容也需要伴随较长时间的停机等待,同时不支持数据的分层存储管理,这使得对原有平台进行不断扩容,在时间和成本上都不可持续。2)智能制造亟待扩充复杂时序处理及分析能力。该企业作为大型制造业集团,也在积极探索智能制造的转型创新,而首要的是对广大的生产装备进行数字化升级,这带来广泛的 IoT 场景需求。在其整体数据结构中,除了由常见的 MES、ERP 系统所产生的关系型数据,还有由数采单元面向设备、物料和流程采集到的时序、GIS 等类型数据,比如涵盖近百个指标的生产制造设备工况数据、已售出产品的运行数据以及历史维修数据等。目前架构中是通过 MySQL 和 Greenplum 来承载时序数据,但 MySQL 及 Greenplum 并不具备专门针对时序场景的强化特性及功能,数据承载力和查询能力都十分有限:•写入性能:无法承载超大设备带来的海量数据写入负载;•写入功能:无法支持动态、乱序、延迟写入,以应对复杂工况下的数据产生环境;•查询能力:点查询性能有限,没有窗口查询、库内机器学习等。3)数据量倍数增张,总部中心集群负载压力大目前,该企业集团在全国拥有数十家分支生产基地,每个生产基地的产线系统都需要高性能及可靠稳定的数据管理系统。面向未来,预期整个集团将持续以倍数级扩充产能,产线数据量将翻倍增长,对数据管理的承载力、效率、成本和易用性都提出了更高标准。目前所有数据直接进入总部,对总部集群造成很大负载压力。除了持续扩容外,在不增加太多运维复杂度的基础上,客户迫切希望建立一套总分结合的“总部(云)+工厂(边)”协同架构,在增强整体数据承载能力的同时,也优化各子公司的数据平台能力,实现对整体数据管理与治理能力的升级。基于超融合数据库,实现一套系统满足企业多种类型数据存储与处理需求为了满足对大规模、多源异构数据的存储与处理需求,该企业需要引入新的数据基座来替换原先的MySQL、Greenplum数据库。在此过程中,该企业考虑过Hadoop技术栈,但基于Hadoop技术栈满足业务需求,需要同时构建非常复杂的开发和运维体系,成本过高。由于YMatrix超融合数据库具备高性能、支持多种数据类型、运维简单等优势,便成为了该企业的的最终选择。YMatrix成立于 2020 年,是一家创新型基础软件公司,致力于物联网时代新一代数据基础设施软件的研发,并提供相关产品、解决方案及一站式商业服务。公司在业界率先提出超融合数据库理念,并发布了 YMatrix 超融合数据库,基于独创的多微内核开放架构,在单一数据库之上,实现多模态数据的融通管理,及全场景查询分析的统一支持。YMatrix超融合数据库可面向物联网应用、工业互联网、智能运维、智慧城市、智能家居、车联网等场景,提供架构简洁、功能丰富的数据基础设施,并已在多家行业头部公司成功实现商业化落地。图10:某新能源头部制造企业基于超融合数据库打造的“数据湖仓平台”YMatrix超融合数据库在该企业内替代了原先的MySQl、Greenplum等数据库,在支持多种类型数据的存储、汇集与管理的同时,通过全面的功能承接了各类业务需求。具体而言,YMatrix超融合数据库的以下功能特性解决了该企业此前存在的各种问题:1)支持多种数据。由YMatrix超融合数据库承建数据湖仓平台,对接产线MES系统、ERP系统及给类型生产设备数采系统等,将TP业务数据、时序数据、GIS数据、JSON文本数据,以及过去的历史数据等等多种数据,统一进行写入、存储、管理,支持数据乱序、延迟写入,支持ACID以确保数据完整性;2)提供统一的查询。YMatrix超融合数据库通过标准SQL提供多类型数据查询,在数据湖内实现数据的跨类型联合分析,而无需再并行建设专门的技术栈;3)支持库内机器学习。YMatrix超融合数据库支持库内机器学习建模,可代替Flink + Spark,使算法建模及计算在YMatrix集群内实现,无需大规模的数据ETL过程,大幅简化系统架构,且性能大幅提升,算法分析工作效率提升10倍;4)较高的查询性能。YMatrix超融合数据库针对写入和分析等重点领域进行了多达138项深度的指令级的优化,能够在单表查询、多表关联分析、时序数据查询等常用场景上获得比主流专用数据库更高的性能。5)简化运维。YMatrix超融合数据库技术架构简化灵活,运维人员需要管理的技术栈变少,因此从根源上降低了其运维复杂度。同时,YMatrix超融合数据库提供大量图形化及自动化的运维能力,包括:在线扩容、自动数据平衡、数据生命周期管理、运维监控等,帮助用户降低操作门槛、获得更好的使用体验以及更加自动化的作业能力。此外,为了降低总部中心集群负载压力,YMatrix为该企业建设了边缘数仓,即在分支工厂部署独立数仓平台,承载工厂的 MES、ERP、PLM 等各系统数据,完成这些生产数据在本级的数据归集,同时进行预处理查询分析,筛选出符合总部需要的数据后再上传总部集群。新构建的“总部(云)+ 工厂(边)”协同架构,在强化本地数据就近处理的能力之上,有效降低了集团集群的负载,为后期业务的长期稳定运行及良性扩展奠定架构基础。超融合数据库落地后的价值与效果第一,性能大幅提升,为应对业务量大规模扩张奠定基础。在使用YMatrix超融合数据库后,该企业解决了原有集群性能不足、扩容服务器耗时长、报表查询等待过久等各项问题,查询耗时最高缩短79%,为平台支撑的各项业务服务体验提供充沛的性能支持。第二,为数智化创新提供新一代通用数据基座,并提供更友好的使用体验,大幅降低运维复杂度。通过 YMatrix超融合数据库,支持多模态数据的全场景查询分析需求,能够服务企业级用户未来 5-10 年可能存在的需求,帮助该企业避免了产品叠加或技术架构反复调整带来的技术风险和不必要成本。同时,YMatrix超融合数据库通过数据超融合能力大幅精简了系统架构,并供大量图形化及自动化的运维能力,从而降低了数据库的运维复杂度,让用户工作更加专注,作业更加高效。第三,数据管理成本获得有效控制,同时降低总部集群的压力。YMatrix超融合数据库在为⼤数据平台带来了上述优化与新功能的同时,在保证性能满⾜需求的前提下,使得该企业每年在资源上的成本开销减少了⾄少30%。同时,通过搭建更科学经济的“总部(云)+ 工厂(边)”协同架构,减少数据传输成本的同时,降低因组织结构庞大、产能持续壮大给总部集群带来的压力。项目经验总结当前,中国正在从“制造大国”向“制造强国”转型,与此同时,一批代表着战略新兴行业方向的制造业企业在市场需求以及政策推动下,正处在高速发展过程中。为了实现这样的目标,数智化在其中将会起到关键支撑作用。我们认为,上述新能源头部制造企业与YMatrix合作的案例,可以为同样处于快速发展阶段的制造业企业带来以下借鉴意义:第一,数据基座的选型需要超前考虑中长期的业务发展需求。随着企业业务的快速发展,企业内部数据量必然迅速增长,数据类型也将变得更加复杂。由于数据库等基础设施的迁移是项成本非常高昂的工作,企业在选型时需要充分评估未来5-10年的业务需求,选择能够应对中长期数据存储和处理需求的数据基座。第二,为避免传统方案复杂的开发和运维,企业可以考虑创新性的超融合数据库。尽管市场上有一些大数据方案能够满足企业各类复杂的数据存储和处理需求,如Hadoop技术栈,但面对企业复杂的需求,其开发和运维也非常复杂。超融合数据库在简化系统架构的同时,具备支持多种数据类型、性能高、运维简单等优势,是处于快速发展阶段的企业非常理想的选择。
5.结语
从本报告所挑选的多个案例中,我们可以看到,看似已经非常成熟的数据库市场,在各个细分方向一直在适应企业不断变化的需求,往更强的性能、更丰富的功能,更简化的使用和运维的方向进化,并且这个趋势还在延续当中。
而对于每个企业而言,当它们在对数据基础设施进行规划,对数据库升级换代时,需要结合企业内部情况权衡多方面的问题。既要对业务需求进行全局思考,选择能够适应企业未来发展的技术架构,也要结合企业现阶段数据基础,满足在性能、功能、运维等各方面要求的同时,选择成本更低、使用更简单的数据库方案。