2025-12-10 11:33:49 中华网
摘要:Cypher-RI框架通过强化学习驱动的结构感知推理,将自然语言到图查询的准确率提升至新高度,为企业级图智能应用奠定关键技术基础。
在人工智能基础设施层研究持续高速演进的2025年,图数据智能查询领域迎来里程碑式突破。创邻科技携手浙江大学联合研发Cypher-RI大模型训练框架被全球人工智能领域最具影响力的顶级会议 NeurIPS 2025正式收录,该成果首次实现了基于强化学习的图模式感知(Schema-Aware)自然语言转Cypher查询生成,通过强化学习实现端到端自动优化,在Cypher查询生成任务上取得突破性表现,在权威基准CypherBench上以7B参数规模模型达到69%的执行准确率,超越GPT-4o 9.41个百分点,标志着图数据库智能查询进入“结构感知”新阶段。
企业复杂关系分析场景面临的长期挑战
随着数字化转型的深入,企业数据规模爆炸式增长,复杂关系数据的价值挖掘愈发依赖图数据库。无论是金融反洗钱链路、社交网络的关系传播,还是生物信息中的蛋白质交互,都天然呈现为图结构。图数据库成为洞察复杂关系的关键技术。
然而,关系数据的价值能否被真正释放,往往取决于用户是否能够写出正确、高效的图查询语句。以Cypher为代表的图查询语言虽然表达能力强大,但需要用户深度理解图模式(Schema)结构、熟练掌握复杂语法规则,且具备精准的 “图思维”——这使得普通业务人员难以直接操作,而依赖模板匹配、示例学习的传统查询生成技术,在面对多类型点边、复杂逻辑查询、跨场景泛化等企业真实业务场景时,普遍存在 “结构理解偏差”、“生成语句不可执行”、“结果准确率低” 等问题,导致图数据库的强大能力难以转化为实际业务价值,成为企业数字化转型的 “隐形壁垒”。
CypherRI 突破何在:图结构理解与强化学习协同优化
为破解上述行业痛点,创邻科技联合浙江大学突破性地提出 “图模式感知 + 强化学习” 双核心架构,构建了全球首个能够主动解析图结构、闭环优化查询生成的大模型训练框架Cypher-RI。该框架的核心创新在于实现了图模式感知与生成过程的深度融合。与传统仅依赖文本匹配的生成方式不同,CypherRI在理解自然语言问题的同时,能够动态感知并主动筛选与问题真正相关的图结构信息,确保生成的Cypher语句在语法正确、结构可执行的基础上,精准对应业务意图。
研究团队创新性地引入强化学习框架,以查询可执行性与结果准确性作为奖励信号,推动模型在训练中自主优化推理路径。这使得模型不仅能“模仿”已有查询样本,更学会:
辨识与问题相关的点边类型与属性
基于图语义进行多步逻辑推理
生成健壮且可稳定执行的Cypher查询语句
该方法从机制上解决了生成查询与图结构脱节的关键痛点,大幅提升跨场景适用性与可靠性。
以小搏大:7B模型超越GPT-4o,树立企业级部署新标杆
在权威评测基准 CypherBench 上,基于7B参数模型训练的Cypher-RI的表现显著超越所有已公开模型,并以9.41个百分点的优势领先GPT-4o,刷新该任务SOTA(State-of-the-Art)记录。
这一研究不仅从实践上验证了:只要配合合适的强化学习框架,小参数模型同样能够在高度专业的任务上取得世界级性能,更凸显了其对企业客户的多重价值:
成本可控:占用资源少、部署成本低,可私有化部署,避免云端大模型的高额API成本和数据安全风险
高效可靠:响应速度快,支持高并发查询,更好满足企业实时分析与交互需求
优化深度:训练成本低,可针对企业专属数据进行持续训练与优化,实现“专用化智能”
行业意义:定义图技术与大模型融合的新范式
CypherRI 的推出让业务人员能够通过自然语言直接、准确地操作图数据,大幅降低分析门槛、是图技术迈向“平民化”与“智能化”的关键一步。它不仅是查询生成任务的SOTA,更揭示了大模型在结构化数据交互中的演进方向:从“万能语言接口”走向“认知增强专用智能体”。其强化学习架构与模式感知设计为GraphRAG、图增强推理、企业知识图谱问答等下游应用提供了可复用的技术内核,推动图技术从单一分析场景迈向体系化、工程化、可规模化的企业级AI基础设施。
创邻科技将持续深化“图技术+大模型”的协同技术路线,联合学术界与产业伙伴,拓展自动化图分析、时序图预测、跨模态图理解等前沿方向,构建可信、可控、可持续演进的数据智能新底座,赋能企业在新一轮AI变革中建立结构性竞争优势。