首页 > 技术

AGI 时代到来,为什么向量数据库成关键?

2023-07-28 11:58:38      西盟科技资讯   


  近日,由极客公园主办的 AGI Playground 2023 活动在北京圆满结束,活动汇聚了当下 AGI 领域最具公信力、话语权、前瞻性的行业领袖与公司,起底潮流下的大模型技术底层逻辑和新范式变革的底层思维。向量数据库公司Zilliz、360 集团、阿里云、百度、百川智能等行业头部公司参会,Zilliz 创始人兼 CEO 星爵、百川智能创始人王小川、360 集团创始人周鸿祎等明星创业者分别在不同的主题下进行了分享。

  其中,Zilliz 创始人兼 CEO 星爵的演讲让人印象深刻。

  星爵的演讲主题为《AGI 时代到来,为什么向量数据库成关键?》,在他看来:

  ●当下 CVP Stack 已经成为 AGI 时代重要的数据应用开发范式,代表 “V” 的向量数据库扮演着重要角色,Milvus 和 Zilliz Cloud 作为向量数据库中的佼佼者,无论是性能还是成本方面,都能很好地满足开发者的需求。

  ●向量数据库作为大模型的记忆体,能够为 LLMs 提供向量检索和存储的功能,是大模型开发和训练中不可缺少的重要组成部分。

  ●AGI 时代的下一个 Killer App 是智能体,向量数据库可以为其提供长期的记忆存储。

  向量数据库成为新型开发范式 CVP Stack 的重要一环

  向量数据库是一种为了高效存储和索引 AI 模型产生的向量嵌入(embedding)数据而专门设计的数据库。在传统的关系型数据库中,数据通常以表格的形式存储,而在向量数据库中,数据以向量的形式存储。向量(embedding)是一组数值,可以表示一个点在多维空间中的位置。向量数据库非常擅长处理大量的高维 embedding数据,这种数据在机器学习和深度学习应用中很常见。

  LLM 时代之下,工具栈变得更加简化,开发者甚至可以实现用周末两天时间做出一个不错 demo 的设想,其背后的终极奥义便是 CVP Stack。其中,C 的意思是以 ChatGPT 为代表的大模型,它在 AI 程序中充当中央处理器的角色;V 代表 Vector Database,即以 Milvus 为代表的向量数据库,充当 embedding storage 的角色;最终会通过 prompt 的方式进行交互。

  总结来看,在大模型时代下,无论是谁,只要拥有一个 ChatGPT 账号、会写 prompt、找到一个 embedding 的数据库为模型提供相关领域的知识,甚至为其提供一个缓存层,便可以轻而易举地成为一个很好的工程师。OSSChat(https://osschat.io)就是典型的应用,用于解决开源项目文档冗长、不易查找等问题,目前已经支持几十个主流的开源项目。

|Zilliz 创始人兼 CEO 星爵

  向量数据库之于大模型的关键作用

  向量数据库可以看作大模型的外置记忆快,能够长期存储大模型的数据,供模型随时调用。向量数据库在LLM领域的应用主要可以分为以下 6 类:管理私有数据和知识库、为大模型提供实时数据更新、实现大模型的个性化和增强、提供智能体的记忆、保存大模型的处理结果、构建更复杂的AI系统。

  对于大模型应用开发者来说,向量数据库是一个非常重要的基础设施,可以在最大限度发挥大模型威力的同时保护数据隐私,实现更丰富的功能。LLMs 和向量数据库共同推动 AGI 的发展,二者缺一不可。

  向量数据库为下一个 Killer App 提供长期的记忆存储

  智能体是大模型的一个新兴应用场景,用于构建具有独立智能的虚拟人物、虚拟代理甚至人形机器人。向量数据库不仅可以帮助智能体记忆其感知的历史数据和上下文,帮其做出智能决策,还能使其根据长期记忆来实现自我演进,被认为是下一代 Killer App。

  智能体需要记忆。人类的大脑有一个区域叫做海马体,负责长期记忆,记忆是人类智能很重要的部分,不可能今天把昨天的事情忘记还说自己很聪明。行业里面的正在尝试用向量数据库为智能体存储长期记忆,因为向量数据库的成本是很可控的。未来如果每个人都能够有几十个智能体帮助人类生产生活,像向量数据库这样具有语义检索的存储市场会迎来很大的增长。

  向量数据库作为一款数据库产品,“更大更快更便宜”是未来发展的核心趋势。更大是指能处理更大的数据量,这意味着支持百亿条数据甚至更高的可扩展性;更快是指更高的性能,包括毫秒级的响应时间和高达数万的QPS;更便宜是指更少的资源消耗更高的性价比,在相同资源消耗的情况下提供更强大的性能。

相关阅读