2023-11-01 12:28:23 西盟科技资讯
AGI 时代,真的可以用向量数据库+大模型在 48 小时内迅速搭建出一个 AI 应用吗?
这场黑客松比赛给出了答案,它就是 AGI Playground Hackathon,一场聚集了国内顶尖向量数据库、大模型公司与创新开发者的 AGI 盛宴。
与国内其他比赛不同,AGI Playground Hackathon 诠释了 CVP Stack 开发范式的强大,除了大模型以外,首次全量使用向量数据库进行应用开发,让更多开发者切实地感受到向量数据库作为大模型记忆体在检索和存储等方面的能力。本次比赛给出了“生产力工具的新想象”、“泛娱乐体验的新可能”和“创新开发” 三个赛题,最大程度地给予开发者更多的创作空间。而现场 34 个各具特色的开发成果展示,也为 AGI 从业者带来了更多的思考和想象。
CVP Stack 的试炼场,向量数据库的应用狂欢
对于 AGI 时代的开发者而言,AGI Playground Hackathon 无疑是验证创意的绝佳战场,据了解,此次参赛的开发者无一例外全部使用了 CVP Stack 的开发范式,这也是国内黑客松比赛中,首次在应用开发过程中大规模地应用向量数据库(Zilliz Cloud)。
何为 CVP Stack?具体来看,“C”代表大模型(ChatGPT)负责向量计算;“V”代表向量数据库(Vector Database),负责向量存储;“P”代表 Prompt 工程,负责向量交互。
这里需要着重讲一下向量数据库。向量数据库是一种为了高效存储和索引 AI 模型产生的向量嵌入(embedding)数据而专门设计的数据库。在传统的关系型数据库中,数据通常以表格的形式存储,而在向量数据库中,数据以向量的形式存储。向量(embedding)是一组数值,可以表示一个点在多维空间中的位置。可以说,向量数据库非常擅长处理大量的高维 embedding 数据。
随着大模型时代的到来,向量数据库进入到更多开发者的视野中。诸如 ChatGPT、Bard、Claude 和 LLaMA 这样的大模型可以产生海量向量嵌入数据来表达复杂的语义关系,但模型本身的存储空间有限,无法持久保存这些数据。而向量数据库就像一块外置的记忆块,可以长期存储这些数据,供模型随时调用。而在 CVP Stack 的开发范式中,不可或缺的恰恰是向量数据库对于高维复杂数据的向量检索能力及其长期存储能力。
那么,向量数据库真正的效果的使用效果如何?在最后一天的 Demo Day 中,选手们普遍反映,本次开发过程中所使用到的向量数据库 Zilliz Cloud,在自己开发的应用中承载了重要的功能,通过其高效的向量检索与强大的存储能力大大提升了项目的落地效率和效果:
“Pilotx” 团队表示:Zilliz Cloud 的性能是世界级,用在 C 端性能略过剩;
来自【泛娱乐】赛道的“码头狗狗”用到的是 Zilliz Cloud 的向量检索和存储功能,不仅将 prompt 信息存储在向量数据库中,还会用其检索与当前事件相似度的信息;
来自【创新开发】的“真 666”团队则通过 Zilliz Cloud 分别搭建了公共向量数据库及专属向量数据库,满足项目交互过程中对专业领域知识数据和用户数据的需求;……
AGI 不止 48 小时
一场 AGI 黑客松比赛的开发时间只有 48 小时,然而从开发者的视角来看,48 小时只是创意的初步实践,真正的考验才刚刚开始;对于比赛的发起者(Zilliz、智谱 AI、Founder Park)而言,举办黑客松的初心以及比赛过程中带来的沉淀更具价值,AGI 绝不止于 48 小时。
Zilliz 创始人兼 CEO 星爵表示,联合发起 Hackathon 的原因有 3 点:
其一,大模型正当其时,已经从模型端创新走向应用端创新。回看今年上半年,可以看到,国内有很多公司在大模型方面可谓百花齐放,做出了优秀的模型,经历了从蓄势待发到走近广大开发者的过程。
其二,目光投向海外,过去一年各类 Hackathon 活动如火如荼,尤其是北美,在开发者聚集的城市基本每个周末都会举办一场黑客松。这在一定程度上推动了 AI 创新的百花齐放,国内当下需要这样促进开发者交流与火花碰撞的机会。
其三,无论是大语言模型的应用还是上个时代移动应用程序的兴起,都清晰地指出,更长期的创新一定来自应用层。如何以 AI 创新、大模型的创新为各行业赋能,是当下亟待解决的问题。为此,在当下大模型爆发、开发者正当时的阶段,Zilliz 希望将大家组织到一起,进行一场属于这个时代的创新盛宴。
诚如星爵所言,黑客松的选手向所有人展示了国内 AIGC 开发者技术力与创新力,带来了诸如知识库、金融、健康、短视频、宠物、儿童绘画、残障人士关爱等丰富的场景。
如“社交骇客”团队的项目,可以看作“AI 时代的 Facebook”,即利用 AI,全网寻找和你兴趣最相符的好友,分析 Ta 的个人资料,甚至可以和 Ta 的赛博分身互动。一方面,该项目展示了深度挖掘信息的强大技术能力;另一方面,也带来了 AI 技术与伦理的碰撞。
又如,“AI 康复”团队的 AI 口语康复项目。该项目旨在用 AI 帮助恢复听力的成人听障群体学说话,主要解决成人听障人群上课时间有限、价格昂贵以及课后练习无反馈的问题。由 AI 针对学员的自身情况设计专属的训练课程,提供资料查询、瞬时反馈和长期反馈。
对此,Zilliz 合伙人&产品负责人郭人通评价道,见过太多服务于多数人的 AI 项目,但“AI 康复”团队的项目却是瞄准小众群体,并让人眼前一亮。语音-文本跨模态的技术选型非常好地匹配了听障群体的口语练习刚需。这个项目同时给整个行业提出了几点思考:在 AI 落地阶段高度内卷的大背景下,如何提高公益类 AI 项目的关注度;面向小众群体的公益类 AI 项目的存活路径探索。
值得一提的是,“AI 口语康复”项目同时获得了本次黑客松“最具创意奖”及【生产力工具】赛道冠军,该项目采用 RAG(Retrieval-augmented generation 检索增强生成)架构将听障成人语音康复专业文档 embedding 后存入 Zilliz Cloud 。在回答用户提问时,通过向量检索,大模型可以实现知识库的准确反馈和类真人老师的真实纠音效果,避免大模型幻觉问题。
过去半年 RAG 应用数量呈现出持续井喷的状态。Zilliz 预计未来至少一年的时间里 RAG 仍会保持迅猛增长的态势。未来,其涵盖的内容会从文本跨越到图片、视频等多模态,甚至用户的 profile。最终解决“企业数据如何高效使用”的问题。从这个角度看,RAG 在之前、现在以及未来都会是一个持续的增长点。