2024-05-23 11:49:18 互联网
美国时间2024年5月20日刚刷新的 LMSYS Chatboat Arena 盲测结果显示,零一万物公司推出的最新千亿参数模型——Yi-Large,在总榜上荣登世界模型第七名,也是入围前十名的唯一中国国产模型。
LMSYS Chatboat Arena 盲测采用的是接近用户体感的“聊天机器人竞技场”特殊测评模式,让众多大语言模型在评测平台随机进行比试,通过众筹真实用户来进行线上实时盲测和匿名投票。值得一提的是,为了进一步提升Chatbot Arena查询的整体质量与可靠性,LMSYS积极推行了重复数据删除机制,并成功发布了经过冗余查询清理后的榜单。
此次Chatbot Arena共有44款模型参赛,其中不乏业界翘楚的开源模型Llama3-70B,同时也汇聚了多家知名大厂精心打造的闭源模型。
根据最新公布的Elo评分来看,GPT-4o以卓越的1287分荣登榜首,展现出其强大的性能。紧随其后的是GPT-4-Turbo、Gemini 1.5 Pro、Claude 3.0pus以及Yi-Large等模型,以大约1240分的评分稳居第二梯队,表现出不俗的竞争力。然而,位列其后的Bard (Gemini Pro)、Llama-3-70b-Instruct、Claude 3 sonnet,其评分则出现显著下滑,约至1200分左右。
此次排名中,前六位的模型分别归属于国际知名的科技巨头OpenAI、Google以及Anthropic。特别值得骄傲的是,零一万物以强大的实力位列全球第四大机构。同时,GPT-4、Gemini 1.5 Pro等模型均为拥有万亿级别超大参数规模的旗舰模型,而其他模型也均具备大几千亿参数级别的规模。Yi-Large “以小搏大” 以仅仅千亿参数量级的规模,在激烈的竞争中脱颖而出,紧追前列的参数规模数倍的超大模型。
5月13日Yi-Large正式发布,一周左右便迅速攀升至世界排名第七的位置,与海外大厂的旗舰模型处于同一梯队。此外,在 LMSYS Chatbot Arena 截至5月21日的总榜上,阿里巴巴的Qwen-Max大模型以Elo分数1186分位列第12名,智谱AI的GLM-4大模型则以Elo分数1175分排名第15,同样展现了中国科技企业在人工智能领域的强劲实力。
在当前大模型融入商业应用的过程中,需要通过具体应用场景的严格考验来证明其价值和潜力。为了行业的健康发展,必须追求更为客观、公正且权威的评估体系。Chatbot Arena这样的评测平台,通过真实用户反馈和盲测机制,确保评估的真实性和权威性。厂商应积极参与权威评测平台,展示产品的竞争力和优势,这有助于提升品牌形象和市场地位,推动技术创新和产品优化。反之,忽视实际应用效果的厂商将难以在竞争激烈的市场中立足。