2025-04-30 15:30:54 西盟科技资讯
4月29日,阿里新一代的大模型 Qwen 3发布。以 DeepSeek+Qwen 的中国开源组合,正在以中国开源生态“双子星”之势,取代过去 Llama 为主,Mistral 为辅的开源生态。 Qwen 3 发布后,Founder Park采访了不同行业的 AI 创业公司代表,就开源闭源如何选择、模型的微调、模型能力瓶颈,以及大模型创业的坑等方面进行了访问。心言集团开源布道师、高级算法工程师“左右”在接受采访的过程中,从心言集团的实践视角剖析了中国开源模型的崛起路径,并分享了自己在开源生态赋能下的业务探索与技术思考。
以下为采访实录:
开源、闭源模型如何选择?
左右:从我们目前的业务角度看,绝大部分(可能 90% 以上)需要使用我们自己微调(fine-tuned)的模型,因此主要是本地化部署后供线上使用。同时,对于某些特定任务,比如数据构造、数据蒸馏,或者需要利用特定大模型(如 GPT、豆包、Qwen)的能力时,我们会直接调用它们的 API。
本地部署的主要是基于 Qwen 的微调模型,根据不同的业务入口,我们会使用不同量级的模型。常用的是 7B、32B 和 72B 这几个版本。此外,我们还有一些具身智能的业务,考虑到用户隐私和多模态处理需求,会采用更小量级的多模态模型,比如 0.5B、1.5B 等。7B 模型主要用在对并发要求非常高,但对模型本身能力要求没那么极致的业务场景。选用 7B 的原因有三:一是推理速度快;二是部署成本相对较低;三是在兼顾性能和速度方面,它比较适合我们的某些特定任务。
至于为什么选 Qwen 模型,主要有以下几点考虑:
生态系统成熟度与稳定性: Qwen 的生态相对完善和稳定,包括推理框架(如 vLLM, SGLang 等很早就适配)、微调工具链以及其他配套设施。相比之下,有些模型(比如 DeepSeek 的早期大参数版本)生态成熟和稳定使用可能需要更长时间。
技术能力与业务契合度: 我们做的是情感陪伴、泛心理相关的业务,主要面向国内用户。
首先排除了 Llama,虽然它生态好,但在中文能力,尤其是泛心理、情感陪伴这些垂直领域的能力上可能不足。
Qwen 对中文支持较好,并且在其预训练数据中也包含了一些泛心理、情感陪伴相关的内容。基于这样的模型进行微调,更容易贴合我们的业务需求。
模型系列完整性: 我们的业务涉及从 0.5B 到 72B 的多种尺寸。目前来看,只有Qwen提供了这样完整的尺寸系列。如果不同尺寸用不同模型(比如 7B 用 Llama,72B 用 Qwen),会增加微调成本,需要在不同模型之间反复测试数据和超参数等。全系列使用 Qwen 系列,模型同宗同源,试错成本相对较低。
开源的持续性与可信赖度: 我们之前用过零一万物的模型,但后来他们在开源方面的策略调整了,这对我们来说比较被动。阿里(Qwen)在开源上的举措让我们觉得比较可靠,相信他们会持续投入开源,这对我们长期依赖其模型进行开发是重要的保障。
当前大模型的使用和微调,面临的挑战有哪些?
左右:分开说一下,因为我们有具身智能和线上互联网业务两块业务。
在具身智能方面,主要挑战是推理成本和生态适配。
成本: 为了隐私,模型需本地部署。如果用英伟达方案,端侧推理卡很贵(几百到几千元),远超机器人本身的成本。推理速度也可能不够快。
生态适配: 如果换用国产算力芯片降低硬件成本,又会面临生态不完善的问题。比如,让国产芯片兼容最新的 Qwen 模型(特别是像 Qwen2-VL 等多模态模型),适配周期可能很长(比如一两个月),我们等不起。由谁来做软硬件适配(硬件厂?模型厂?我们自己?)也是个问题,我们自己做成本很高。
在线上互联网业务方面,主要挑战是模型能力和推理成本/延迟。微调成本相对较好。
模型能力: 我们做情感陪伴,对情感的细粒度理解要求非常高。模型需要准确捕捉用户复杂的情感状态。比如,用户语音内容积极但语气糟糕,如果只靠 ASR 转文本,会丢失大量情感信息。这就对模型的多模态理解能力提出了很高要求(结合文本、语音、视觉等)。
推理成本/延迟: 我们的用户量和 AI 使用量增长很快,推理成本压力大。尤其是在高峰时段(如凌晨 0-1 点,峰值可能是平时的 3-4 倍),需要有效调度潮汐算力,以低成本覆盖流量洪峰,同时保证模型和算力能承载。
当前模型的能力,满足你们的业务场景需求了吗?
左右:我们做的业务场景专注于情感、情绪化的泛心理应用场景,大多数模型厂商在预训练或后训练阶段都不会特别关注这部分数据。另外,即使是数据合成或蒸馏,其结果和真实用户的查询之间仍有很大差距。这就是我们坚持要做 Post-training(后训练/微调)的原因。
我们对基础模型的要求主要是通用能力(General Ability),而不是特定领域能力(Domain Ability)。如果基础模型的通用能力足够好,我们在做 Post-training 时就更容易把它拟合到我们想要的方向。如果通用能力不行(像 2023 年那样),即使有高质量的领域数据也很难调好。
而且需要注意,针对特定领域(如泛心理、情感陪伴)做 Post-training,通常会对模型的其他通用能力(如代码、数学)造成一定的损害。我们的目标是把这种损害控制在可接受范围内(比如通用指标下降 2 个点以内),同时在我们的核心领域能力上实现显著提升(比如比通用模型高 10 个点)。最近我们也会把内部的泛心理基座模型面向社区开源,反哺开源社区,推动此方向上的技术发展。
如何看待目前以 DeepSeek、Qwen、Llama 为代表的开源模型的发展?
左右:对开源模型整体的期待是尽可能追平闭源顶尖模型(如 Claude, GPT-4/4o)。虽然现在还没有完全追上,但开源模型比闭源更 Open,至少能拿到权重。
更具体的期待是希望它们能 release 更多的技术细节。Llama 3 和 DeepSeek 的技术报告相对详细,希望 Qwen 也能更开放地分享技术路线、探索出的数据配比等。
从差异性看:
DeepSeek 更激进、理想化,在 MoE、原生多模态、代码等方面探索较前沿。
Qwen 和 Llama(Qwen 早期 follow Llama,现在已逐渐超越)更注重社区和通用性,需要考虑更广泛的用户和场景,技术选型上可能相对稳健。
这种差异化定位在开源社区里是正常的。
觉得当前大模型创业最容易被忽视的坑是什么?
左右:我觉得一个比较大的问题是模型与产品的适配度,以及对 AI 在产品中角色的理解。
很多人认为 AI 来了,可以用它重做一遍旧需求,或者简单地把 AI API 接到旧产品上。但我认为 AI 更多是后端能力,是处理信息的工具,而不是直接交付结果的前端界面。
现在很多产品给用户的感觉是直接在和一个聊天机器人对话。但在我看来,AI 应该藏在后端,用来深度处理用户的输入,实现真正的个性化,然后再交付结果。
例如,在情感陪伴中:
用户发来语音,AI 不仅是转文本,更应该分析语气、语调,并将这些情感信息融入 Prompt。
AI 应该分析对话上下文的逻辑、情绪变化,让下一轮的回复体现出这种个性化,而不是千篇一律地遵循某个 System Prompt。
很多开发者追求简单的「端到端」,认为大模型能简化一切。但在很多领域(尤其情感),原本需要复杂处理的环节,现在依然需要,甚至可以借助 AI 做得更精细。直接用 AI 替代这些环节,可能导致产品缺乏深度和个性化。
我认为正确的模式应该是 「X + AI」**,而不是 「AI + X」。核心是挖掘和理解用户需求(X),然后思考如何用 AI 更好地解决这个需求。而不是有了 AI 技术,再去找一个场景(X)去套用。
一个重要的观察指标是用户留存。很多 AI 产品(如一些角色扮演应用)留存很差,这往往意味着产品没有抓住用户的真实痛点,个性化做得不够好。如果你的产品是基于真实需求(X)构建的,留存通常不会是核心问题。现在很多产品可能是在做一个伪需求。
随着Qwen、DeepSeek等中国开源模型在国际舞台崭露头角,一场由技术生态驱动的全球化进程正在加速。心言集团的实践表明,开源不仅为中国企业提供了弯道超车的技术路径,更创造了“全球协作-垂直创新-生态反哺”的良性发展模式。在这场静水深流的技术革命中,心言集团也将聚焦泛心理发展的AI化与具身化,继续以开源为舟,以创新为帆,驶向情感计算领域的星辰大海。