2025-06-23 12:21:24 中华网
6月20日-22日,一年一度的华为开发者大会(HDC 2025)隆重启幕。大会期间,AI科技创业者、Al畅销书作者、人工智能头部自媒体博主GenJi(李艮基)携手华为博士天团,围绕盘古NLP大模型、盘古世界模型、具身智能,以及预测大模型四大核心内容,展开了一场深度技术对谈,华为AI领域核心研发团队首次集中揭秘,干货满满!
以下是本次直播实录“盘古NLP大模型”部分——
GenJi:请韩博士简单介绍一下盘古Embedded模型的技术细节,以及场景应用?
韩博士:华为盘古Embedded模型,是基于人脑启发的一个模型。人脑在思考的时候有两种模式:系统一是快思考的模式,系统二是慢思考模式,这两种模式通过人脑元认知做监控和调节,从而在系统一和系统二之间实现动态的调整,拥有更精准、更灵活的决策。
那么,有了元认知概念,如何将元认知真正赋能到盘古大模型当中,实现技术升级呢?其中有两个非常关键的技术:一个是难易感知的快慢思考数据融合技术,一个是由慢到快的渐进式训练技术。
首先,可以针对训练数据做一个复杂度和难度的评估和标注,将问题分为简单的适合快思考的,和复杂的适合慢思考的类型,并生成对应格式的回答。其次,渐进式由慢到快的训练策略先通过复杂推理训练和强化学习,构建强大的慢思考模型,再逐步引入快思考的数据,进行融合训练。同时,动态调整训练样本的难度,让模型在慢思考能力不损失的情况下,逐步获得快思考能力。
GenJi:根据韩博士介绍技术的细节,让我想起《人类简史》书中提到过人类大脑的工作模式:盘古开天辟地后,最开始由男性狩猎,因其更擅长极短时间内快速决策的能力,女性则负责采摘,需要判断食物是否有毒。所以,大脑的左右脑分工,以及男性女性社会分工,与该技术是否存在一定关联关系?
韩博士:快思考是系统一,是日常对话中,不需要复杂思考就可以启动的模式;慢思考是人脑的系统二,比如在做一些数学题,或者编程的时候,需要深度思考接下来的步骤划分,从而生成深度推理模式。这就是快思考和慢思考与之前所讲的狩猎和采摘之间的关系。
GenJi:您所说的系统一、系统二,是出自于《思考,快与慢》吗?
韩博士:是的。我们问了盘古Embedded两个问题:第一个是如何做蒸蛋,这是个很简单的问题,所以它直接给出了输出,不需要深度思考。第二个是一道数学题,蓝色的字,是它在做慢思考,面对复杂的问题,它会自动启动慢思考,思考完成后,它会给出绿色的字,也是它最终的回答。当前,这两种模式在行业中也是可以得到应用的,比如,电商场景中,用户咨询快递发货时间,这是不需要深入思考的;但像快递无法发货的原因和给出建议这类问题,就需要深度分析后,再给出合适的回答。
GenJi:关于这项技术里的落地场景,您刚才提到的自适应是什么概念?
韩博士:日常生活中人们经常用到OpenAI ChatGPT中的不同模型,GPT4o是快思考模型,o3是慢思考模型,它是训练两个模型做这两件事情。而在盘古的模型中,它将快思考和慢思考能力合到同一个模型中,我们只需要训一个模型,且不需要另外点击“深度思考”按钮,就可以根据用户输入问题的复杂度,自动开启快慢思考模式,因而更加灵活、高效。
GenJi:在工具调用模型方面,有哪些适配的工具类型?
糜博士:以韩博士的举例来说,假设用户需要查询快递信息和状态,一个语言模型是无法单独完成这些任务的,因为这些信息是动态变化的,所以,为了完成复杂、动态或是工业场景当中较为复杂的任务时,模型需要借助外部工具完成,就像人一样,不仅能说话,还能使用千行百业的工具,而对于盘古模型来说,对工具使用的能力是非常重要的,同时它也一定决定着应用水平的竞争力。
之前有很多同事问,盘古模型究竟能够使用多少种工具?对于这个问题的答案,它没有确定性的数字,因为我们的目标是让盘古模型学会使用任何工具,其次,盘古模型的定位是通用模型,它是基础模型,不是某个单一行业定制的模型,它需要具备较好的开箱即用的能力。在训练阶段,我们格外强调模型对整个不同规格或种类工具的泛化能力,最终让模型提供开箱使用的能力。
在这个过程中,有两项关键技术:第一项是数据构建方面,第二项是模型训练方面。首先,数据构建方面,一个非常关键的点是,我们需要模拟和仿真海量高质量的复杂工具调用数据,在真实工业场景中会有成千上万工具的可能性,并且各种工具之间会存在一些组合,甚至是交织并行、依赖非常多的复杂关系,所以我们在合成数据的时候需要考虑三个重要的关键点,一是在仿真数据时,整个数据和场景的多样性;二是模型在使用工具过程中的复杂性,因为帮助用户完成一个任务,很多时候不只是调用单个工具就可以完成的,它需要调用多个工具,甚至进行多轮多步的交互,最终才能帮助用户达成想要的结果。三是在数据合成或模拟过程中,需要帮助模型训练工具使用的质量和正确性,所以在数据合成和仿真过程中,我们也做了大量工作,并且许多工作是在业界较为领先的。而在整个工具使用合成方面,对于模型使用工具,或模型与工具协同工作只是第一部分。
第二部分是关于训练。在模型训练过程中,第一步是借助仿真模拟数据,用标准的蒸馏学习或监督学习方式训练模型,但这一步远远不够,因此,我们还会叠加一个模型能力感知的自演化迭代训练过程。在仿真数据训练完成之后,我们会让模型跟各种各样真实或模拟的工具进行再次交互,让模型在训练的基础上,还能不断自我探索,这样才能够进一步提升模型使用工具的能力和准确性。
GenJi:请再具体介绍一下您刚才说的迭代和协同能力?
糜博士:总体来说,让模型解决复杂的问题,一般分为所谓的冷启动,再让模型持续探索。比如下围棋,首先需要让其了解规则,知道怎么下,其次再与各种水平的选手交流,最后提升自己的水平。所以总体来说,训练模型在很多场景中的大致思路,都会有冷启动的过程,这个过程一定程度上能够让模型具备了解游戏规则、任务执行方式,以及和环境交互,从而持续提升自己的能力。
此外,大家也会思考,盘古模型做工具调用的时候,具体是什么样子?我们准备了一个案例演示,例如,帮助用户完成从北京到东莞参加HDC大会行程的规划任务:中间是聊天界面,右边是帮助用户做任务时的工具调用流程,左边则是针对这一任务规划场景定制的其他工具,如用户咨询天气时,它会根据不同的天气信息,为用户推荐相应商品等。在整个过程中,盘古模型可能会有非常多轮、多步的复杂工具调用,最终帮助用户完成订酒店、订机票、查天气,以及依据天气推荐物品等一系列操作。
GenJi:请李博士也介绍下您这边的案例。
李博士:关于大模型工具调用能力,信息获取工具也是日常生活中常见的。比如搜索引擎,看起来是一个简单的工具,但这个环节其实非常复杂。借助案例来说,一位高校老师想要寻求一个资助的项目,他介绍了自己的基本情况,以及对该项目的要求,如果由人来做这件事,需要在互联网上不断的寻找各种各样的项目指南,并反复与申请人做条件匹配,这是非常漫长的。但如果将其交给模型处理,它将自动完成信息的校对、比对、推理,帮助申请人找到贴合的项目。这就很好的解释了为什么信息获取Agent是非常重要,且非常具有挑战性的任务。
GenJi:在这个过程中,李博士认为信息获取的挑战在哪里?
李博士:我认为最大的挑战是,信息世界是充满噪声的,我们称之为它是非确定性工具,总是会存在各种各样的异常情况。所以,这里最大的挑战是要解决智能体问题,或者这个模型能够在带噪的、各种异常的情况中,仍然跳出陷井并实现最终目标任务,这是最大的挑战。
GenJi:关于幻觉,盘古模型是如何规避或尽可能减少这种情况发生的呢?
李博士:这就需要用到端到端的强化学习技术,它解决幻觉问题思路的核心原则是,监督最终任务的结果,如果结果是对的,给予正向激励;如果是错的,则给予负向激励,而中间过程完全需要模型自己探索。只要通过充分结果监督,它就可以学到如何处理这些情形,从而学到适合该模型自己能力的处理幻觉的一种方式,最终达成降低幻觉的目的。
GenJi:在整体使用过程中,有哪些比较有意思的发现?
李博士:我觉得最有意思的发现,是我们提到了一个新的概念,即搜索强度自适应扩增。在模型遇到各种情况的时候,会继续增大强度和搜索频率,我们通过蒸馏或人类解法时,并不一定能够学到适合该模型自身的解法,而端到端的学习,能够实现自主探索,找到真正适合基座、模型本身的解法,从而更好解决问题。
可以类比于快思考模型中的慢思考,它的本质是通过大模型生成更多的字符,而我们是与环境做更多轮的交互,这件事并不容易,因为太多的交互容易进入陷井,这就需要算法和工程方式保证。
GenJi:最后,各位对盘古大模型还有什么样的展望?
韩博士:关于盘古大模型,我们也在演进它的下一代模型架构,目前市面上几乎所有的模型都是基于Transformer结构,我们内部正在研究和探索能够超越Transformer的架构,包括注意力机制方面的改进、MoE新架构以及扩散语言模型,我们认为,未来会有能够超越Transformer的一种架构出现,为盘古大模型带来更高的质的飞跃。
糜博士:我从两个方面和您交流这个问题。第一方面,针对刚才聊到的大模型使用工具这一场景,我们做了比较多的初步探索,也还有非常多未完成的工作。如在工业应用时,我们需要不断与客户进行交流、接触,了解他们的真实需求以及需要覆盖的场景,从而补足和提升模型不同方面的能力。第二方面,从基础模型角度出发,我们需要继续做包括工具在内的基础模型整体能力提升,以及像刚才说的幻觉、指令遵从等关键能力,仍有许多问题还没有解决。
李博士:关于智能体方向,我个人的愿景是,希望它能够逐步从副驾变成主驾,这有两个很重要的思考方向,一是时间轴上,我们希望模型在长时间交互的情况下,仍然能够防止过大的误差积累,将任务端到端延续下去;二是空间上,希望它能够真正将任务分解,以团队的力量完成更为复杂的任务,这也会影响到接下来的模型训练,所以这两个方向是我非常期待的两个愿景。
从快慢思考自适应,到信息收集、复杂场景下的工具调用,再到端到端的强化学习,盘古基础大模型正不断升级与完善自我能力,实现向更多场景、领域的探索和覆盖,持续赋能工业生产。