华为博士天团首次揭密！盘古NLP大模型三大关键发现

2025-06-23 12:21:24 中华网

　　6月20日-22日，一年一度的华为开发者大会(HDC 2025)隆重启幕。大会期间，AI科技创业者、Al畅销书作者、人工智能头部自媒体博主GenJi(李艮基)携手华为博士天团，围绕盘古NLP大模型、盘古世界模型、具身智能，以及预测大模型四大核心内容，展开了一场深度技术对谈，华为AI领域核心研发团队首次集中揭秘，干货满满!

　　以下是本次直播实录“盘古NLP大模型”部分——

　　GenJi：请韩博士简单介绍一下盘古Embedded模型的技术细节，以及场景应用?

　　韩博士：华为盘古Embedded模型，是基于人脑启发的一个模型。人脑在思考的时候有两种模式：系统一是快思考的模式，系统二是慢思考模式，这两种模式通过人脑元认知做监控和调节，从而在系统一和系统二之间实现动态的调整，拥有更精准、更灵活的决策。

　　那么，有了元认知概念，如何将元认知真正赋能到盘古大模型当中，实现技术升级呢?其中有两个非常关键的技术：一个是难易感知的快慢思考数据融合技术，一个是由慢到快的渐进式训练技术。

　　首先，可以针对训练数据做一个复杂度和难度的评估和标注，将问题分为简单的适合快思考的，和复杂的适合慢思考的类型，并生成对应格式的回答。其次，渐进式由慢到快的训练策略先通过复杂推理训练和强化学习，构建强大的慢思考模型，再逐步引入快思考的数据，进行融合训练。同时，动态调整训练样本的难度，让模型在慢思考能力不损失的情况下，逐步获得快思考能力。

　　GenJi：根据韩博士介绍技术的细节，让我想起《人类简史》书中提到过人类大脑的工作模式：盘古开天辟地后，最开始由男性狩猎，因其更擅长极短时间内快速决策的能力，女性则负责采摘，需要判断食物是否有毒。所以，大脑的左右脑分工，以及男性女性社会分工，与该技术是否存在一定关联关系?

　　韩博士：快思考是系统一，是日常对话中，不需要复杂思考就可以启动的模式;慢思考是人脑的系统二，比如在做一些数学题，或者编程的时候，需要深度思考接下来的步骤划分，从而生成深度推理模式。这就是快思考和慢思考与之前所讲的狩猎和采摘之间的关系。

　　GenJi：您所说的系统一、系统二，是出自于《思考，快与慢》吗?

　　韩博士：是的。我们问了盘古Embedded两个问题：第一个是如何做蒸蛋，这是个很简单的问题，所以它直接给出了输出，不需要深度思考。第二个是一道数学题，蓝色的字，是它在做慢思考，面对复杂的问题，它会自动启动慢思考，思考完成后，它会给出绿色的字，也是它最终的回答。当前，这两种模式在行业中也是可以得到应用的，比如，电商场景中，用户咨询快递发货时间，这是不需要深入思考的;但像快递无法发货的原因和给出建议这类问题，就需要深度分析后，再给出合适的回答。

　　GenJi：关于这项技术里的落地场景，您刚才提到的自适应是什么概念?

　　韩博士：日常生活中人们经常用到OpenAI ChatGPT中的不同模型，GPT4o是快思考模型，o3是慢思考模型，它是训练两个模型做这两件事情。而在盘古的模型中，它将快思考和慢思考能力合到同一个模型中，我们只需要训一个模型，且不需要另外点击“深度思考”按钮，就可以根据用户输入问题的复杂度，自动开启快慢思考模式，因而更加灵活、高效。

　　GenJi：在工具调用模型方面，有哪些适配的工具类型?

　　糜博士：以韩博士的举例来说，假设用户需要查询快递信息和状态，一个语言模型是无法单独完成这些任务的，因为这些信息是动态变化的，所以，为了完成复杂、动态或是工业场景当中较为复杂的任务时，模型需要借助外部工具完成，就像人一样，不仅能说话，还能使用千行百业的工具，而对于盘古模型来说，对工具使用的能力是非常重要的，同时它也一定决定着应用水平的竞争力。

　　之前有很多同事问，盘古模型究竟能够使用多少种工具?对于这个问题的答案，它没有确定性的数字，因为我们的目标是让盘古模型学会使用任何工具，其次，盘古模型的定位是通用模型，它是基础模型，不是某个单一行业定制的模型，它需要具备较好的开箱即用的能力。在训练阶段，我们格外强调模型对整个不同规格或种类工具的泛化能力，最终让模型提供开箱使用的能力。

　　在这个过程中，有两项关键技术：第一项是数据构建方面，第二项是模型训练方面。首先，数据构建方面，一个非常关键的点是，我们需要模拟和仿真海量高质量的复杂工具调用数据，在真实工业场景中会有成千上万工具的可能性，并且各种工具之间会存在一些组合，甚至是交织并行、依赖非常多的复杂关系，所以我们在合成数据的时候需要考虑三个重要的关键点，一是在仿真数据时，整个数据和场景的多样性;二是模型在使用工具过程中的复杂性，因为帮助用户完成一个任务，很多时候不只是调用单个工具就可以完成的，它需要调用多个工具，甚至进行多轮多步的交互，最终才能帮助用户达成想要的结果。三是在数据合成或模拟过程中，需要帮助模型训练工具使用的质量和正确性，所以在数据合成和仿真过程中，我们也做了大量工作，并且许多工作是在业界较为领先的。而在整个工具使用合成方面，对于模型使用工具，或模型与工具协同工作只是第一部分。

　　第二部分是关于训练。在模型训练过程中，第一步是借助仿真模拟数据，用标准的蒸馏学习或监督学习方式训练模型，但这一步远远不够，因此，我们还会叠加一个模型能力感知的自演化迭代训练过程。在仿真数据训练完成之后，我们会让模型跟各种各样真实或模拟的工具进行再次交互，让模型在训练的基础上，还能不断自我探索，这样才能够进一步提升模型使用工具的能力和准确性。

　　GenJi：请再具体介绍一下您刚才说的迭代和协同能力?

　　糜博士：总体来说，让模型解决复杂的问题，一般分为所谓的冷启动，再让模型持续探索。比如下围棋，首先需要让其了解规则，知道怎么下，其次再与各种水平的选手交流，最后提升自己的水平。所以总体来说，训练模型在很多场景中的大致思路，都会有冷启动的过程，这个过程一定程度上能够让模型具备了解游戏规则、任务执行方式，以及和环境交互，从而持续提升自己的能力。

　　此外，大家也会思考，盘古模型做工具调用的时候，具体是什么样子?我们准备了一个案例演示，例如，帮助用户完成从北京到东莞参加HDC大会行程的规划任务：中间是聊天界面，右边是帮助用户做任务时的工具调用流程，左边则是针对这一任务规划场景定制的其他工具，如用户咨询天气时，它会根据不同的天气信息，为用户推荐相应商品等。在整个过程中，盘古模型可能会有非常多轮、多步的复杂工具调用，最终帮助用户完成订酒店、订机票、查天气，以及依据天气推荐物品等一系列操作。

　　GenJi：请李博士也介绍下您这边的案例。

　　李博士：关于大模型工具调用能力，信息获取工具也是日常生活中常见的。比如搜索引擎，看起来是一个简单的工具，但这个环节其实非常复杂。借助案例来说，一位高校老师想要寻求一个资助的项目，他介绍了自己的基本情况，以及对该项目的要求，如果由人来做这件事，需要在互联网上不断的寻找各种各样的项目指南，并反复与申请人做条件匹配，这是非常漫长的。但如果将其交给模型处理，它将自动完成信息的校对、比对、推理，帮助申请人找到贴合的项目。这就很好的解释了为什么信息获取Agent是非常重要，且非常具有挑战性的任务。

　　GenJi：在这个过程中，李博士认为信息获取的挑战在哪里?

　　李博士：我认为最大的挑战是，信息世界是充满噪声的，我们称之为它是非确定性工具，总是会存在各种各样的异常情况。所以，这里最大的挑战是要解决智能体问题，或者这个模型能够在带噪的、各种异常的情况中，仍然跳出陷井并实现最终目标任务，这是最大的挑战。

　　GenJi：关于幻觉，盘古模型是如何规避或尽可能减少这种情况发生的呢?

　　李博士：这就需要用到端到端的强化学习技术，它解决幻觉问题思路的核心原则是，监督最终任务的结果，如果结果是对的，给予正向激励;如果是错的，则给予负向激励，而中间过程完全需要模型自己探索。只要通过充分结果监督，它就可以学到如何处理这些情形，从而学到适合该模型自己能力的处理幻觉的一种方式，最终达成降低幻觉的目的。

　　GenJi：在整体使用过程中，有哪些比较有意思的发现?

　　李博士：我觉得最有意思的发现，是我们提到了一个新的概念，即搜索强度自适应扩增。在模型遇到各种情况的时候，会继续增大强度和搜索频率，我们通过蒸馏或人类解法时，并不一定能够学到适合该模型自身的解法，而端到端的学习，能够实现自主探索，找到真正适合基座、模型本身的解法，从而更好解决问题。

　　可以类比于快思考模型中的慢思考，它的本质是通过大模型生成更多的字符，而我们是与环境做更多轮的交互，这件事并不容易，因为太多的交互容易进入陷井，这就需要算法和工程方式保证。

　　GenJi：最后，各位对盘古大模型还有什么样的展望?

　　韩博士：关于盘古大模型，我们也在演进它的下一代模型架构，目前市面上几乎所有的模型都是基于Transformer结构，我们内部正在研究和探索能够超越Transformer的架构，包括注意力机制方面的改进、MoE新架构以及扩散语言模型，我们认为，未来会有能够超越Transformer的一种架构出现，为盘古大模型带来更高的质的飞跃。

　　糜博士：我从两个方面和您交流这个问题。第一方面，针对刚才聊到的大模型使用工具这一场景，我们做了比较多的初步探索，也还有非常多未完成的工作。如在工业应用时，我们需要不断与客户进行交流、接触，了解他们的真实需求以及需要覆盖的场景，从而补足和提升模型不同方面的能力。第二方面，从基础模型角度出发，我们需要继续做包括工具在内的基础模型整体能力提升，以及像刚才说的幻觉、指令遵从等关键能力，仍有许多问题还没有解决。

　　李博士：关于智能体方向，我个人的愿景是，希望它能够逐步从副驾变成主驾，这有两个很重要的思考方向，一是时间轴上，我们希望模型在长时间交互的情况下，仍然能够防止过大的误差积累，将任务端到端延续下去;二是空间上，希望它能够真正将任务分解，以团队的力量完成更为复杂的任务，这也会影响到接下来的模型训练，所以这两个方向是我非常期待的两个愿景。

　　从快慢思考自适应，到信息收集、复杂场景下的工具调用，再到端到端的强化学习，盘古基础大模型正不断升级与完善自我能力，实现向更多场景、领域的探索和覆盖，持续赋能工业生产。

华为博士天团盘古NLP大模型

分享到微博分享到微信

华为博士天团首次揭密！盘古NLP大模型三大关键发现

相关阅读

新动态

关注度

最话题