首页 > 技术

AI为何看不懂六指图?首期《高校有为》揭秘多模态大模型的那些事

2025-09-10 11:00:47      中华网   


  2025年,人工智能的发展已进入深水区。当我们习惯于AI在各个领域的出色表现时,一些看似微小却关键的“瑕疵”,成为了衡量其真实智能水平的试金石。其中一个典型案例,便是AI模型在面对一张有六根手指的手掌图片时,普遍会将其识别为“五根手指”。

  这个现象暴露了当前AI技术路径中的一个核心议题:AI究竟是如何“理解”世界的?当一个三岁孩童都能完成的简单计数任务,成为模型的认知盲区时,我们不得不深入探究其背后的根本机制。

  面对这样的前沿命题,我们常期待能在某个技术峰会,或是顶刊学术论文中找到答案。但对于深耕科研一线的新生代科研人而言,真正能击穿问题本质的洞见,未必只藏在聚光灯下打磨百遍的讲稿里,也可能诞生于科研同行间松弛、真实的深度思想碰撞中。

  为了链接高校新生代科研力量与开发者生态,昇腾与CSDN联合策划了国内首档面向TOP高校新生代科研团队系列探访&对话节目——《高校有为》。

  节目首期聚焦AI领域的核心议题,以《开源多模态模型的昇腾解法》为主题,由CSDN高级副总裁、奇点智能研究院院长李建忠主持,邀请到北京大学深圳研究生院助理教授,博士生导师,Open-Sora Plan发起人袁粒与华为昇腾计算推理产品高级架构师王建辉,围绕多模态AI的挑战、技术路线的选择、算力成本以及生态构建等议题,展开一场信息量密集的“头脑风暴”。

  高校有为采访链接:

  https://www.bilibili.com/video/BV1tuadziEqf/?vd_source=8bcc2107bb1d6e7d19f23c41021a68be

  01 计算范式之变:从通用CPU到专用NPU的底层逻辑

  对话的开端,直指驱动本轮AI浪潮的根本动力——计算范式的变革。

  李建忠指出,行业正经历从经典以CPU为中心向以神经网络为中心的计算架构(以GPU/NPU为中心)的转变。

  王建辉从硬件架构演进的角度,阐述了这一变革的本质驱动力。他认为,“整个计算范式的变化,是从以前的通用性,到现在核心是把算力的效率提上去。”

  他进一步解释了CPU与NPU在设计哲学上的根本差异:

  ﹒CPU(中央处理器):设计目标是通用性,擅长标量计算(单个数值的加减乘除),追求单核高性能。

  ﹒NPU(神经网络处理器):设计目标是效率,为深度学习任务而生,核心是处理大规模的矩阵或张量(Tensor)的乘加运算。为了在相同功耗下实现更高的算力效率,这是设计的出发点。

  王建辉透露,昇腾从设计之初就瞄准了这一方向,这种设计直接服务于神经网络的核心计算需求。

  同时,他也观察到一种“殊途同归”的趋势。NPU在追求极致效率的同时,也在增加向量计算单元以提升灵活性;而GPU(图形处理器)在拥有强大向量计算能力的基础上,也在不断增加专用的张量核心(Tensor Core)。双方都在向一个“既能提供高效运算效率,又能兼顾AI发展灵活性”的平衡点演进。

  袁粒则从软件生态的视角补充,这一转变的核心诉求是“从通用到专用,以及到并行计算”。AI技术栈天然是并行的,软件生态需要去适配硬件的并行特性,两者协同发展。此外,他还提出了一个重要趋势:软件生态的构建正从过去的由硬件厂商主导的“中心化”模式,演变为高校、企业、个人开发者共同参与的“去中心化”模式,生态变得更加开放。

  02 智能的“偏见”:当语言的霸权,压制了视觉的真相

  在多模态AI的世界里,语言和视觉这两个最重要的模态,地位并不平等。语言,这个由人类创造、高度编码、信息密度极高的符号系统,在过去几年大语言模型的狂飙突进中,已经建立起了事实上的“霸权”。而视觉,这个客观存在、充满冗余信息、更接近物理世界本质的模态,反而在AI的认知体系中,沦为了“二等公民”。

  AI看到的“六指手”图像,其视觉信息在进入决策中枢前,就被强大的“语言先验”给压制和扭曲了。AI并没有真正“看见”六根手指,它只是“知道”手应该是五根。这场看似微小的认知偏差,背后却是整个AI行业一场旷日持久的“路线之争”——智能的演进,究竟应该以语言为中心,还是以视觉(或更广泛的世界模型)为中心?

  从2012年AlexNet在ImageNet大赛上一战成名,开启了计算机视觉的黄金十年,到2020年后ChatGPT横空出世,让语言模型独占鳌头,这场争论的钟摆一直在摇晃。视觉派的代表人物Yann LeCun和李飞飞坚信,缺乏对物理世界的理解,AI永远无法实现真正的通用智能;而语言派则引用维特根斯坦“语言是人类思维的边界”,追溯到艾伦·图灵对人工智能最初的理解,是抽象与逻辑的终极体现。

  《高校有为》的这场对话,并没有试图给出一个终极答案,而是呈现了前沿科学家身处这场“范式革命”中的真实思考。袁粒坦言,作为一个“视觉派”,他也不得不承认,语言模型在当下“弯道超车”有其必然性——数据获取成本低、信息密度高、人类已经完成了初步的“编码”。

  但更重要的是,他指出了未来的方向:模态平权。真正的多模态原生AI,必须让视觉和语言在模型内部拥有平等的“话语权”,让AI既能理解语言的逻辑,也能尊重视觉的真相。

  03 路线之争:统一架构的未来,赌在自回归还是扩散?

  如果说“语言与视觉之争”是AI发展的“世界观”问题,那么接下来的讨论,则进入了更硬核的“方法论”层面,这也是本期节目思想碰撞最激烈的部分。

  当前,在多模态生成领域,存在着两条截然不同的技术路线:

  ﹒自回归模型(Autoregressive Models):以大语言模型为代表,其核心是“Next Token Prediction”(预测下一个词元)。它像一个严谨的逻辑家,通过前文推导后文,一步一步构建出完整的内容。这是一种因果推理(Causal Inference)。

  ﹒扩散模型(Diffusion Models):以主流的文生图、文生视频模型为代表,其核心是“Denoising”(去噪)。它像一个印象派画家,从一团随机的噪声开始,逐步去除噪声,最终“浮现”出清晰的图像。这是一种结构推理(Structural Inference)。

  在《高校有为》的“茶话会”上,一场关于这两种路线优劣的“辩论”就此上演,充满了节目所追求的“思想对撞”的火花。

  袁粒抛出了一个极具前瞻性,甚至有些“反共识”的判断:“尽管我做的视频生成现在主流是扩散模型,但我认为,最终统一多模态的,会是自回归模型。”

  他给出了三层逻辑:

  其一,继承性与效率:自回归已经基本解决了语言这个最复杂的模态,沿用这条路线去兼容视觉,可以避免重复“造轮子”。

  其二,推理的本质:人类的高级智能,核心是因果推理。我们知道火不能摸,是因为我们预知了“摸”这个“因”会导致“烫伤”那个“果”。自回归的“next token prediction”天然契合了这种因果链条。而扩散模型的结构推理,虽然擅长描绘空间关系,但在逻辑链上是缺失的。

  其三,强推理的潜力:在需要反思、规划、决策的复杂任务中,自回归模型可以通过强化学习等手段,实现更强的推理能力,而扩散模型的并行生成机制,很难进行有效的逻辑反思。

  因此,他大胆预言,未来的多模态架构,将是以自回归模型为“主干网络”(Backbone),负责因果推理和跨模态融合;而扩散模型则会作为一个“后处理模块”或“补丁”,负责视觉模态的结构补完和连续性细节。

  这个观点,几乎是在为整个多模态领域的未来,描绘一张全新的技术蓝图。

  然而,王建辉老师从一个截然不同的维度提出了“反驳”——算力利用率(Compute Utilization Efficiency)。

  他认为,抛开算法的优美,最终决定技术路线胜负的,可能是一个更朴素的工程问题:哪种架构能把硬件的每一分性能都压榨到极致?

  他分析道,自回归模型对内存带宽要求极高,但算力利用率相对不足;而扩散模型恰恰相反,它极度消耗算力,但对带宽要求没那么苛刻。这两种架构都存在“偏科”的问题。

  因此,他提出了一个更具“融合”色彩的猜想:未来的胜利者,可能不是两者中的任何一个,而是一种全新的、能够将硬件的算力、内存、通信三大资源同时“吃满”的均衡架构。

  这场“辩论”没有输赢,却诠释了《高校有为》从“单调对话”到“电影级叙事”的亮点:对话的张力,正来自于产、学两界顶级大脑,从各自最擅长的领域出发,对同一个未知山峰,给出了不同的攀登路径。袁粒代表了算法与理论的“顶层设计”,追求模型的优雅与认知上的合理性;王建辉老师则代表了工程与实践的“底层逻辑”,强调物理定律和资源效率的硬约束。

  这正是创新的真实面貌——它不是一条笔直的康庄大道,而是在无数次这样的思想对撞、路线摇摆、和基于第一性原理的反复诘问中,螺旋式上升的。

  04 成本的“鸿沟”:从200元到2分钱,AI视频的普惠之路

  再精妙的理论,再宏大的架构,最终都要面临现实世界的检验。对于AIGC而言,最现实的检验标准,就是成本。

  本期《高校有为》的第三个高潮,是将话题从云端的理论,拉回了地面上最残酷的商业现实。王建辉老师透露了一个惊人的数字:“在Sora刚发布时,我们内部评估,生成一段高质量的AI视频,成本至少是200元人民币。”

  200元,这个数字如同一盆冷水,浇灭了许多人对AI视频“即刻普及”的幻想。这意味着,它只是少数人能负担得起的“奢侈品”,距离成为像抖音、B站一样的全民创作工具,还有一道巨大的成本鸿沟。

  王建辉的目标是:“未来有没有可能,把成本降到2块钱,甚至2分钱?”

  从200元到2分钱,是一万倍的成本压缩,这可能吗?

  袁粒表示,将当前AI视频生成的技术瓶颈,总结为四个方面:可靠性不足(不符合物理规律)、可控性不足(无法精确控制生成内容)、一致性不足(人物或物体在视频中会变化)、时长不足(普遍在10秒以内)。

  问题的根源,一方面是前面提到的扩散模型“理解能力”不足,另一方面,则是其二次方增长的计算开销。当视频时长增加,计算成本会呈爆炸式增长。

  要跨越这道鸿沟,单靠算法优化或硬件升级的“单打独斗”已经不够,必须依靠软硬协同的深度联合创新。这或许也是《高校有为》想要呈现的真实图景。

  ·在软件层面,袁粒团队在昇腾算力的支持下,不断进行算法迭代。例如,为了解决视频序列过长导致的“内存溢出”(Out of Memory)问题,他们联合昇腾团队,在张量并行(TP)的基础上,进一步开发了序列并行(SP),实现了“TP+SP”的高效训练模式。再比如,为了解决模型训练后期收敛困难的“震荡”现象,他们采用了昇腾亲和的EMA(Exponential Moving Average)优化策略,才最终让模型平稳收敛。

  ·在硬件层面,昇腾则不仅仅是提供算力,更是在与袁粒团队这样的顶级科研项目的合作中,反向优化自己的硬件架构和软件栈。王建辉提到,他们会分析像长视频生成这类任务的性能瓶颈(比如Flash Attention可能占到90%的耗时),然后针对性地进行极致的性能优化。

  这种“你中有我,我中有你”的深度耦合,才是实现万倍成本压缩的关键。算法的创新,为硬件指明了优化的方向;而硬件的极限性能,又为算法的实现提供了可能。

  如今,合作的成果已经落地。袁粒在对话中,分享了一个与华为合作的陕西文旅项目案例:游客在游览大唐不夜城时,可以化身为《长安十二时辰》里的某个角色,AI会根据游客的游览路线,实时生成一段“个人专属”的剧本杀视频。

  从实验室里的代码,到游客手机里的精彩短片,这条路径的打通,预示着AI视频的“2分钱时代”,或许真的离我们不远了。

  05 生态的“远征”:开源的火种,与AI人才的“实验田”

  如果说技术创新是“点”的突破,那么生态建设就是“面”的展开。《高校有为》的视野并未局限于一次具体的项目合作,而是探讨了更宏大的命题:我们该如何构建一个属于自己的、繁荣的AI生态?

  开源,是这场对话中反复出现的核心关键词。

  袁粒在谈到为什么发起Open-Sora Plan时,表达了一个坚定的信念:AI的快速发展,核心就在于开源。他甚至认为,正是开源的力量,在“倒逼”那些选择闭源的巨头,不得不加快开放的步伐,从而促进了整个行业的繁荣。

  但当GPU受限,我们如何突围?答案是,建立一个强大的、开放的、让所有人都能参与共建的“世界第二选择”生态。

  华为的战略选择与此不谋而合。王建辉明确表示,华为坚持“硬件开放、软件开源、使能伙伴、发展人才”,将CANN(异构计算架构)、Mind系列使能套件及工具链等核心软件栈全面开源,甚至会将openPangu在昇腾上完整的训练、推理过程和经验全部开放给社区。

  这是一种格局,更是一种智慧。硬件是躯干,而生态是血脉。只有当成千上万的开发者、高校、企业,都愿意基于这个平台进行创造和试错,这个平台才能在无数次的“过程创新”中,变得真正强大和富有韧性。

  生态建设的另一个核心,是AI人才。

  我们正处在一个AI人才井喷的时代,DeepSeek等顶尖模型团队中,涌现出大量来自中国高校的青年才俊。这背后,是中国扎实的数理基础教育,更是产学研深度融合的人才培养模式。

  袁粒强调,大模型训练,本质上是一门“实验科学”。学生如果只停留在课本理论,没有亲手接触和调试过大规模集群,没有在海量的算力消耗中积累“know-how”(实践诀窍),就无法成长为真正的顶尖人才。

  这也是华为与北大、清华等16所顶尖高校共建“鲲鹏昇腾科教创新卓越中心/孵化中心”的价值所在——正构建产学研协同新范式。卓越中心和孵化中心通过与高校的紧密合作,为多个跨学科研究提供强有力的技术支撑,将产业界最真实的难题、最前沿的工具、最宝贵的实践经验,带入课堂和实验室,为AI人才的成长,提供了一片最肥沃的“实验田”。

  从开源的火种,到人才的沃土,一场围绕国产AI生态的“远征”,已经启航。

  06 智能的温度——为什么AI写不出《三体》?

  在长达两小时,信息量爆炸的“茶话会”临近结束时,对话的走向,却从硬核的技术,转向了一个柔软的哲学问题:AI会取代人类的创造力吗?

  袁粒的回答,为这场“思想风暴”画上了一个充满人文关怀的句号。

  他说:“AI,本质上仍是一个工具。人类的真正价值,在于体验。”

  他举了刘慈欣创作《三体》的例子。刘慈欣之所以能写出那样宏大而深刻的作品,不仅仅因为他的知识储备,更因为他曾作为一个工程师,在水电站工作了几十年,亲身经历过那个特殊的年代。作品中蕴含的,是他作为“碳基生物”,用肉体感受过的痛苦、快乐、希望与绝望。

  而AI,作为“硅基生命”,它可以学习人类所有的知识,拥有海量的“经验”,但它没有“体验”。它无法理解一个物理的身体在真实世界中的交互,无法感受时间的流逝和生命的脆弱。

  “它没有亲身的经历,这种肉体上的体验,是碳基生物独有的。”

  技术的发展永无止境,但我们不应忘记,驱动这一切的,始终是人类对世界的好奇、对美的追求、以及对生命本身的深刻体验。这或许是智能时代,值得我们记录和传递的“温度”,是我们面对AI浪潮时,最应该坚守的“锚点”。

  本期《高校有为》的思辨之旅暂告一段落,但关于AI未来的探索永不止步。如果屏幕前的你对这场对话意犹未尽,渴望见证更多像Open-Sora Plan与昇腾结合这样的前沿成果落地,那么,我们有一个新的约定。

  9月20日,华为全联接大会开发者日将汇聚更多高校科研与开发者生态实践。届时,我们再一同深入探讨,见证实干的力量。感谢大家对《高校有为》的关注,我们下期再见!

相关阅读

    无相关信息