2026-02-09 11:10:29 西盟科技资讯
前文介绍
北京时间2025年9月3日上午5:00,World Science Hill独家专访了斯坦福大学计算机科学系助理教授,MongoDB 首席人工智能科学家马腾宇。

World Science Hill创始人Mia王璟晗
独家专访马腾宇教授视频截图
【本期人物专访】
马腾宇

马腾宇是斯坦福大学计算机科学系助理教授,同时担任 MongoDB 首席人工智能科学家。他在普林斯顿大学获得博士学位。马教授的研究兴趣广泛,涵盖机器学习、算法及其理论等领域,具体包括深度学习、(深度)强化学习、预训练与基础模型(包括大语言模型)、鲁棒性、非凸与分布式优化以及高维统计等方向。他曾获得 ACM 博士论文奖荣誉提名、斯隆研究奖(Sloan Research Fellowship)以及美国国家科学基金会青年教师奖(NSF CAREER Award)。他还是 Voyage AI 的联合创始人,并在公司被 MongoDB 于 2025 年 2 月收购前担任首席执行官。
问题一:能否简单介绍一下您和您的组最近正在关注的方向,以及正在做的工作呢?
我们最近在实验室主要聚焦 reasoning 方向,尤其是 automatic mathematical theorem proving。我们小组先后有两篇相关论文,核心思路是用 reinforcement learning (RL) 在 Lean 环境中训练能够进行自动定理证明的模型。
我们认为首要的问题是 RL 的 scaling。从现有公开资料与我们的观察看,RL 的 scaling law 更接近 log-in-linear:当 compute 翻倍时,模型带来的收益往往只是线性增加,甚至可能更弱。在更大规模区间的表现仍不完全清楚,但基于已见数据,现有的 scaling law并不理想。因此,我们的目标是设计新的算法与训练策略,使得有更好的 scaling behavior。
第二个挑战是 advanced data 的稀缺与昂贵。随着模型能力提升,训练所需的题目与高质量 label 会越来越“advanced”,可获得性下降,而人工标注的成本很高,往往需要 PhD 级别的专家参与。我们希望在尽量不增加人力标注的前提下,依然能持续推动能力边界。
为此,我们提出了 self-play theorem proving (STP) 的算法:系统性的自动生成 conjectures,再尝试给出 proof,形成自博弈式的闭环。模型在“提出新猜想—尝试证明—基于反馈调整与迭代”的循环中不断 bootstrap 自身能力,持续产出更“advanced”的训练信号,从而减少对 advanced human data 的依赖。在我们的实验中,该方法的 training curve 与 sample efficiency 均明显优于基线方法。
后续工作虽然未必是对前述论文的严格 follow-up,但总体仍沿着同一研究主线:一方面力图改善 scaling law,另一方面尽量降低对昂贵的 advanced human data 的依赖,从而在 automatic theorem proving 方向上实现更可持续的能力提升。
问题二:在您先前的学术生涯中,您研究过机器学习理论以及大语言模型LLM。在您看来这两者之间是否存在着什么联系?理论在机器学习和人工智能领域中如何能够指导实践呢?
这是个很好的问题。坦率说,理论对实践的价值很大程度取决于你的期待与视角。如果一开始就期待理论能给出无比精确的实验预测,那目前多数的机器学习理论还远远达不到这个强度;但如果把期待放在“提供方向感与确定性”,理论往往是非常有用的。
首先,很多实验代价高昂。在这种情况下,哪怕不是严格的数学定理或推导,一些基本的 theoretical thinking 也能显著优于纯粹的 trial-and-error。比如对 overfitting、underfitting、domain shift 等核心概念的理解,会直接影响你怎么设计数据分布、正则化、以及评估协议,从而减少无效尝试。
其次,即便是“以实验为主”的研究者也不可能完全没有 intuition。而这种 intuition 本质上就是从大量实验现象里做的“抽象”。只不过,它未必被写成形式化(formal)的定理;理论在这里的作用,是把这些分散的直觉提炼为可复用、可检验的原则,帮助我们在更大的搜索空间里少走弯路。
当然,和某些成熟学科相比,现阶段的 ML 理论通常还不能对具体实验结果作出“点到点”的精准预测;但这不意味着它无用。就我个人的立场,从长期来看,理论是必需的:知识的迭代需要我们持续加深理解,而不能永远停留在试错。
这里还有一个时间尺度与成功率的问题:当一个方向的实验“命中率”本来就很高时,理论的边际价值可能看起来不那么突出;反过来,如果某类实验的成功率只有 1%—5%,那就值得停下来,通过理论思考来提高成功率的基线,比如明确哪些假设是必要的、哪些设计是低效的,以及应当优先探索的子空间。这类“把粗网变细”的工作,往往能在资源紧张时带来真正的效率提升。
总结一下:别把理论当作“天眼”,而应把它当作选择与约束的系统化工具——在高成本、低命中率、定义不清的问题上尤其如此。随着时间推移,理论把分散的直觉沉淀为可迁移的结构性知识;而实践又为理论提供新现象与反例。两者相互牵引,是我们把研究做深、做稳的可持续路径。
问题三:当时是什么出发点让您从学术走向创业?如果只用一句话概括 Voyage AI 想解决的“硬问题”,您会怎么说?
我选择走学术创业这条路,原因很多,但最关键的是timing与技术壁垒。对于以研究为驱动的创业,技术出现重大突破的窗口期往往是最适合起步的时刻。
因为如果行业并无本质性变革,那么作为创始人,我如何能在运营效率、成本结构或 go-to-market 上显著优于他人?做为一个研究者,差异化的决定性因素是技术本身:当一项业务中“技术”的重要性占到 90% 甚至更高时,researcher founder 的比较优势会非常突出;反之,如果技术只占 10%–20%,研究背景带来的优势就会被稀释。
团队与资源的时机也很重要。比如,假如我是成为助理教授的第一年,学生和长期合作者尚未形成,组织起一支高效团队会更难,reputation 的积累也需要时间。技术方向上,我们当时恰好在一个自己最熟悉、也最有前景的 topic 上具备优势(下面会提到我们具体在解决什么问题)。需要说明的是,这个方向并非简单把学校里的研究“搬出来商业化”,而是在多条研究线索中择优选择,叠加产业需求与实现路径,形成了适合落地的切入点。
我们聚焦解决的问题可以用一句话概括:semantic search / AI-powered search。目标是在海量数据中快速定位与任务高度相关的relevant information。这类能力之所以重要,是因为off-the-shelf model / API(例如通用大模型服务)通常无法直接接入企业的 proprietary information;一旦直接共享给第三方,就会面临 data leakage 风险。
因此,企业需要一种方法,把 foundation models 的能力与海量、私有的 proprietary data 安全地结合起来。这正是 RAG(retrieval-augmented generation) 与更广义 agent 系统中的 retrieval 环节要解决的核心:高质量的搜索与检索。我们的工作,聚焦在把 search & retrieval 做深做强——既提升相关性与召回,又保障隐私与合规,从而成为企业级 AI system 的关键基础设施。
问题四:在“教授—研究者—创业者”三重身份里,您一周如何分配时间?有没有一条“拒绝法则”或“优先级原则”可供学生借鉴?
就研究者与教授而言,二者在许多层面相近:教授多了承担课程教学与系统化指导学生的职责,但在具体研究中,研究者同样需要带学生、组织协作、推进课题。至于时间如何分配,我没有“一刀切”的公式,更在意如何提高效率。如果一件事做起来效率不高,我会尽量用工具与流程把它自动化,或交给更合适的人来做;在确有必要时,也会降低优先级、甚至停止。但很多琐事无法完全免除,只能通过标准化与工具化持续优化。
谈到“先做什么、后做什么”,很难有放之四海皆准的原则。这是因为不论是创业还是科研,我们真正追求的不是“平均水平”,而是少数能脱颖而出的“突破”。创业领域往往只有少数公司能真正成功;学术领域也是如此,在大量论文中,最终能留下长期影响的比例并不高。而且我们本就位于学术前沿,要在前沿里再做出“出圈”的成果,难度只会更大。
因此,那些基于“平均情形”的通用法则并非没有价值,但远不够。我们需要在其之上做出创新,并时刻警惕环境变化:在互联网时代有效的做法,到了人工智能时代未必依然有效。最难的地方,恰恰在于如何在数据与经验都有限的情况下,尽快识别可能通往“突破”的路径,并据此做出高质量的决策。
我的做法是:以效率为先,保持假设的可证伪性,尽量缩短反馈回路,小步快跑、及时校准,在迭代中不断重排轻重缓急与资源投放。这样虽不能保证每一步都命中,但能在不确定中稳步逼近真正有价值的方向。
问题五:您在招聘学生或年轻工程师/研究员时最看重的三件事是什么呢?对于低年级的机器学习或者AI / CS博士生,您是否能够提供一些建议呢?
从招聘的角度看,很难用三条规则就把问题说清,因为不同岗位、不同阶段、不同团队的权重差异都很大,往往是一个多因素权衡的复杂决策。我更愿意先说明方法论:判断标准必须服务于目标与场景,既看候选人当前能做什么,也看他(她)在团队文化与方向上的成长空间。
在校学生的遴选相对强调潜力与可塑性。我会看他(她)是否在真实问题上展现过独立思考与持续投入,是否具备把一个问题从提出、调研、建模、实验到复盘的“完整闭环”能力;论文与项目经历是重要信号;推荐信有助于了解长期表现与合作品格;课程基础可以作为参照。
工程岗位则更加看重扎实的编程与调试功底、可靠的代码与文档习惯、在复杂约束下进行系统设计与性能优化的能力、把复杂问题拆解成可执行计划并如期推进的能力。同时,工程实践往往需要与多方协作,能否清晰沟通需求与边界、能否在迭代中兼顾稳定性与进度,决定了个人产出的持续性与团队协同的效率。

嘉宾:马腾宇
主持:Mia王璟晗
作者:Mia王璟晗

创始人:Mia王璟晗

World Science Hill 协会,简称WSH,是由 Mia 王璟晗创立,北大,清华,哈佛,普林斯顿,斯坦福,麻省理工,多伦多大学等全世界知名大学的在校生及校友自愿结成的科学研究组织,我们心怀对科学的热爱和对科技之巅的向往,致力于打破学科壁垒,打造国际化跨学科社区,为全世界的科研事业添砖加瓦。
我们的使命,是促进不同学科之间的交流,促进跨学科的交叉研究,为突破人类的科学边界、认知边界和工程边界做出贡献。