2023-10-09 10:27:07 凤凰网科技
前文介绍:
北京时间2023年9月15日早上10:00, World Science Hill独家专访了北京澜舟科技有限公司创始人及CEO、微软亚洲研究院前副院长、中国计算机学会副理事长周明博士。
专访嘉宾:周明
周明博士,北京澜舟科技有限公司创始人及CEO, 中国计算机学会副理事长,是中国和国际上NLP领域的领导者之一,曾任国际计算语言学会主席,发表了100余篇ACL文章。他在NLP领域重要论文发表数目名列世界前列,谷歌H-Index 107。
在创办澜舟科技之前,周明博士曾任微软亚洲研究院副院长,领导微软NLP领域的R&D业务,覆盖了大模型、机器翻译、搜索、聊天和对话系统等技术并成为微软的重要产品例如Windows,Office,Azure,Cognitive Service,小冰的核心技术。
1. 能否简单介绍一下您和您的澜舟科技团队正在做的工作?
澜舟科技是一家专注于认知智能领域的人工智能公司,致力于为全球企业提供新一代认知智能平台,助力企业数字化转型升级。
我于2020年底预感到大模型的未来发展,离开工作了21年的微软亚洲研究院(期间我多年担任NLP研究的副院长),在创新工场支持下,着手孵化一家大模型公司。澜舟科技公司于2021年6月正式成立。
该公司开发了著名的“孟子(Mengzi)”系列的大模型技术,专注To B开发行业大模型并应用到金融等重要领域。目前该公司在To B大模型研发和应用方面,尤其是金融大模型方面,走在中国前列。
澜舟科技公司曾获得2021年中国HICOOL全球创业大赛的一等奖及AI和金融赛道的第一名。它是达沃斯2023年技术先锋(Technology Pioneers),2023年被列为The Information评选出的五个有可能成为中国OpenAI的公司之一。
2. 能否请您介绍一下,整个深度学习与自然语言处理这个方向从最初的 Word2vec 和 CBOW (Continuous Bag of Words),一路发展到如今以GPT4为代表的一众大语言模型,您认为中间经历了多少次重大技术创新?
自从深度学习被引入自然语言处理领域以来,这一领域发生了许多重要的技术进步。下面是一些我认为对自然语言处理产生重大影响的事件或算法:
●CBOW (Continuous Bag of Words)和Word2Vec
这些都是用多维向量刻画一个词的语义的方法,支持静态词汇之间、两个句子之间的语义计算。它使得神经网络能够更好地理解单词之间的关系,从而提高了自然语言处理任务的性能。但是这种词汇的语义描述方法是静态的描述,这个问题,在后来发展出来的预训练模型得以解决。
●LSTM (Long Short-Term Memory) 和 GRU (Gated Recurrent Unit)
这两种循环神经网络结构解决了传统 RNN 中的梯度消失问题,使其更适合用于序列建模任务。
●LSTM(Long Short-Term Memory)
是一种特殊类型的循环神经网络(RNN),主要用于解决传统 RNN 中的梯度消失问题。在传统 RNN 中,由于反馈权重只依赖于当前时刻的输出状态,因此当递归层数增加时,信息逐渐流失,导致较早时刻的信息无法传递给后续时刻,最终出现梯度消失问题。
而 LSTM 通过添加三个门控单元(输入门、遗忘门和输出门)以及细胞状态更新规则,有效地缓解了梯度消失问题,并且能够记住长期依赖关系,因而适用于需要考虑上下文信息的建模任务,如语音识别、机器翻译、情感分析等。GRU则是LSTM的一个改良。
●Transformer
Transformer是一种用于自然语言处理任务的神经网络架构,最初被应用在机器翻译领域中。它主要基于自注意力机制来实现对输入序列进行编码和解码操作,从而得到最终的翻译结果。
与传统的循环神经网络(RNN)或卷积神经网络(CNN)相比,Transformer具有更好的并行性、更高效的计算速度以及更强的表达能力等优点。
具体来说,Transformer将每个单词表示为一个向量,然后通过多头自注意力机制将这些向量映射到不同的特征空间中,以便提取出它们之间的相关信息。接着,使用前馈神经网络(Feedforward Neural Network, FNN)对这些特征进行加权求和,最后再经过一层线性变换和softmax函数得到整个句子的概率分布。
这种方式可以有效地捕捉长距离依赖关系,并且能够同时考虑所有位置上的信息,因此对于一些需要全局理解的NLP任务表现出了很好的效果。
●BERT (Bidirectional Encoder Representations from Transformers)
这是 Google 发布的一种双向 Transformer 模型,通过预训练方式大大提升了各种自然语言处理任务的表现。
●GPT 系列
包括 GPT、GPT-2、GPT-3 等,这些大型语言模型利用了大量数据进行无监督预训练,具有很强的泛化能力,可用于多种自然语言处理任务。
3. 在我的印象中,最初的自然语言处理有很多子方向,例如自动问答,摘要生成等等。每一个子领域都有很多专精的研究者。但是现在似乎整个自然语言处理只剩下的大语言模型这一个方向,您对此怎么看?
确实如您所说,近年来大语言模型已经成为自然语言处理领域中的主流技术之一,许多重要的进展都是建立在这类模型之上。基于大模型,几乎所有NLP任务只需要经过微调或者指令就可以得到不错的效果。
然而我认为并不能完全否定其他子领域的价值和意义,因为各种类型的自然语言处理任务本身就有着各自独特的特点和挑战,而针对这些特殊需求开发出的方法也同样值得我们去关注和探索。
比如,直接用大模型做某些领域的信息抽取任务,也许不一定有用BERT(小模型)做检索增强来的效果好。而且大模型本身也有很多问题,比如幻象问题、可解释问题,这些问题也许用其他自然语言方法可以避免。大模型的算力消耗和数据消耗也产生严重的环境问题,而且也阻碍了其未来可持续性发展。
随着大模型算法不断发展和改进,新的技术和思想也会随之涌现出来,推动着各个子领域不断进步和创新。
除了幻象和缺乏可解释之外,当前大模型在企业应用实际落地过程中仍面临不少挑战,比如面对复杂问题时使用门槛较高、信息更新不及时、领域知识匮乏、无法与外部系统交互等等问题。这些问题催生了类似于Langchain的框架的发展,也期待着未来AI Agents的到来。
4. 我们知道现在的大语言模型,如 ChatGPT 相较于初代的 Transformer 而言,做了很多工程上的改进,例如 RLHF、Chain of thoughts 等等。您认为这其中哪一样是起到最大作用的。这一代代的大语言模型您认为是量变还是质变?
这是个非常有意思的问题。其实从历史角度来看,每次新版本的大语言模型发布后,往往都伴随着多种不同的改进措施,很难判断到底哪一种才是关键因素。我认为首先是预训练数据集的增大和质量提高;其次是模型的参数量大幅度提升。
至于RLHF,我认为是引导大语言模型的输出结果和人类的伦理规范对齐的一个技术措施,其中要读在于保证结果的可用性。而思维链则是引导大模型进行逐步推理或者计算得到最终结果的一个技术措施。这些都很重要,但是似乎也是理所当然可以想象出来的措施。
至于是否属于“质变”,这个问题有点难以界定。如果按照纯粹的科学标准来看,只有当某项发现或者发明真正颠覆了原有的理论体系时才能称得上“质变”,但实际情况却远没有这么简单。
毕竟任何一次迭代升级都不是孤立存在的,而是建立在已有基础之上的继续推进,所以应该把它视作是一个渐进式的过程。
5. 我们知道最近澜舟科技也是刚刚发布了自己的400亿参数孟子大语言模型,在各大榜单上取得了极佳的成绩和极大的影响力,您能给大家介绍一下澜舟的一些基本业务构成吗?
2021年成立以来,澜舟科技一直致力于预训练模型的研发与应用。我们在2022年底推出了基于孟子预训练模型的认知智能平台,包括AIGC、机器翻译、金融NLP等20多个产品服务。
我们坚定地专注于孟子大模型在垂直领域和专业赛道的应用,为企业客户量身定制解决方案,并始终秉承以客户价值为第一的原则,持续投入行业深耕。
澜舟科技推出了孟子大模型面向企业的“L1-L2-L3-L4”的产品体系。包括L1-孟子通用大模型、L2-孟子行业大模型、L3-场景服务模型和L4-AI Agents四个级别。每个级别的产品都具有不同的功能和优势。具体如下:
●L1-孟子通用大模型
提供阅读理解、通用写作、机器翻译、多轮对话等通用能力。
●L2-孟子行业大模型
基于行业或者垂直领域专业数据、联合行业客户和伙伴,打造出来的更加专业的行业大模型, 行业任务表现更优。
●L3-场景服务模型
完全面向企业客户的业务场景,聚焦业务效果,基于提示(prompt)工程或者微调(SFT)后实现更加定向的优化效果。
●L4-AI Agents
面向复杂场景,孟子大模型担当”大脑“角色,将复杂场景需求自主拆解为任务列表,自动执行,实现”所说即所得“。
“在企业的数智化道路上,通用大模型和行业大模型都非常重要,通用大模型像是底座,提供未来的可能性,行业大模型更重视业务应用。而我们在做的就是把行业伙伴的最后一公里做起来,结合业务场景,实现真正的价值落地。未来,我们也会继续努力,不断优化和完善我们的大模型,与行业伙伴紧密合作,共同推动人工智能技术在各个领域的应用和发展”。
嘉宾:周明
主持:Mia王璟晗
作者:Mia王璟晗