2023-04-25 13:29:54 金融界(百家号)
自2017年国务院印发《新一代人工智能发展规划》后,人工智能已上升为国家发展战略,成为推进经济发展的新动力。随着以ChatGPT对话机器人为代表的人工智能应用的崛起,人工智能预训练大模型(以下简称“大模型”)在全球学术界、工业界以及投资界掀起了讨论热潮,已经成为人工智能领域的技术新高地。
近日,联邦学习隐私计算开源平台FATE (Federated AI Technology Enabler)正式发布联邦大模型FATE-LLM功能模块。通过将联邦学习和大模型结合,FATE-LLM在各参与方的敏感数据不出本地域的前提下,根据各方实际数据量进行算力投入,联合进行大模型训练。基于此技术方案,多个机构可以通过FATE内置的预训练模型进行横向联邦,利用各自隐私数据进行联邦大模型微调,从而提升自身大模型应用的效果。
大模型应用面临的隐私安全与数据不足难题
作为大数据、大算力强算法结合的产物,大模型是具有数十亿甚至上百亿参数的深度神经网络模型,堪称凝聚了大数据内在精华的“知识库”。模型在大规模数据集上完成了预训练后仅需要少量数据的微调、甚至无需调整,就能直接支撑各行业的各类应用。目前,大模型在语音识别、自然语言处理、图像识别等领域有着广泛的应用,被认为是人工智能走向通用化的关键技术。
然而,基于海量数据训练的大模型面临众多安全与伦理风险,如构建和使用大模型过程中的隐私泄露、安全漏洞、市场垄断、不公平性等。大模型可能包含大量个人敏感信息,包括图像、语音、地理位置等,如果这些信息在训练或应用过程中被泄露,会对用户造成严重的隐私损失和安全风险。
针对这些问题,FATE-LLM联邦大模型将联邦学习这种安全的分布式机器学习范式与当下主流的大模型技术融合。基于联邦学习自身“数据不动模型动,数据可用不可见”的特性,联邦学习与大模型的结合能够进一步解决数据安全、隐私保护等问题。
FATE开源社区技术指导委员会主席杨强教授表示:“开源FATE-LLM是为了解决当前大模型应用的两个瓶颈问题。首先是构建和使用大模型时的数据隐私保护问题。多个数据源联合训练一个大模型时极有可能会暴露每个数据源的用户隐私和影响信息安全,再一次凸显了隐私保护的必要性和紧迫性。”
“其次,联邦学习可以应用于解决可用数据数量不足的问题,为业界提供了一个前瞻性的解决方案。来自阿伯丁大学、麻省理工大学、图宾根大学的计算机科学家在论文《我们会用完数据吗?机器学习中数据集缩放的局限性分析》中预测,ChatGPT等大语言模型训练所需的高质量语言数据将在2026年之前耗尽。目前大多数高质量数据来源于公域数据,也就是说当公域数据消耗殆尽时,如何保护数据隐私的前提下,合法合规地利用手机等终端设备上的私域数据,将是解决大模型训练数据不足问题的关键。”
“此次发布的FATE-LLM,是利用联邦学习技术来解决以上问题的初步成果,也是FATE社区合作伙伴的共识。当前阶段主要解决的是大模型训练阶段的隐私保护问题,未来还将研究在使用大模型的过程中如何保护用户的隐私。例如,基于大模型的对话机器人与亿万用户的互动聊天时,如何保护用户的隐私安全问题。”
开源开放,大模型发展的必经之路
近期发布的FATE-LLM为联邦大模型初步版本,未来FATE开源社区还将针对联邦大模型的算法、效率、安全等方面进行持续优化,并持续推出后续版本,提升联邦大模型的安全性、易用性和通用性。
在技术创新层面,联邦大模型将有机会充分利用分散在各个组织的算力和数据,融合联邦学习和AIGC相关技术,实现异构数据分布式安全训练。这将为自然语言处理,语音识别,机器视觉等AI领域带来全新的技术范式。
在行业应用方面,联邦大模型未来将有机会重塑金融、零售、工业等多行业的数字化形态。相关应用场景包括在金融领域的智能客服、内容风控、金融资讯情感分析、文本意图识别、营销场景智能创意生成和优化等。即使机构自身拥有的数据量和算力可能不足,仍能发挥联邦大模型的优势,安全合规地提升客服、营销、风控的效果。