2023-07-12 10:54:58 互联网
——聚焦行业、深入场景的应用,才是大模型的未来
将研究报告的撰写时间,从两个星期缩短到5分钟。这不是给一两句提示词就自己生成通用报道的个人应用,而是保证准确度的行业应用,能撰写提纲、能按需修改、能补充数据和产业政策……
在拓尔思拓天大模型成果发布会的现场实景演示中,其大模型产品展现了以上“惊人”的能力,给行业用户带来了功能上的震撼。
与当下大量出现的通用大模型不同,拓尔思拓天大模型聚焦在媒体、金融和政务三个行业,同时深入到十个细分场景提供应用,能够解决通用大模型存在的质量、时效、可控、成本等问题,很好地满足行业客户对大模型的需求。
拓尔思总裁施水才介绍说,除了行业场景的落地,高质量的数据、自研+开源增强+商业大模型合作的基础能力,也是拓天行业大模型的核心竞争优势所在。
核心特点:不仅聚焦行业,而且深入场景
今年以来,全球和中国的大模型市场都非常火爆,国内已经和即将发布的大模型就达到近百个。ChatGPT的流行带火了大模型,但也把大家引上了toC的道路,这上百个大模型绝大多数都是类ChatGPT的通用大模型。
实际上,大模型未来的真正出路在toB。如今,很多大模型厂商已经认识到了这个问题,开始发力行业市场。其中绝大多数采用了“通用大模型+行业优化定制”进入路径,而拓尔思则直接从行业切入,打造媒体、金融和政务三个领域的行业大模型。
施水才表示,打造行业大模型,可以充分发挥拓尔思过去30年所积累的优势资源,“我们这些年做的事情,就是把技术落实到行业应用当中”。
他介绍说,之所以选择媒体、金融和政务,是因为这三个行业的非结构化文本数据占比高,能凸显语言大模型的优势;与此同时,拓尔思自1993年成立以来,也一直专注在这些行业,拥有很好的积淀。
值得注意的是,拓尔思的拓天行业大模型,不仅仅实现了行业聚焦,而且进一步深入到细分的场景化应用,包括媒体行业的内容生产智能助手、新一代搜索与推荐、多模态传播与服务,金融行业的投研、风控、审查、客服,政务行业的政策服务、新一代政民咨询、公文辅助写作等。
据悉,未来拓尔思还将面向更多行业、更多场景推出大模型服务。其中,网络舆情大模型、公安大模型、知识产权大模型、法律大模型、审计大模型,已经列入计划,将于年内推出。
先发优势:NLP技术、高质量数据、用户积累
众所周知,大模型是一个高投入、高成本的领域,尤其对数据和算力的要求很高。如果没有雄厚的资金或者深厚的技术支持,很难将其实现商业落地。但对于在行业应用领域有着丰富经验和积累的垂类技术型企业,这反而成为了其在大模型领域的竞争优势。
施水才介绍说,能够抢先跻身行业大模型赛道,是因为拓尔思拥有其他ICT厂商难以企及的先发优势,其中包括在NLP领域30年的技术积累、超过10年的高质量数据积累、一大批垂直行业头部客户积累等。
在NLP技术方面,拓尔思自成立以来,一直在引领国内全文检索和搜索型数据库、自然语言处理(NLP)技术的原始创新,并在舆情监测等应用场景中落地。赛迪顾问前不久发布的报告显示,在中国NLP市场竞争力分析中,拓尔思已经处于领导者象限。施水才也是我国该领域的专家。
在高质量数据方面,拓尔思拥有的数据量已经超过1500亿,日均采集的数据量过亿条。这些数据并非低质量的互联网公开数据,而是来源权威可靠的高质量数据,比如全国数字报刊数据、各级新闻网站数据、新闻客户端APP数据、团体机构社交媒体数据等。而且,这些数据都是实时更新的,能够保证大模型推理内容的时效性。
在用户积累方面,拓尔思的数智产品与服务已被国内外10000余家企业级用户广泛使用,并且在企业数字化转型、数字政府、网络内容安全、融媒体、金融科技和开源情报等领域实现了深度应用。拓天大模型,也集中在这些优势行业,并充分融入了拓尔思多年积累的行业知识,提升大模型的准确度和专业性。
在NLP技术、高质量数据、行业应用场景方面的深厚积累,使得拓尔思能够先行一步,在行业大模型市场中建立起领先优势。
基础能力:以自主研发和工程化交付为保障
虽然拓天大模型不提供我们常见的通用toC服务,而是聚焦在三大行业、十大场景,但其底层仍然需要强大的AI基础能力,包括内容生成、多轮对话、语义理解、跨模态交互、知识型搜索、逻辑推理、安全合规、数学计算、编程能力和插件扩展等能力。
施水才介绍说,拓尔思的大模型基础能力,以自主研发为主,同时积极拥抱开源,在客户需要时也可以与商业大模型进行合作。在中文特性增强的可控生成技术、融合搜索引擎的生成结果可信核查、融合稠密向量的跨模态能力加强、支持外界知识及时更新等四个方面,拓天大模型拥有领先的创新能力。
在自主研发之外,AI工程化能力,也是行业大模型从业者必备的能力,毕竟行业应用落地速度慢,是阻碍大模型迅速普及的一大瓶颈。
施水才说,与其他大模型公司不同,拓尔思一直在从事行业落地解决最后一公里的问题,具有很强的工程化交付能力。落实到行业大模型业务上,这样的工程化交付能力,体现在模型预训练、本地化部署、算力调优、业务系统融合等多个方面。
拓天大模型可以通过私有化部署,来解决企业客户最关心的数据安全可控问题;同时通过剪枝、量化、稀疏、蒸馏等优化方案,有效降低大模型对算力资源的要求,实现大模型的轻量化部署。
强大的工程化交付能力,也让拓尔思更了解大模型应该如何与企业的核心业务系统紧密融合。只有将大模型变成各业务板块的“副驾驶”,才能真正在生产流程中发挥降本增效的价值。
面向未来:沿着正确的道路继续向前
与市场上很多大模型公司只有PPT和DEMO不同,拓尔思此次发布的拓天行业大模型,已经落地应用。
施水才介绍说,拓尔思大模型的启动,始于今年2月9日启动的“209工程”。这一工程其实并不是从零开始的,而是把拓尔思多年的技术积累迁移到大模型上,形成新的商业模式。
如今,百度、阿里、华为都开始发力大模型的行业应用市场。施水才并不惧怕与巨头的竞争,行业know-how的积累、客户需求的认知,能够帮助拓尔思建立起自己独有的竞争优势。
与此同时,拓尔思也在积极构建行业大模型的生态合作体系,与模型伙伴、算力伙伴、应用伙伴、数据伙伴、投资伙伴等建立起紧密的合作关系,共同研发和推广行业大模型,甚至与客户共同拓展市场。
除了在行业大客户的项目式交付,SaaS化交付模式也在施水才的构想当中。他希望通过云服务的模式,将行业大模型的场景化应用,落地到更多的中小企业客户,实现AI的普惠化。
施水才认为,行业大模型的未来在于:场景集成化、AI应用原生化、部署工业化。沿着这种路径,拓尔思正在实现行业大模型应用的快速落地,推动如今火热的大模型市场朝着有应用、有场景、有商业模式的轨道健康发展。
面向未来,施水才表示,做大模型需要有理想、有信念、有情怀。作为一家上市公司,拓尔思既要背负当期业绩的压力,保证投资的回报,又要为长远的发展布局,但施水才仍然坚定地把行业大模型这一面向未来的事业做下去,因为他相信这是一条正确的道路。