首页 > 技术

阿里云通义智能语音技术助力听力熊打造领先的AI智能终端——用大模型陪伴青少年学习成长|看见新力量NO.139

2024-11-15 14:02:25      西盟科技资讯   


  在层出不穷的AI硬件爆发的当下,智能教育硬件市场也迎来新的机遇,经历了一系列从功能创新、内容更新到用户需求挖掘的变革。

  随着市场加速“内卷”,大而全的学习机、复读机类产品越来越多,市场规模增速趋缓的同时,更多细分场景也在被逐渐发掘。从传统的复读机,到AI时代的“听力机”,有这样一家企业,探索出了一种新的品类,定义了一种新的需求,在青少年智能终端赛道,取得了“第一”的地位。 作为智能听力机品类的开创者与领导品牌,听力熊拥有丰富的产品线,包括智能听力机、阅读本和单词宝等。

  其中,新一代听力机“听力熊”T6,搭载了听力熊自研的TeeniGPT——这是全球首款面向青少年的通用大模型应用,该模型具备语音交互、语音生成和语义理解等功能,为青少年用户带来更有趣的智能体验。

  仅两年时间,听力熊已经成为了听力机品类头部企业,打造出一个以AI技术为核心,线上线下全渠道覆盖的新科技品牌。 目前,听力熊的用户累计已超100万,且听力熊的AI大模型应用日均请求达100万次,日均tokens消耗达10亿,在青少年群体中广受喜爱。

  在听力熊业务快速增长的过程中,阿里云为听力熊提供了高性价比的算力与云服务解决方案,助其降低了运营成本,并基于通义实验室智能语音交互产品和生成式语音大模型CosyVoice的能力,提供低延迟的语音互动、个性化声音的复刻以及生成丰富海量的有声书,让学生的熏听更加有趣有料,这些技术提升了听力熊的智能化水平和青少年用户体验,加速了其产品化进程,推动了面向青少年的专属大模型迭代。

  本期「看见新力量」栏目与听力熊创始人兼CEO夏崇彦进行对话,一起探讨关于AI硬件在青少年教育上的创新和洞见。

1731645084609803.png

  01:挖掘教育硬件细分场景,开创“听力机”智能化新物种

  2021年,听力熊创立之初,团队将其目标定位为面向未来的、青少年专属的便携式AI终端,并以AI能力和创新的交互体验作为切入点,推出了AI听力机产品。2022年,听力熊坚持为青少年提供正版的优质内容,与新东方、喜马拉雅等内容平台展开合作,让更多好内容在产品中落地。2023年8月,听力熊推出青少年通用大模型应用“TeeniGPT”。在其助力下,听力熊T6率先实现了中、英文双语不同场景下的深度应用。

  谈及对目标用户的洞察,夏崇彦讲述创业过程中的一段摸索。2015-2017年,团队将多模态AI交互技术在全年龄段全场景进行了测试。用户数据结果显示,青少年群体对于新技术以及新交互体验的包容性远远高于成年人:出于对效率的要求,成年人对尚不完善的AI技术的包容度很低,但对于青少年群体,一个足够有趣的交互体验就能打动他们,他们也对AI技术有着更大的好奇心。看到这个机遇的夏崇彦,立即展开了产品化的探索。

  夏崇彦认为,对于成长于技术爆发时期的“AI原生一代”,一款青少年专属的大模型终端是不可或缺的。青少年群体如何利用其碎片化时间成为了夏崇彦团队的关注点,他们从便携性、安全健康的封闭生态需求出发,为听力熊的首款产品找到了最适宜的出发点——复读机,并利用AI技术和创新产品体验将其升级为“智能听力机”。听力机巧妙规避了传统电子屏幕“伤眼”的弊端,操作简单、易于携带,青少年用户的反馈良好加上专业化的内容体系,很快也取得了家长们的信任。

  作为一款教育硬件产品,听力机搭载的内容质量,是决定产品体验的重中之重。夏崇彦指出,传统复读机市场无法做到持续的破圈和高速增长,很大一部分原因是盗版内容的泛滥。团队深知这无法撑起一个品牌长期发展的基础,于是在创业初期,就十分重视与优质内容供给方的合作。除了喜马拉雅、口袋故事等内容平台,团队也将橄榄枝伸向了广大出版机构——不仅让广大用户接触到了高质量的纸质出版物,传统出版机构也可以以听力熊为渠道,扩大内容的流量与覆盖面,形成了双赢的局面。

1731645090654258.png

  在智能化方面,公司高度重视对AI的应用,基于和阿里云长期以来的合作基础和信任,在对比了多家模型的效果后,听力熊选择了通义团队研发的技术产品,从语音识别、语音合成、LLM模型到语音翻译,并将这些底层技术融入了产品的方方面面,持续改善用户体验,使产品使用更加流畅,也积累了大量的实践成果。

  得益于对用户的使用理解和场景挖掘,听力熊在市场上取得了积极的用户反馈。在暑假期间,听力机上线了一项AI角色互动功能,虽然没有进行大范围推广,但在青少年用户们自发的探索下,仍然实现了30%的首日打开率。在那一个月,听力机的调用量激增40倍,日均调用量达10亿tokens。截至目前,听力熊的用户规模已经超过一百万,青少年日均使用时长超3小时,远超市面上的同类产品。

  02:牵手通义智能语音,加速商业化与产品化进程

  过去几年,由于电商领域的激烈竞争与流量格局的变化,也给听力熊销售的稳定性带来了挑战,“双减”政策的出台,更增添了外部环境的压力。在复杂的市场环境下,听力熊的商业化进程依然在行业中“一马当先”。在这方面,夏崇彦也分享了团队的经验:“我觉得一个创业公司,我们需要追求商业化和技术的平衡成长。因为在我过去的创业过程中,往往单纯追求技术领先。很多产品和功能其实不一定能获得市场的认可,商业化是一个必须要面对的现实的问题。”

  夏崇彦提出,团队在研发产品的初期,就聚焦于技术如何改善产品体验,如何与用户的需求场景相结合,这也是公司在商业化过程中考虑的重点。

  AI大模型及云产品的技术能力与效率,关乎着听力熊绝大多数的产品体验。早期,听力熊通过购买英伟达A100算力卡,部署并微调开源模型的形式,实现对成本和效果的兼顾,但随着用户增长高频使用带来的成本增加,使得运营难以持续。在公司产品接入阿里云后,阿里云为听力熊提供了更高性价比的解决方案,特别是今年,阿里云多项云产品和AI产品及算力等成本大幅下降,使得团队的产品化进程及效率进一步加快。

  此外,阿里云在云服务和AI领域具备强大的性能与丰富的经验,听力熊的核心产品背后,包括在线音频、云存储与CDN等,均在阿里云进行部署和运营;而在模型能力方面,通义的语音语义识别、分析理解以及合成语音等场景下,均表现了出色的性能,实现了高水平的准确度、拟人化与流畅度。

  相较于传统小模型的语音合成,通义CosyVoice大模型语音合成能够根据它对上下文的理解,洞悉文本中隐含的情绪以及角色身份等信息,从而给出更有表现力和自然韵律的表达。在CosyVoice中,语义和韵律部分使用大模型进行建模,并且在海量的多门语言、多样情感数据上进行训练,形成生成式语音大模型的基座,使得CosyVoice具备很强的迁移能力,即使原声仅有1-3句话,也能复刻这个音色,这个易用好玩的功能在听力熊上一经上线,就受到了青少年用户的热情试用。

1731645096840983.png

  “阿里云是一家能够给我们安全感的云服务厂家,不管是技术实力,还是产品稳定性,还有服务响应的及时性,都能很好的满足公司经营与发展的需求”,夏崇彦如此评价。在AI模型面向青少年群体的解决方案调优过程中,为了符合这一人群的认知能力和表达习惯,同时实现对不良内容的过滤,听力熊与通义技术团队展开了深度的交流和合作,共同开发适宜于青少年的大模型,在这个过程中,阿里云和通义团队为我们提供了非常好的解决方案与快速的响应能力。

  03:陪伴“一代人”成长,做好“一代人”的大模型终端

  目前,听力熊已在北京、深圳等城市设立公司业务,未来公司也会计划在杭州设立大模型应用研发中心,围绕AI大模型的应用场景进行智能终端的研发,不断提升用户的产品体验与Agent的效能。

  已经拥有百万用户的听力熊并不满足于当前的成就,而是将目光放在了更远的未来,基于AI技术不断地进步,致力于从学习到生活,从认知到自我实现,全方位地服务于青少年成长过程中的各类需求。

  听力熊创始人兼CEO夏崇彦认为,在可以看得见的未来,AI终端的服务交付形式将发生变化,从“人找服务&设备”到“服务&设备找人”的转变,从“理解用户需求”到“提前解决用户需求”,通过 AI + 终端应用的创新模式,实现从基于用户指令的传统应用到基于用户潜在意图主动服务的根本性转变,彻底重塑跨端体验。未来AI产品的服务会深入到用户的需求和体验,企业也需要为用户持续提供更个性化的服务,才可以更长久地获得用户的信任。

  基于AI终端对青少年群体学习成长陪伴的长期主义理念,听力熊致力于打造一代人的AI大模型终端设备,陪伴一代人的成长。通过提供长期的陪伴和个性化服务,从教育学习场景逐步扩展到更多元的领域,实现品牌与用户的共同成长。

  超级应用的背后,离不开强大的技术支持,AI时代对基础设施的性能、效率提出了更高的要求。2024云栖大会现场展示了阿里云全系列产品家族面向AI的升级:最新上线的磐久AI服务器,并提供AI算法预测GPU故障,准确率达92%;为AI设计的高性能网络架构HPN7.0,可稳定连接超过10万个GPU ,模型端到端训练性能提升10%以上;人工智能平台PAI,已实现万卡级别的训练推理一体化弹性调度,AI算力有效利用率超90%。在模型层,通义实验室也持续饱和式投入,几乎保持以月为周期迭代基础模型。云栖大会现场阿里云宣布通义旗舰模型Qwen-Max全方位升级,性能接近GPT-4o,同时还发布了开源模型Qwen2.5系列,成为仅次于美国Llama的世界级模型群。

  同时,据IDC发布《中国人工智能公有云服务市场份额2023:大模型重塑云服务》报告中,阿里云智能语音公有云服务市场份额35.6%,排名第一。这是继2019年后,阿里语音AI市场份额连续五年保持首位。

  “作为青少年用户学习交互的入口,未来很期待能够与阿里云、通义实验室更深入的合作,将AI技术与更广泛的场景结合起来,更好地满足青少年成长过程中的需求”,夏崇彦表示。

  据测算,到2025年,我国的教育智能硬件市场规模将超过1000亿元人民币,广阔的市场必将带动学习机企业进行不断地创新和迭代。同时伴随着大模型推理及多模态能力的持续提升、端侧AI的突破及算力成本的下降,将推动AI+智能终端空间进一步打开。听力熊将会伴随青少年在学习和成长的道路上,探索智能化的无限可能。

相关阅读