首页 > 快讯

Token时代，墨芯赋能国家算力基础设施，加速产业化落地

2026-05-29 10:59:18

　　Token重构算力竞争，AI推理爆发拐点来了

　　整个AI芯片圈都有一个共识：如今的 AI 赛道，早已不再是只靠堆模型、拼参数就能突围的时代。

　　Token，这个过去只停留在技术文档里的专业名词，现在已经彻底变成数字经济的基础计量单位，甚至成了算力价值定价的核心标尺。不管是人机对话、AI绘画生成，还是各行各业的智能决策，底层全靠Token来完成语义计算与逻辑推演。

　　2026年国内三大运营商，集体上线了Token专属算力套餐和按Token计费的新模式。这意味着算力服务正式告别传统流量经营，迈入Token经济时代。

　　从此以后，再单纯比拼峰值算力、简单堆叠硬件，已经很难拉开真实竞争力。行业选人、选方案、建智算中心，客户更看重三个指标：算力真实利用率、每Token能耗成本、全生命周期TCO。算力效率，正在成为接下来几年AI产业最大的确定性命题。

　　就在AI推理爆发、政策与市场共振的节点上，AI芯片行业迎来了一笔备受关注的融资事件——墨芯人工智能完成近十亿元C轮融资。

　　本轮阵容堪称行业缩影：汇聚了深创投、岩山科技、大湾区共同家园、力鼎资本、蕴盛资本等重磅产业资本及市场化机构，凯旋创投、创享投资、盛景嘉成等多家老股东共同参与。这一“产业巨头+国资背书+财务资本”的多元股东齐聚，背后到底释放了什么信号?

图片1.png

　　在业内看来，这早已不是一家企业的融资故事，而是资本对稀疏计算这条技术路线的集体投票。当算力竞争从“拼规模”转向“拼效率”，资本用真金白银告诉市场：稀疏计算正从技术验证期加速迈入规模化产业爆发的新阶段。

　　推理成本深陷困境，业界期待算力升级的差异化技术路线

　　据中国信通院《大模型推理优化关键技术及应用实践研究报告(2026年)》统计，国内大模型推理需求正在呈井喷式爆发。短短两年，全网日均Token调用量暴涨超1400倍，2026年初直接突破140万亿量级。

　　随着Agent智能体、长上下文对话、多模态应用、行业大模型全面普及，推理侧的计算需求更是呈现万级增长。一个不争的事实是：从行业算力结构变迁来看，推理业务已超越模型训练，跃升为当前算力消耗的核心主力场景。

　　但繁荣背后，行业藏着一个绕不开的难题：传统GPU稠密计算架构，已经越来越跟不上产业现实，甚至陷入三重结构性困境。

　　第一，大模型迭代太快，算力基建跟不上。现在大模型快速往MoE架构、百万级长上下文、原生多模态方向演进，对芯片架构、编译器、集群调度要求越来越高。第二，行业场景千差万别，模型很难兼顾体验与成本。如果只能靠“堆冗余硬件”，最后结果就是：算力成本居高不下。第三，业内都清楚，很多万卡集群看着规模庞大，真实推理负载下硬件利用率往往不足40%，大量计算单元无效运算、冗余传输比比皆是。更关键的是，大型算力集群耗电量堪比一座小城，既不符合双碳政策对PUE、能耗的硬性约束，也让运营方背负沉重的电费和运维压力。

　　问题来了：当推理成了算力主力，成本、能耗、利用率三座大山压在行业头上，行业必须从底层架构寻找新解法。

　　稀疏计算异军突起，行业为什么开始集体看好这条新赛道?

　　在稠密计算严重内卷、推理成本居高不下的当下，稀疏计算为什么被业内关注。

　　核心原因：它不是在传统架构上做修补，而是从底层重构AI计算逻辑。

　　传统稠密计算，不管任务简单还是复杂，所有计算单元全员满负荷运转，相当于小订单也要全厂开工，资源浪费自然无法避免。尤其在大模型参数越来越大、Token调用量暴涨的背景下，正是算力成本和能耗降不下来的根本原因。

　　也正是在这样的行业大背景下，墨芯坚持走稀疏计算原生架构路线，公司核心产品：全新一代计算卡SparsePrime®将于今年内正式推出。这是一款面向智算中心和数据中心的高性能AI通用推理计算卡，基于自研的Antoum2.0芯片架构，专为大模型与复杂推理场景优化设计。

　　更让人期待的是，该产品采用自顶向下的整体设计理念，广泛适用主流Transformer模型，强化通用适配性，配备完善的工具链，实现客户零接受成本、快速获得稀疏加速。开发者现有的基于PyTorch、TensorFlow的模型代码，以及高效的vLLM等推理框架，能够近乎零代码修改地完成迁移并直接部署运行，同时支持开发者使用Triton语言进行自定义算子开发，最大程度降低使用门槛。

　　对行业来说，这不是一款产品的迭代，而是稀疏计算商业化落地再往前迈了关键一步。SparsePrime®将基于多个算力中心千卡集群部署中积累的真实负载数据，在稀疏计算效率上实现新的突破，进一步夯实墨芯在AI推理算力领域的差异化竞争力，初步实现精度无损，算力翻倍的技术路径可能。

　　从芯片到集群再到行业场景，行业正在迎来全栈竞争时代

　　如今的AI芯片赛道，业内有个共识：未来的竞争，一定是全栈能力的竞争。

　　本轮近十亿元C轮融资落地后，墨芯的资金投向清晰聚焦两大主线：一方面推进 SparsePrime® 全新计算卡的量产迭代与市场化落地，另一方面持续扩容全国算力集群网络。这也恰好走出了当前头部企业典型的发展路径：底层技术深耕、产业生态布局、行业场景落地三位一体协同推进。

　　在区域布局上，墨芯已在西北、西南、华东、华北四大片区实现战略性铺开。西北片区部署千卡级推理集群，支撑传统产业智能化转型，在电子制造、消费品生产等场景落地多个工厂安防项目，于边缘侧实现高效实时AI分析;西南片区充分结合当地充沛绿电资源，构建低功耗绿色算力池;华东片区部署面向生信分析、医疗健康等高端服务业的算力集群，可大幅加速基因测序数据分析流程，已与行业头部企业合作，为高通量测序、蛋白质结构预测等计算密集型任务提供高性能AI算力支持;华北片区则赋能城市治理与社区智能化升级，落地人脸识别、姿态识别等视觉多模态应用，实现异常行为的实时智能监测与预警。

　　这一覆盖全国的算力网络，同样可服务于互联网CSP厂商的基础大模型训练与推理需求。

　　与此同时，墨芯已牵手头部电信运营商，将稀疏计算推理方案纳入运营商算力服务体系;同时落地商旅智慧管理场景，并携手车企探索车路协同新模式。可以看到，稀疏计算正从底层算力基建，逐步向千行百业的应用端深度渗透。

　　产学研深度绑定，硬科技拼长期壁垒

　　做AI芯片、做底层算力，从来拼的是技术沉淀、人才储备和长期壁垒。在国际上，墨芯围绕推理加速、长上下文服务和稀疏化训练等关键技术，与卡内基梅隆大学相关研究团队开展合作。

　　在国内，墨芯与复旦大学可信具身智能研究院就“半结构化稀疏”方向展开横向课题合作，旨在通过智能化的稀疏模式搜索，大幅提高模型稀疏率并提升硬件友好性;与清华大学CCNI Lab和SparseMind在稀疏计算前沿课题方向上推进合作，并与杭州电子科技大学已成立稀疏计算联合实验室，探索“云-边-端”协同的创新推理算力解决方案。

　　三重产业价值凸显，算力行业格局正在被重新定义

　　站在产业宏观层面，稀疏计算路线的推进，正在释放三重行业价值，墨芯也为整个行业提供了可参考的发展样本。

　　精准承接国家战略，为绿色算力提供可复制样板。算力节点布局贴合东数西算整体规划，低功耗架构匹配双碳PUE和能耗管控要求。

　　跳出同质化桎梏，给国产AI芯片开辟差异化赛道。行业扎堆稠密计算GPU路线，拼制程、拼参数。而稀疏计算走出了一条以能效、成本、真实落地为核心的新路径。

　　完善全链条生态。墨芯已从单点项目验证进入“全国多区域千卡集群部署”阶段，基于自研稀疏计算技术构建的推理集群，正成为多个重点区域智算中心的核心算力底座，进一步实现精度无损、算力升级的差异化技术路线。

　　展望接下来几年，行业分工一定会越来越清晰：稠密计算仍会主导超大规模预训练;而稀疏计算将凭借能效和成本优势，在大模型推理、多模态、产业智能化、边缘算力等海量成为更优选择。

　　算力效率革命已至，谁能抓住下一轮产业红利?

　　AI 3.0浪潮叠加Token经济时代，一场围绕算力效率的产业变革，已经不可逆地到来。这不仅是技术路线的选择，更关乎整个数字经济的能耗结构、运营效率和可持续发展能力。推理成本高、能耗约束紧、资源利用率低，是全行业共性痛点，也倒逼市场必须拥抱底层架构创新。

　　墨芯的稀疏计算代表的新路径，正在为国家绿色算力基建提供高效低碳的新解法。

分享到微博分享到微信

Token时代，墨芯赋能国家算力基础设施，加速产业化落地

相关阅读

新动态

关注度

最话题