首页 > 技术

4 年融资 1 亿美金,ProtonBase 背后的技术雄心 |专访小质科技 CEO 王绍翾

2025-06-11 10:00:57      中华网   


  当一位操盘过 Facebook 在线 Infra,阿里搜索数据和机器学习平台,阿里云实时计算平台,以及达摩院机器智能工程的技术领军人,带着 1 亿美金融资与团队杀入市场,数据库行业的游戏规则注定要被颠覆。

  2025 AICon 大会·上海站,小质科技 CEO 王绍翾在接受某知名媒体的采访中首度介绍:团队历时 4 年打造的 ProtonBase 堪称“六边形战士”。它既是一个支持行列混合存储的分布式数据库和实时数仓,实现了真正的实时 HTAP;同时也支持半结构化数据检索、文本检索和 OLAP 分析,让数据可视化能力得到了质的提升。更为关键的是,它通过实时增量物化视图技术取代了 Flink,重新定义了流批一体的计算范式;支持向量检索,构建了 AI Agent 所需的完整数据底座;更打通了湖上数据的高效导入导出和外表查询实现了湖仓一体。

  这款产品不仅可以让金融量化交易决策和风控系统实现“亚秒级决策”,又能在车联网数百万级高并发信号写入的场景下,实现实时数据检测的秒级分析。其技术突破的底层逻辑,源于对“未来应用只需一个 Data API 和一个 AI API”的精准预判,而 ProtonBase 已率先拿下“多模数据库+AI 数据查询入口”的生态船票。

  这场从硅谷到阿里再到打造 ProtonBase 的技术革命,究竟隐藏着哪些颠覆行业的密码?本文将深度解构其技术架构、场景落地与未来趋势,揭开小质科技的进化逻辑。

  Q1:首先感谢王老师来参加 AICon 大会上海站,请您做一下自我介绍。

  王绍翾:大家好,我是王绍翾,在美国博士毕业后,加⼊了 Facebook 做在线 Infra,参与的项目包括 Memcache,RocksDB,以及 Facebook 自研的在线图数据库 TAO 等项目。

  2015 年,我回国加入阿里,主要有两段工作经历,第一段在搜索事业部,负责搜索的数据和机器学习平台;第二段在达摩院,负责整个机器智能工程,包括视觉/语音/NLP 等 AI 技术的模型训练、推理、以及向量检索技术。

  2021 年,我离开阿里创建了小质科技,和团队一起打造了核心产品 ProtonBase。因为之前的技术积累和团队的口碑,我们得到诸多头部基⾦的认可,顺利融资近 1 亿美金。目前,公司已经成立 4 年,服务了数十家客户,产品历经反复打磨和验证,正处于商业化的全球扩张期。

  Q2:⼩质科技的核心产品 ProtonBase,是多云原生、兼容 PostgreSQL 的分布式 Data Warebase。想请您分享⼀下,公司打造这款产品的初衷是什么?是基于怎样的⾏业背景和痛点洞察,才决定研发这样⼀款产品来解决行业问题的?

  王绍翾:我们创业之初就预见到未来的所有应用服务都将主要建立在两个 API 之上,一个是 Data API,一个是 AI API。

  过去,Data API 的实现极为复杂,用户若想搭建一个应用的底层,往往需要使用非常多数据系统。例如,数据库横向扩展可能采用 MongoDB 或 HBase,文本检索使用 Elasticsearch,还可能需要向量检索,分析型数据库等。如此一来,用户最终必然会面对 A、B、C、D、E 等诸多数据产品,硬件开销以及运维和开发成本急剧上升。

  ProtonBase 产品研发之初是想让业务的架构回归简单(Simple),解决架构不得不从 A 到 B,从 B 到 C,从 C 到 D 不断膨胀的问题。随着产品面世之后,在与市场不断磨合的过程中,我们发现 ProtonBase 最强的 PMF(产品与市场的匹配度)在于满足那些对实时决策(Instant Decision)有需求的业务,例如金融量化交易和风控、车联网、以及数据可观测性等场景,这些场景的数据既需要具备极高的端到端的实时性,同时也要支持在这些实时数据之上的高并发复杂查询—— 而这正是 ProtonBase 的优势所在。

  Q3:在 ProtonBase 的研发过程中遇到的最⼤技术挑战是什么?团队是如何突破这些难题,确保产品顺利推进的?

  王绍翾:挑战非常多,因为要把 ProtonBase 打造成一个强大、统一的 Data API 平台,必须具备五大核心能力:OLTP、文档数据库、文本检索、向量检索,以及 OLAP。

  许多客户会问我们:“你们是如何将这些本质上差异巨大的能力整合到一个系统中的?”其实,我们整个团队经历了数据库,大数据,再到数据库的时代,积累了大量的工程经验。我们今天的产品其实就是集成了数据库和大数据的最重要的三个能力,第一是存储,第二是索引,第三是在高速存储上做到数据库级别的存算分离。

  ·存储层:ProtonBase 支持数据的行存、列存以及行列混存;

  ·索引层:ProtonBase 实现了数据库最重要的全局二级索引(Global Secondary Index),以及搜索所需要的倒排索引、向量索引、分析所需要的列存索引等等;

  ·存算分离:实现数据库级别的存算分离的挑战非常大。大数据的存算分离是基于公有云上高可用的对象存储,而数据库系统不能选用对象存储,因为它需要更高的吞吐和更低的延迟。要做好一个实时或者近实时的数据库级别的存算分离,难度和挑战很大,但我们实现了。

  Q4:企业在选择一款数据库产品时要考虑的因素很多,ProtonBase 最优势的场景是什么,在哪些技术场景下,企业适合考虑使⽤ ProtonBase?

  王绍翾:ProtonBase 在数据 Data API 上,几乎实现了中间层的所有功能,但我们并不希望客户将 ProtonBase 仅用于单一模式,更希望把它视为多模数据库,发挥出 1+1>2 的化学效果。目前我们至少在三个方向上看到了这种因为多模的能力带来的 1+1>2 的场景。

  一是真正的 HTAP 场景。如果一个数据系统仅将 Transaction Data 存放在 OLTP 数据库,再将数据同步到 OLAP 数据库去做报表业务,那并非真正的 HTAP。真正的 HTAP 首先要实现写入即可见(OLTP 和 OLAP 的查询),其次要支持较为复杂的偏分析类查询,且查询吞吐较高,我们将这种场景称为真正的 HTAP,例如金融量化交易。

  二是可观测性和实时数仓场景。我们发现一个有意思的事情,数仓并不等同于 OLAP,越来越多的场景在数仓上提出了对数据库能力的需求。例如,用户在做 OLAP 分析后发现了一些规律,就想去查看明细数据,按某些主键 PK 进行全部数据召回,甚至有时不仅需要对 PK 进行过滤召回,还需对非 PK 的主键进行过滤召回。此时,就需要 OLTP 数据库的全局二级索引的能力——而这是所有 OLAP 引擎所不具备的。

  第三是 AI Agent 场景。因为 AI Agent 背后需要对接 MCP(Model Context Protocol ),假设一家公司有多个服务和数据系统,当把数据存在 3~5 个数据系统之上,就会有 3~5 个 MCP,大模型想去对接 MCP 做一些决策的时候就非常复杂。用一个数据库,一个 MCP 服务,可以大幅降低 LLM 的负担和推理复杂度。所以 Agent 天然期望用一个多模数据库来⽀持业务。

  所以,真正的 HTAP、可观测性+实时数仓、以及 AI Agent 这三个大场景,非常适合使用 ProtonBase 这种多模数据库。在这些场景下,企业可以借助 ProtonBase 多模融合、实时响应、高并发查询的能力,获得远超传统架构所带来的业务回报。

  Q5:从 2021 年成立至今,小质科技的客户已经涵盖金融、电商、⻋联网与物联网、制造、游戏、广告、快消、教育等行业。能否简单介绍下这些行业是怎么使用 ProtonBase 的,并从中挑选一两个最具代表性的客户案例,详细分享一下合作过程、解决的问题以及最终取得的成效?

  王绍翾:经过 4 年发展,公司已服务几十个客户,我们始终聚焦于最能发挥 ProtonBase 产品特性的场景去打磨与落地。我们有两个核心 PMF:

  第一类 PMF:秒级 Freshness + 高吞吐 Instant Decision(也就是我上面提到的真正的 HTAP)。具体应用包括:

  ·金融场景:金融行情的量化分析和交易、金融的反作弊;

  ·广告/推荐系统:广告/推荐决策算法复杂且吞吐高,全链路越实时越有效;

  ·车联网与 IOT:车机数据每秒更新,需即时进行规则匹配和安全分析。

  第二类 PMF:Simplicity,有些应用期望数据库天然具备 Hybrid 的能力。例如 AI Agent 场景中,系统希望直接对接一个统一的数据接口 MCP,所以 All-in-One 的多模数据库是非常适合于 AI Agent 的,另外在可观测性的场景下也越来越需要数据库要具有 Hybrid 的能力。

  下面我们挑选两个最具代表性的落地案例,分别来自金融和车联网行业,帮助大家具体理解 ProtonBase 的实际价值:

  【案例一】金融客户:支撑秒级实时决策的 AI 交易系统

  这家客户来自金融证券行业,需求非常典型:整个交易行情数据需要非常实时的写入数据库系统,写入即可见,然后有大量的交易者或者分析师甚至 AI,对这些实时的数据做复杂的分析,然后做交易决策,所有过程都需要在几秒内甚至亚秒级完成(AI Trading)。同时,这个客户内部有很多数据需要做可观测透出,他们最早使用的是 TSDB 这一类时序数据库,但是 TSDB 不支持 update ,客户转而使用 Elasticsearch / ClickHouse 这些 OLAP 系统,但是这些系统不能很好地支持复杂查询,在冷热分离和弹性方面也有诸多诟病。最终这家金融客户选用了 ProtonBase。

  【案例二】车联网客户:支撑数百万辆车并发的实时异常检测系统

  该客户是头部车企,该车企每辆车每秒上传更新很多车机信号,需要系统快速应用各种规则分析数据,检测是否存在软件更新故障或其他突发问题。检测出问题后,需要立即按照某些特定列值召回某辆车或某批车的某些数值,这就天然形成了一个对 OLTP 和 OLAP 要求极高的场景。最终这家公司也是选用了 ProtonBase。

  Q6:ProtonBase 作为⼀款基于 Data Warebase 理念的产品,既是⼀个数据库,也是⼀个数仓,还⽀持数据实时加⼯计算和数据湖上的查询加速计算。那么它和 HTAP、流批⼀体、以及湖仓⼀体架构的关联和区别是什么?

  王绍翾:很多人都会问到类似的问题。简单来说,ProtonBase 用创新性的架构和实现,解决了数据库和大数据领域诟病已久的诸多问题,能力覆盖了 HTAP、流批一体、湖仓一体等若干多模场景。客户对数据产品的需求往往只需要使用 ProtonBase 这一款产品就够了。

  Data Warebase 与 HTAP 的区别

  首先 HTAP 不是一个数据库的概念,因为 SQL 天然就是一种既能支持 OLTP,也能支持 OLAP 的语言,但当数据量变大、系统负载变复杂时,很多系统不得不在两者间做取舍。这也是传统数据库和数仓系统割裂的根源。所以 HTAP 要求的是一个系统能同时在 OLTP 和 OLAP 这两个场景下都拥有很好的写入和查询的性能。ProtonBase 作为一个 Data Warebase,既是 Database 也是 Data Warehouse,所以天然就能满足 HTAP 这个场景。

  但是光有 HTAP 是不够的,未来是一个多模数据库的时代,首先要有很好的 OLTP 和 OLAP 的能力和性能,其次要支持实时增量物化视图做数据的 Instant Transform、文本搜索、向量搜索、文档数据存储和查询,甚至还要支持对湖上数据的查询,因此我们提出了 Data Warebase 的概念,它是 Database+Data Warehouse 的合集,是未来多模数据库的一个新范式。

  Data Warebase 与流批一体的区别

  流批一体这个概念其实最早就是我们提出的。2015 年我加入淘宝的时候负责商品搜索的数据加工,当时很多商品的属性和指标是非实时的,我们引入 Flink 解决了数据实时性的问题,还用 Flink 的 Batch 能力解决了批计算问题,在那个场景下将实时增量计算和批计算做到了计算引擎和 SQL 的统一,初步实现了流批一体化。

  但这并不是最优的架构,因为 Flink 的运维和成本比较高,我们认为物化视图是解决流批一体的最佳方案,用户可以根据对每个物化视图的 freshness 需要来决定它们的刷新频率。这样就完美地实现了实时、近实时、以及 T+1 离线计算的 SQL 与引擎的统一,且运维和开发的易用性极好。

  可惜的是,当前大部分的数据库或数据仓库提供的物化视图都不支持增量刷新,导致实时刷新物化视图的成本很高。ProtonBase 投入大量精力实现了物化视图的增量刷新,成功打造了一款性价比极致的流批一体计算引擎。

  Data Warebase 与湖仓一体的区别

  按照我的理解,湖仓一体只需要满足两个条件:第一是要打通数据仓库和数据湖两套体系,让数据和计算在湖与仓之间自由流动;第二是数据仓库能够对接标准的湖存储,做外表的查询、计算和写入。ProtonBase 支持 Iceberg,Delta Lake,以及 Hive (ORC/Parquet)等主流湖存储的互联互通和外表查询,这意味着 Data Warebase 同时也是支持湖仓一体的数据引擎。

  Q7:随着 AI 技术的⻜速发展,数据与 AI 的融合越来越紧密,这将为企业数据管理和应用带来全新的变革。在 AI 时代,您还洞察到企业对数据库和大数据的需求有哪些变动?

  王绍翾:我分享两个观察,一是在数据库领域,PostgreSQL 会变成非常主流的数据库。首先全球几乎所有的新兴数据库都是基于 PostgreSQL API 的。包括被 Databricks 收购的 Neon、被 Snowflake 收购的 Crunchy Data、刚融资的 Supabase、以及最近爆火的 DuckDB、还有 CockroachDB、Yugabyte 等新型分布式数据库公司,无一例外的都选择了 PostgreSQL 作为查询 API。所有的 AI 公司也几乎无一例外都选用了 PostgreSQL,如 OpenAI、Cursor、Notion、Perplexity、Anthropic 等。

  大家选择 PostgreSQL 的原因很简单, PostgreSQL 非常标准且拥有强大的 Extension,一套 API 几乎定义了 Data API 所需要的所有能力:OLTP、OLAP、 JSON、GIS、全文检索、向量检索。这正是 AI 时代应用和 Agent 所需要的终极 All-In-One 数据库解决方案。ProtonBase 从创立之初就预见到这个趋势,并基于 PostgreSQL API 构建,提前布局 AI 时代的标准接口。OpenAI o1 发布之后 AI 的 reasoning 变得非常强大,加上 Anthropic 提出 MCP 的规范后,使得 language to SQL 成为可能。在 ProtonBase 上使用 PG 标准的 MCP 再配合强大的 AI 模型就可以直接实现很丰富的 language to SQL 的应用场景。

  二是在大数据领域,未来数据湖的标准是 Iceberg。我们看到世界上两个最大的数据巨头 ,一个是 Snowflake,主推的是 Iceberg ,另一个是 Databricks,以前主推 Delta Lake ,后来收购了 Apache Iceberg 背后的公司 Tabular。所以我们可以预见到未来企业的数据湖基本都会围绕着 Iceberg 构建,ProtonBase 也很好地对接了 Iceberg 数据湖,完善了湖仓一体的能力。

  Q8:创业 4 年,您对其他 AI 和数据的同行或者创业者有哪些建议分享?

  王绍翾:一路走来还是学到很多,边做边学。有几个感触最深的点:

  第一点就是需要想清楚作为创业公司自己的产品 PMF 是什么?客户是谁?如何卖给客户?在这个过程中你的产品能力一定要在这个领域最好是第一,最差也要在前三。ToB 是 Value Selling(价值销售)和 Solution Selling(解决方案销售),对一家创业公司而言,想清楚自己产品的 PMF 和打造好产品的竞争力至关重要。

  其次,前期要专注于服务大客户。因为大客户的挑战和场景非常多且复杂,他们往往代表了其所在行业最大的挑战,如果能解决好大客户的问题,也会极大提升你在此行业中的影响力和公信力。

  最后就是 ToB 业务绕不开的话题:全球化和出海。这是一个必选项,中国有大量卓越的软件工程师能够做出世界一流的产品,我们需要把这些产品和能力输出,在全球做生意,把利润带回来, “Made in China,Sold Global” 是我们这代人的使命。

相关阅读

    无相关信息