首页 > 技术

拓数派大模型数据计算系统(πDataCS),全面升级大数据系统至大模型时代

2023-10-30 11:09:40      中华网   


  近日,「大模型数据计算系统」2023拓数派年度技术论坛在上海圆满落幕,海内外知名学者专家和企业家们齐聚一堂,拓数派创始人兼CEO冯雷(Ray Von)深度阐述了大模型时代数据计算的前沿理论和技术突破,大模型数据计算系统(PieDataComputingSystem,缩写:πDataCS)正式亮相。

图为:拓数派创始人兼CEO 冯雷(Ray Von)

  作为拓数派最重量级的技术盛会,拓数派创始人兼CEO冯雷(Ray Von)向与会嘉宾阐释了数据计算系统的创新理论“在大模型数据计算系统中,世界万物和其运动可数字化形成数据,数据可以用来训练初始模型,训练完的模型形成新的计算规则再加入到数据计算系统之中,这个过程持续迭代,无限探索AI智能。”他强调,“新的大模型浪潮催生出了云原生下的大模型数据计算新物种, OpenAI,OpenPie,Databricks和Snowflake等公司,持续赋能更大模型创建并训练成计算规则,这些大模型将主导更多的GDP经济活动。根据PwC分析,预计到2030年AI将贡献中国近26.2%的GDP。实现方面,大模型数据计算系统基于云原生技术重构数据存储和计算,重塑数仓、向量和机器学习等数据计算引擎,实现‘一份数据存储,多引擎数据计算’, 大模型数据计算系统将全面升级大数据系统至大模型时代。在大模型时代,AI 数学模型、数据和计算三者将前所未有的无缝互为增强,创造出可观的社会经济效益,成为推动社会高质量发展的新生产力。”

图为:拓数派大模型数据计算系统(PieDataComputing System 缩写:πDataCS)

  在拓数派大模型数据计算系统中,包括了数个行业顶级的硬核软件和硬件技术创新:

  为支持SQL语言模型建立的云原生数仓计算引擎PieCloudDB(πCloudDB),兼容HTAP

  为支持和大模型配合的向量计算而建立的云原生向量计算引擎PieCloudVector(πCloudVector)

  为支持Python和R的机器学习语言而建立的云原生机器学习引擎PieCloudML(πCloudML),兼容湖仓一体

  πDataCS的计算引擎共享一个数据存储底座——简墨,实现一份数据,多引擎计算。简墨的目标是成为来自于中国的基于Table Format的世界级存储标准

  为了弥补云上存算分离的性能损失,拓数派联合LTL实验室潜心研发了πFPGA新硬件技术,πFPGA亦是AI技术,可根据计算的需要,提前从云存储中准备好数据到本地缓存,从而实现云上存储向计算传输的性能高于本地硬盘。

  对于拓数派团队是如何通过简单的设计原则来驾驭这套复杂的系统,冯雷(Ray Von)做了进一步解析:“云平台代表了目前最大的计算能力、存储能力和水平扩展能力。为了支持当代的最大模型能力,拓数派选择从云原生开始架构大模型数据计算系统。由于云上环境的物理服务器通常不带有本地硬盘,而是通过块存储形成云盘和S3存储形成海量存储,作为云原生理念最早的提出者和实践者,拓数派首先选择把数据计算系统中的计算和数据分离,考虑到未来数据治理和交易,对数据中的元数据和用户数据实现再次分离。”在私有/公有云环境里,将元数据、用户数据和计算资源进行解耦,这是拓数派团队在云原生数据计算的本质性突破。与此同时,拓数派的数据计算系统深入考虑了全球数据交易和数据治理的要求,在隐私和安全的前提条件下,数据所有者可以把含数据目录的元数据对数据经营者公布,数据经营者通过元数据来访问所有者的用户数据,并根据需要,通过授权来有偿访问所有者的用户数据。数据经营者在访问所有者的数据的时候,需要调用数据加工者提供的数据计算引擎。

  在分享环节,冯雷(Ray Von)还着重介绍了大模型数据计算系统的产品矩阵以及战略规划,他表示:“大模型数据计算系统的首款数据计算引擎PieCloudDB虚拟数仓产品与服务日趋成熟,为企业提供全新基于云数仓数字化解决方案,助力企业建立以数据资产为核心的竞争壁垒,以云资源最优化配置实现无限数据计算可能;第二款向量计算引擎PieCloudVector,支持海量向量数据存储、向量数据高效查询、助力多模态大模型AI应用;(大模型)机器学习PieCloudML,全面兼容主流机器学习生态,整合企业所有多模态数据资源,提供多模态大模型下数据计算支撑;除此之外,最新的智能缓存新硬件技术πFPGA不仅在硬件库方面取得了关键技术突破,还完成了包括数据存储、虚拟数仓以及特定领域(如神经网络)在内的最佳实践,为AI大模型计算加速度;拓数派自研的简墨存储(JANM),打造多云场景下高性能计算引擎的数据存储底座,真正实现数据互通,一份数据,多引擎计算,为大模型数据计算系统云存储保驾护航。”目前大模型数据计算系统,面向国内市场提供公有云版、社区版、企业版及一体机多个版本,满足企业不同业务场景需求,并已为金融、制造、医疗及教育等行业用户构建了AI数据底座。

  就战略层面而言,冯雷(Ray Von)和其数据计算系统团队在基础数学模型的研究上,主张从侧重演绎的视角转向侧重计算的视角。从简单的计算规则出发,不断用数据计算来构建新的模型并训练成为计算规则,向更深入的数字智能推进。在这样一个愿景的驱动下,冯雷(Ray Von)在此次年度论坛上首次披露了大模型数据计算系统下OpenPie(拓数派)、1024Foundation和LeafTreeLabs“三位一体”规划布局,一方面将继续秉承「数据计算 只为新发现」的初心使命,带领团队在AI场景应用、基础模型和数据计算系统等方面进行深度探索。另外一方面将坚持AI向善,持续创著、教育和公益“数字化三部曲”理论,驱动企业实现从“软件公司”到“数据公司”再到“数学(模型)公司”的进阶,助力大模型时代新业态新模式的创新发展。

  “人才发展战略是我们追求大模型数据计算系统这个无限游戏的重要一环,以人为本、开放创新、拥抱变化、诚信正直是拓数派的核心价值观。”冯雷(Ray Von)表示,“以人才驱动创新发展,才能保持企业的生命力与竞争力,公司合伙人平台以哥廷根和毕达哥拉斯派命名,旨在继承上个世纪德国哥廷根大学为计算培养一代创始人才,大模型数据计算系统旗下三个姊妹机构希望培养在大模型时代的数据计算人才,不遗余力地为人才提供一个成为业内明星的平台和通道的同时,平行升级自己的组织,使其成为立身中国并跻身世界前沿的数据计算机构。”

  最后,冯雷(Ray Von)谈及了大模数据计算系统的人才发展战略及产品生态战略,未来,拓数派将围绕场景AI 、基础模型和数据计算系统自顶向下的三个层次,持续打造产品生态、社区生态及商业生态,构建共创共赢的生态体系,让大模型技术全面赋能行业AI场景应用,为企业及社会创造更大的价值。

  本次技术论坛上,Leaf Tree Labs创始人Andy Motten携新一代智能新硬件技术亮相,Andy表示,未来Leaf Tree Labs将与姊妹机构拓数派紧密合作,解决云原生环境下因为存算分离导致数据访问效率底下的硬伤,让基于云原生设计的大模型数据计算系统完全胜出基于PC构造的大数据技术,让模型大且快。拓数派哥廷根合伙人,简墨系统负责人杨峻峰分享了大模型数据计算系统自研简墨(JANM)存储。简墨目标是成为来自于中国的基于Table Format世界级存储标准,支持云环境一份数据,多引擎计算。拓数派哥廷根合伙人,向量数据库负责人邱培峰分享了向云原生量计算引擎PieCloudVector,支持和配合大模型的Embeddings,帮助基础模型在场景AI的快速适配和二次开发。

  这次大模型数据计算系统的宣布,更加深度诠释了拓数派的Day-1愿景“数据计算,只为新发现”。

相关阅读

    无相关信息