首页 > 技术

瞄准前沿技术,百度开源持续创新

2023-06-21 14:42:41      中华网科技   


  在近日举行的 2023 全球开源技术峰会上,百度分享了多个精彩议题,充分展示了其在 AI、云原生、图数据库、物联网等前沿技术领域布局和进展。

  在主论坛的演讲中,百度集团副总裁侯震宇表示,大语言模型推动了人工智能在全产业的高速发展。“我们相信 AI 能赋能产业、改变产业。”早在 2010 年,百度就开始全面布局人工智能,是全球为数不多、进行全栈布局的人工智能公司,因此也积累了较为雄厚的技术基础。

  侯震宇透露:“从一开始,我们就希望能够建立一个以云计算为基础支撑整个数字产业的升级,以人工智能为引擎在关键场景为企业赋能的平台。”于是,百度智能云被寄予厚望,不断朝着“云智一体”的目标迈进。如今,百度智能云正在为企业和开发者提供全球领先的人工智能、大数据和云计算服务,加速产业智能化转型升级。

  而在百度智能云背后,正是百度在人工智能、云计算、大数据、物联网等领域沉淀的先进技术在提供支撑。恰逢 2023 全球开源技术峰会,飞桨、Apollo、超级链、HugeGraph、Baetyl、Teaclave 等开源项目以演讲、展览等形式亮相,令人得以一览百度开源技术丰富度和多样性。

  飞桨:产业级深度学习开源开放平台

  据侯震宇介绍,AI 技术栈可分为“芯片层、框架层、模型层、应用层”四层。百度在技术栈的各层都有领先业界的关键自研技术,从昆仑芯片、飞桨深度学习平台、文心大模型到应用,实现了层与层反馈,端到端优化,大幅提升效率。

  其中,在框架层,百度开源了首个自主研发的产业级深度学习平台飞桨,包括核心框架、产业级模型库、开发套件、工具组件,以及学习和实训社区,能够标准化、自动化地支撑模型生产和应用。也正是飞桨深度学习平台,为新一代大语言模型文心一言提供着坚实的技术支撑,实现了灵活开发、高效训练和推理部署,让文心大模型从 2019 年发布以来,从最初的自然语言理解大模型,发展成了跨语言、跨模态、跨任务、跨行业的大模型平台。

  飞桨得到了广大开发者和企业的青睐,中国信通院发布的《深度学习平台报告(2022)》显示,飞桨在国内的应用规模排名第一。

  百度飞桨框架产品负责人、开放原子开源基金会 TOC 委员张军带来了关于“产业级深度学习开源开放平台飞桨及其开源社区”的主题演讲。张军介绍,作为一个源于产业实践的深度学习平台,飞桨有着开发便捷的深度学习框架;算法总数超过600个的产业级模型库;丰富的端到端开发套件和工具组件。具有产业级、低门槛的特点,全面支持 AI 科研和真实产业应用。

  在百度内部,基于飞桨的计算集群每月支持 20 万个训练任务;基于飞桨的在线推理每天服务近六十亿次请求;飞桨支持搜索、推荐、自动驾驶、地图、小度等众多公司业务。在百度之外,飞桨助力产业的智能化升级,覆盖 20+ 行业,服务 20 万企业,创建 67 万模型。

  而这一个应用广泛的产业级深度学习平台正是由来自不同组织、地区的众多开发者共同构建的。据介绍,飞桨的开发者主要由三部分构成:BAIDU contributors,专职的研发部门(深度学习技术平台部),及非专职的其他部门的工程师;Corporate contributors,NVIDIA、INTEL、昆仑芯、寒武纪,等多家硬件公司的专职工程师;Individual contributors,来自高校的学生及来自企业的工程师在业余时间的贡献。

  张军还分享了飞桨开源社区建设的一些思考,如遵循国际化思考、本地化行动的原则;与全球的上下游开源项目积极的生态合作,坚持开发者社区比开发本身更重要;而在具体行动上则因地制宜,采用特色的组织模式和运营活动,加速中国产业智能化升级。

  Apache HugeGraph:千亿级大规模图数据库 + 图计算系统

  Apache HugeGraph 是国内首个开源的图数据库,由百度自主研发,提供了一站式的千亿级大规模图数据的存储、在线查询、离线分析平台。2016 年,百度启动 HugeGraph 项目,并在 2018 年对外开源,2022 年 5 月 13 日正式捐赠 Apache 软件基金会开启孵化。2023 年初,HugeGraph 发布了正式的 Apache 第一个孵化后的 1.0 版本。

  CVTE 研究院图数据库负责人张世鸣是 HugeGraph 社区的 PMC,此次他围绕“Apache HugeGraph 分布式存储与计算开源演进之路”发表主题演讲。

  据张世鸣介绍,HugeGraph 是 Apache 软件基金会唯一一个图数据库及图计算系统,具有稳定、易用、可扩展等特点,具备出色的 OLTP、OLAP 能力,可以轻松地将数百亿甚至千亿个顶点和边存储到 HugeGraph 中并从中进行查询。它实现了 Apache TinkerPop 3 框架,支持 Gremlin及 Cpyher 两种图查询语言,并能轻松的与 MySQL、RocksDB 等多种大数据组件进行快速对接。

  HugeGraph 1.0 版本的架构整体上可以分成3层,存储层、计算层和应用层。

  存储层负责图数据存储,包括顶点、边和属性等、系统数据存储和 Schema 存储。存储层是通过插件化的方式实现的,这也是 HugeGraph 的亮点之一,用户可以根据自己的需求去选择后端存储,目前已经支持 RocksDB、HBase 和 MySQL 等。

  计算层为了适配底层不同的存储结构,增加了后端适配层,用于屏蔽底层数据库的差异,适配层往上的 Graph Engine 是 HugeGraph 的核心,负责图查询语句的解析,序列化等等,最上层支持了基于 Restful 和 Gremlin 的 OLTP 查询,同时在 OLAP 方面也支持了环路检测、最短路径、PersonalRank 等16种图算法,并且实现了异步的执行方式,对于执行时间比较久的算法或者 Gremlin 语句可以通过异步的方式去提交和执行。

  在应用层,HugeGraph 提供了丰富的工具给用户使用,包括可视化、Loader、备份、客户端等等。方便用户来构建和使用图数据。

  在 1.0 架构下,HugeGraph目前支持的分布式架构主要有两种,一种是基于 RocksDB 的 Replication 模式,另一种是基于第三方的分布式存储,比如 HBase、Cassandra 等等。

  但这两种架构的弊端都比较明显。RocksDB 的 Replicate 模式虽然也是基于 raft 对数据集进行复制,能保证数据的一致性,但是每个节点都保留了全量的数据,并没有增加可存储的数据量,只是有了高可用的支持,而且 server 的执行逻辑基本也是串行的。HBaseBackendStore 的模式,过于依赖 HBase 的存储,HBase 的调优原本就是一件比较复杂的工程,很容易成为瓶颈,特别是内存的调优,HBase 的集群管理挑战也非常大,依赖的组件非常多,HDFS,zk 等等,而且在需要进行条件过滤/或者聚合的场景下,需要拉取数据在 Server 端进行,下推到存储端的成本非常高。所以更好的方案是我们在 Rocksdb Replicate Mode 的基础上支持 shard mode,单 raft group 改造成 multi raftgroup,这样的话为了能有更好地扩展性。

  张世鸣透露,基于上述这些问题,HugeGraph 今年计划朝着全新的 2.0 版本继续演进,推动内部版本与开源版的融合。2.0 版本重大变化覆盖 4 大方面:架构方面,包括分布式架构,支持图数据分区+数据副本,计算存储分离框架,便于计算及存储灵活伸缩;集群管理方面,采用高可用设计,支持容灾及故障恢复,基于分区支持副本的数据重分,更多监控指标;查询方面,包括算子下沉、gremlin 并行化、细粒度的内存管理;使用(接口优化+功能增强)方面,包括接口增加统计信息(遍历的顶点、边和耗时)、支持动态创建图、unique 索引可以查询等。

  未来,HugeGraph 2.0 将基于分布式版本持续做更多的优化,保证集群稳定性;持续优化图查询,实现内存管控的完整体系;实现更多的图分析算法支持,尤其是提供图产品化的解决方案,大幅降低使用门槛……

  Baetyl:为设备侧边缘计算提供云原生的编排调度能力

  Baetyl 是中国首个发布的开源边缘计算框架。本次峰会,百度智能云物联网主任架构师黄诚通过开源项目 Baetyl 就百度在智能边缘领域的布局与思考展开分享。

  据介绍,百度于 2019 年将 Baetyl 捐赠给了 LF Edge 基金会,是该基金会成立以来最早加入的项目。Baetyl 支持 x86、ARM、MIPS、CPU 等网络芯片,以及各类 GPU 和神经网络芯片,能够为设备侧边缘计算提供云原生的编排调度能力,将云计算的应用无缝扩展到边缘,使云和边缘的数据实现自由交换。

  当前,Baetyl 适配多种架构及各大主流操作系统,可在如寒武纪盒子、华为 Atlas、树莓派、比特大陆、EdgeBoard 等各种硬件设备上运行,安装 Baetyl 后就可以快速变为智能的边缘计算设备。

  Baetyl 的核心能力主要表现为四个方面:

  云边协同:边缘计算节点需要纳入云计算中心的管理,定期上报自己的状态并同步云端信息

  调度管理:云端管理套件提供节点和应用关联的管理,节点上的边缘计算程序负责调度到合理的地方运行

  边缘自治:在边缘节点和云端断网的情况下,边缘节点能正常运行,并在网络恢复后能快速恢复

  设备管理:提供边缘软网关能力,支持设备通过各类协议接入,提供设备信息上行及云端数据同步的功能

  整体架构方面,Baetyl 包含设备接入、数据处理、数据上报、流式计算、函数计算、AI 推断等功能,天然支持云原生,能够将云计算能力延伸至用户现场,提供可以临时离线、低延时的计算服务。

  这得益于其采用云端管理、边缘运行的方案。Baetyl 分为云端管理套件(Baetyl cloud)和边缘计算框架两部分。Baetyl cloud 运行在云端,目标是收集所有在 Kubernetes 上的配置,支持在云端配置边缘计算集群,管理所有资源,如:节点、应用、配置等。

  在标准情况下,Baetyl cloud 会收集并打包来自 Kubernetes 控制面的信息,再由安全网络提供到本地的设备上,而 Baetyl 和云端管理套件之间会使用端到端的强制性的双向认证,进一步保证了安全问题。

  边缘计算框架运行在边缘节点的 Kubernetes 集群中。在默认情况下,Baetyl 提供的是轻量版的K3S集群,如果有需要,也可以扩展成本地的 Kubernetes 集群。上面运行的 Baetyl 本地程序不断地接收来自 Baetyl cloud 的配置,并不断地将这些配置应用到本地的 Kubernetes,由此完成边和云之间的同步。

  随着 “云+AI”在更多行业、更大范围内持续推进,Baetyl 也在更多行业和场景实现了落地。Baetyl 已经和百度智能云天工物联网平台、百度 Al 等团队打通,面向各行业客户提供端到端的解决方案,目前在电力巡检、AI 质检等领域得到了验证。

  Apollo:全球最活跃的自动驾驶开放平台

  在 2023 全球开源技术峰会峰会现场,“Apollo开放平台”开设了展位,为与会者展示和讲解Apollo自动驾驶技术的最新进展。百度 2013 年开始布局自动驾驶,2017 年推出全球首个自动驾驶开放平台 Apollo。目前百度 Apollo 已经在自动驾驶、智能汽车、智能交通三大领域拥有业内领先的解决方案。

  “Apollo 开放平台”是一个开放的、完整的、安全的平台,旨在帮助汽车行业及自动驾驶领域的合作伙伴结合车辆和硬件系统,快速搭建一套属于自己的自动驾驶系统,目前已经升级迭代到第 12 个版本:Apollo 开放平台 8.0。

  Apollo 开放平台 8.0 分别从“新架构”“新能力”两个重要层面进行了全面升级,从开发者的实际需求出发进行改良,帮助开发者更好、更快地熟悉和使用百度 Apollo 开放平台—— 在平台架构层面上,从面向技术分层的架构,升级为结合技术与生态分层的架构,为开发者提供易用的软件核心和云服务工具及易扩展的硬件设备与软件场景应用;在平台能力构建上,通过软件包管理机制、感知全流程升级及全新 PnC 工具链,全面提升开发者使用效率。与此同时,全新上线的自动驾驶一站式学习实践社区——Apollo Studio,也成为开发者们一站式学习实践和共同交流成长的绝佳窗口。

  作为全球最大自动驾驶开放平台,Apollo 开放平台的开源代码量已超过 75 万行,并且汇聚了来自全球 165 个国家的 10 万多名开发者,拥有全球超 220 家生态合作伙伴,几乎囊括全球主流汽车制造商、一级零部件供应商、芯片公司、传感器公司、交通集成商、出行企业等,覆盖从硬件到软件的完整产业链。Apollo 开放平台 8.0 的推出,再次让 Apollo 开放平台在工程易用性上向前迈进一大步,降低操作难度、操作成本的门槛,让更多开发者可以简单方便地上手 Apollo 开放平台、投身自动驾驶技术领域。

  目前 Apollo 已获得中国测试牌照总计 1000 多张,自动驾驶专利族超 4600 项,其中高级别自动驾驶专利族数全球第一,测试里程总计超过 5000 万公里。Apollo 开放平台始终秉“承开放能力、共享资源、加速创新、持续共赢”的核心理念,不断带来创新和升级。未来,Apollo 也期待与更多开发者及合作伙伴一起,不断拓展能力边界、探索自动驾驶技术和产业的更多可能性,造福人类发展。

  小结

  在数字经济时代,越来越多的企业开始参与开源项目,甚至主导开源项目。尤其是在人工智能、区块链、物联网、云计算、大数据等新兴技术领域,开源更是成为了技术创新、产业协作、生态开放的重要方式。

  一直以来,百度积极拥抱开源,致力于开源技术生态的建设,通过开源项目的推广和贡献,吸引全球开发者参与,共同推动技术的发展。截至 2022 年底,百度已经开源了超过 1000 个项目,社区贡献者超过 20000 人,技术涵盖了机器学习、自动驾驶、区块链、数据存储、边缘计算、大前端、安全等多个领域。尤其是飞桨( PaddlePaddle)、Apollo、超级链(XuprChain)等开源项目已经成为业内领先的技术平台,吸引了越来越多的开发者参与其中。这些开源项目的成功实践不仅促进了百度自身技术的提升,也为全球开源社区做出了积极的贡献。

  管中窥豹,可见一斑。从开源的角度看百度的技术布局,可以令人感受到,百度一直在前沿技术领域持续创新。尤其是在 AI 大模型席卷全球的今天,百度愈加主动出击。

  百度的使命是“用科技让复杂的世界更简单”。最后,引用侯震宇在峰会上的讲话:“我们相信,随着这一轮激动人心的技术浪潮,生成式 AI 技术浪潮,百度其实已经准备好了,我们愿意拿自己积累的技术,和整个平台、整个产业里的合作伙伴一起把整个中国的人工智能产业推上更高的高峰,也让我们的 AI 的能力真的能够助力我们行业伙伴,让客户能够从中收益。”

相关阅读

    无相关信息