2024-01-28 17:02:17 中华网
打败你的不是对手,而是跨界!
TikTok也就是抖音团队发表了一篇论文《深度无所不能》,其训练出的全方位深度学习模型 ,只需单张照片帧即可进行LiDAR质量深度估计。换句话说,只需拍摄一张照片,学习模型便能精准获取照片中物体的三维位置,比LiDAR技术还要出色。
毫无疑问,抖音的深度学习模型打败了激光雷达。新的模型表明纯视觉方案是可行的,实现无人驾驶并不需要激光雷达。对特斯拉,以及国内的极越等纯视觉智驾车企来说,这无疑是巨大的利好。
自动驾驶在技术路径上,主要分为两派系。
多模态融合派主要是依靠激光雷达的回波反射,为车辆在行驶环境中提供静态和动态物体的识别数据,绝大多数自动驾驶公司均采用这一方案。“纯视觉派系”使用摄像头等被动探测设备,不发射任何探测信号,不依赖雷达回波感知外部世界。目前仅有特斯拉、极越两位玩家。其中特斯拉主要针对海外市场,极越主要针对国内。
两大派系的最大争议在于感知系统要不要使用激光雷达。
多模态融合派认为摄像头捕捉到的信息均为平面信息,无法获取物体的三维信息。激光雷达捕捉到的是点云信息,可以获取物体的三维信息。
纯视觉派系则认为只要具备完善的算法大模型,纯视觉方案也可以提供可靠的物体识别信息。目前纯视觉路径已经形成了BEV+Transformer为核心的技术体系。
需要特别强调的是,尽管多模态融合派系倡导激光雷达,但在感知算法中依旧采用了纯视觉派系的BEV+Transformer。激光雷达仅在部分极限场景时使用。从去年的发展来看,多模态融合派正在大幅砍掉激光雷达使用量,主流车型从此前的三颗激光雷达降低到现在的单科方案。
在国内的智驾车企中,仅有极越一家坚定走纯视觉路线。这主要是因为纯视觉方案有着更高的技术要求,非常考验车企的团队能力,以及算法能力和数据积累量。国内的新势力车企由于成立较早,并没有强大的算法团队,也就是专业的数学人才队伍。无人驾驶方面,新势力尚未实现,无法积累有效的可用数据。鲜少新势力直接上纯视觉。
另一方面,极越是由百度和吉利强强联合赋能。尤其是百度作为无人驾驶的全球顶级企业,在团队和算法以及数据积累方面,具备得天独厚的优势。
例如,在L4/L5级纯无人驾驶的数据积累和商业化运营中,截至2023年9月,百度Apollo L4自动驾驶安全运营测试里程累计已超7000万公里,百度萝卜快跑已经提供了累计400万次无人出租车服务。
由于百度已经实现了L4级自动驾驶,极越纯视觉方案可以轻车熟路,快速发展。这也使得极越并不需要在BEV+Transformer的算法架构中进行过多的停留,而是一步到位,直接引入OCC占用网络技术,形成完整高阶智驾体系,领先“BEV+Transformer”路线一代。
特别是OCC占用网络,作为“纯视觉”方案核心技术之一,OCC将空间划分为多个立体小方格,每个小方格被称为“体素”。当摄像头捕捉的图像连续不断的输入给OCC,OCC就会观察图像对应的空间,每个体素的状态是被占用还是自由。正如我们面前的电脑一样,我们可以用无数个小方格形成一个电脑,这样我们就不需要知道面前的到底是电脑还是木板,只需要知道它多大,能不能避开。
在极越CEO夏一平看来,占用网络上车的一个最主要初衷,就是替代激光雷达对目标的距离、位置关系等等感知能力。
根据极越发布的OCC演示视频,极越01对周围环境有着强大的感知能力,用3D体素清晰地展示了栏杆、绿植、路障等标准障碍物,同时还精准识别出了施工中的工程车、树木中的路灯等异形障碍物。
其中蓝色网格代表静态建筑物,如隔离带、施工围栏;橙色代表动态交通参与者,包括机动车、非机动车;还有紫色马路沿、绿色绿化带等。每一个网格约15厘米,感知质量非常高,识别也相当准确。
在算法优势的赋能下,极越01作为全球唯一一款依靠“纯视觉”感知算法,“全程0接管”跑通中国复杂城市道路的智能汽车,极越01在开启PPA状态下,可以在高速、高架中,完成自主变道超车、上下匝道、轻松避障等一系列智驾领航;在城市道路中,还能够实现精准识别斑马线、红绿灯,完成礼让行人、无保护左转、避让非机动车等能力。
值得一提的是,极越的高阶智驾并没由局限在高速和城市道路。极越01还能实现AVP代客泊车,支持最远距离为2公里,室内和室外停车场均可使用,且支持任意车位到停车场出入口的泊出泊入。在狭窄车位,用户还可以实现车外语音泊车。业界将这种融合行驶场景和泊车场景的智能驾驶称为“行泊”一体。
截至目前,极越高阶智驾的核心功能点到点领航辅助PPA已覆盖全国90%的高速高架,城市NOA已经北京、上海、杭州、深圳等四大主流城市实现落地,今年将覆盖全国200多个城市。
据夏一平透露,极越“纯视觉”方案端到端的训练以“周更”的速度快速迭代,并且随着交付量的快速攀升,还将让极越高阶智驾呈现指数级进化。
坦率的说,目前的高阶智驾方案绝大多数均是“纯视觉”方案的衍生。包括华为在内的融合感知派并没有摆脱对纯视觉“BEV+Transformer”架构的依赖,也没有硬件方面能去掉摄像头。反倒是引以为豪的激光雷达从四颗全向覆盖,砍到三颗,最后砍到单颗,象征性存在。也因此,在智驾行业中有一个十分有趣的说法,算法不灵,才上激光!