小鹏汽车董事长、CEO何小鹏表示,随着自动驾驶模拟训练的需求变化,需要一个强大的本地+云端的算力来支持。和阿里云在一起合作,能够更快更强去实现自动驾驶的研发。
数据驱动是自动驾驶发展的公认方向,也让自动驾驶模型训练成为一头“吃算力”的巨兽。自动驾驶的视觉检测、轨迹预测与行车规划等算法模型,有赖于机器学习海量数据集,但算力的不足让研发速度仍远远赶不上数据量增长的速度。随着传感器的进一步增加,算力的挑战越来越大。
近年来,专用于机器学习的AI智算成为发展最快的一种算力形式。包括谷歌、微软、meta、阿里巴巴在内的顶尖科技公司都纷纷建造了智算中心。
自动驾驶算法模型训练是机器学习的典型场景之一。在乌兰察布,小鹏汽车建造了一个算力规模达600PFLOPS的自动驾驶专用智算中心“扶摇”,来进一步提高模型训练的效率。
通过与阿里云合作,“扶摇”以更低成本实现了更强算力。首先,对GPU资源进行细粒度切分、调度,将GPU资源虚拟化利用率提高3倍,支持更多人同时在线开发,效率提升十倍以上。在通讯层面,端对端通信延迟降低80%至2微秒。整体计算效率上,实现了算力的线性扩展。存储吞吐比业界20GB/s的普遍水准提升了40倍。此外,阿里云机器学习平台PAI提供了模型训练部署、推理优化等AI工程化工具。
“扶摇“支持小鹏自动驾驶核心模型的训练时长从7天,缩短至1小时内,大幅提速近170倍。目前,“扶摇”正用于小鹏城市NGP智能导航辅助驾驶的算法模型训练。和高速道路相比,城市路段的交通状况更为复杂,自动驾驶特殊场景(corner case)的数据集规模增加了上百倍。