聊聊自动驾驶感知决策一体化的思考

徐工

大家好,我是大凡光学。今天和大家聊聊自动驾驶的框架构想。

自动驾驶是当前人工智能领域最受关注、最具挑战和影响力最为广泛的产业方向,是推动全球汽车工业变革最重要的科技力量。传统自动驾驶算法体系将自动驾驶分为感知、决策、规划与控制,通过分模块的方式完成自动驾驶任务。

与之相对的,人类的开车过程是根据场景信息直接输出控制信号,端到端自动驾驶就是基于这一思想,通过一个端到端网络,直接输出车辆的轨迹规划或控制信号。传统模块化方案的优势是低耦合,可解释性高,但往往会丢失最优性。

纯视觉方案具有信息丰富与低成本的优势,同时,以往端到端方案通常单纯使用控制信号进行监督。相比于传统方法,端到端自动驾驶最优性更佳,同时人为设计更少,因此对算法提出了更高的要求。

当然,除了自动驾驶车采集的数据,现实生活中还存在着海量普通车辆的驾驶数据,比如行车记录仪拍摄下的行驶片段。那么是否可以利用这些数据用来训练感知决策一体化模型呢?

答案是可以。

在通用视觉中已经有丰富的大数据自监督预训练方法,需要解决的就是在感知决策一体化模型中的迁移。与通用视觉不同的是,这部分数据包含着大量和驾驶决策不相关的信息(如下图,不需要关注所有背景物体、天气变化以及光照变化等)。对于驾驶任务而言,下一步往哪里行驶,信号灯是否允许通行,这些信息才是真正需要关注的。

那么如何让感知决策一体化算法能够自动过滤不相关信息并且关注驾驶相关信息呢?

在工业界,同样对端到端自动驾驶有了相应的方案。Openpilot是一套针对高速驾驶场景,面向L2辅助驾驶功能(ACCLKADMS等)的开源项目,已实现将端到端模型应用于量产落地。Openpilot采用一个简单的多任务学习模型,以前后两帧前视摄像头作为输入,直接输出预测轨迹,预测轨迹和雷达信号结合送入MPC控制器得到最终的控制信号。基于此,自动驾驶课题组复现了 Openpilot 模型,以多任务学习的形式同时预测了车道线、车辆状态等信息,取得非常不错的效果。有兴趣的朋友可以在继续查阅,相关资料已经开源。

好了,今天的话题就到这里。大凡光学作为机器视觉标定的供应商,希望同越来越多的朋友保持沟通交流,欢迎大家留言。