
如果你过去十年左右没有与世隔绝,你肯定在媒体上看到过不少知名人士及其粉丝就自动驾驶汽车(或通俗地称为“无人驾驶汽车”)的最佳传感器组合展开的争论。由于这项任务的目标是在不断进化的“湿件”(即“人脑”)中有效地复制人类第一代眼球及其相关处理硬件所实现的功能,因此人们很容易认为,一堆现代RGB摄像头和一个快速的计算机系统就能轻松完成同样的视觉任务。
现实情况却出乎意料。虽然RGB相机不像传统相机那样存在图像传感器反转和视神经穿过传感器层造成的盲区等进化缺陷,但事实证明,视网膜的预处理、视觉皮层的处理以及大脑其他部分的分析,在物体检测方面确实非常出色。这无疑得益于数百万年来,只有那些侥幸躲过捕食者捕食的个体才能大量繁衍后代。
因此,在汽车上安装激光雷达扫描仪之类的设备就显得非常合理。它不仅能提供周围环境的详细信息,而且不像RGB相机那样容易受到雨雾的影响。拥有更多更高质量的信息,似乎能让后续处理更加轻松高效。
计算机视觉相关事物

赋予机器视觉和识别物体的能力一直是几十年来人们的梦想,也是无数科幻作品的主题。而对于我们人类来说,这种能力是随着成长而逐渐形成的:从新生儿时期视觉皮层尚未发育完全,到成年后通常已经学会识别周围环境中的物体,包括哪些物体可以食用、哪些不能食用等细节。
事实证明,仅仅是挑战的第一部分就相当困难。要解读摄像机捕捉到的场景,需要运用多种算法,这些算法试图提取边缘、根据各种线索推断连接关系,以及判断物体与场景的距离和是否在移动。而这一切,仅仅是为了回答一个基本问题:场景中存在哪些物体,以及它们当前在做什么?
目标检测方法可分为传统方法和神经网络方法,其中卷积神经网络(CNN)方法目前最为普遍。这些CNN通常使用与实际遇到的目标相关的数据集进行训练,例如在交通环境中行驶时遇到的目标。Waymo和特斯拉等公司目前在自动驾驶汽车中就采用了这种方法,因此它们既需要访问大量的交通视频数据集进行训练,也需要大量员工观看这些视频以尽可能多地标记目标。标记和打包后的视频就成为了CNN的训练数据集。
这就引出了一个问题:这种方法究竟有多准确?如果仅使用RGB摄像头图像作为输入,答案似乎是“勉强算”。尽管根据SAE的0-5级自动驾驶评级系统,特斯拉的自动驾驶系统仅被评为2级,但安装了Autopilot系统的特斯拉车辆在多次事故中未能识别出危险,包括2016年撞到一辆白色卡车的侧面,2018年撞到高速公路和匝道之间的混凝土护栏,以及2019年闯红灯并追尾一辆消防车。
这种模式年复一年地持续发生,自动驾驶系统未能识别危险并启动刹车,即使在所谓的“完全自动驾驶”(FSD)模式下也是如此。2024年4月,一名摩托车骑手被一辆处于FSD模式的特斯拉撞倒,当时系统不仅没有停车,反而加速了。这是FSD模式下发生的第二起致命事故,该模式现在被称为“FSD监督模式”。
与碰撞风险低得多的 L4 级Waymo汽车(其车身上装有醒目的传感器组件)相比,人们可能会认为,仅仅几个 RGB 摄像头可能不足以进行可靠的物体检测,而传感器的融合很可能是一种更可靠的物体检测方法。
当然,这并不是说Waymo的汽车完美无缺。2024年,一辆Waymo汽车在低速靠边停车时撞到了一根电线杆。当时,汽车的固件错误地评估了车辆对“杆状物体”的反应,但实际上该物体与路面之间并没有明显的边界。
这就引出了自动驾驶汽车的第二个问题:面对新情况时做出正确的决定。
基于感知采取行动
一旦确定了场景中的物体,并将其与车辆的已知状态相结合,自动驾驶车辆的下一步就是决定如何处理这些信息。虽然很诱人的答案可能是使用“神经网络”,但事实证明这种方法不可行。早在2018年,Waymo就创建了一个名为ChauffeurNet的递归神经网络(RNN), 它使用真实驾驶数据和合成驾驶数据进行训练,使其能够有效地模仿人类驾驶员。
该实验的结论是,虽然深度学习在这里有一席之地,但你主要需要依靠一套坚实的规则体系,该体系能够提供明确的推理,从而更好地应对所谓的“长尾”情况,因为你不可能将每一种可能的情况都放在一个数据集中。
因此,这再次证明了人类的投入和智慧的重要性。虽然循环神经网络(RNN)或类似模型可以利用庞大的数据集进行训练,但它永远无法理解训练视频中某个决策背后的原因,也无法在面对新情况时进行自我推理并做出合理的调整。正因如此,人类专家必须根据当前环境和车辆状态等已知信息,制定明确的规则。
这时,掌握诸如与障碍物的明确距离、相对速度和尺寸,以及避免碰撞的绕行空间等详细信息就显得尤为重要。添加雷达和激光雷达等传感器可以提供可靠的数据,而RGB摄像头加CNN的组合在运气好的情况下或许也能提供,但未必完全足够。在高速公路上,当涉及到多人生命安全时,确定性永远是最重要的。
特斯拉硬件和隐蔽雷达
特斯拉自动驾驶系统的一个公开秘密是,它长期以来一直配备前置雷达传感器。从硬件 1 (HW1) 开始,除了车辆周围的 12 个超声波传感器外,它还在挡风玻璃顶部后面配备了一个前置摄像头,在下格栅后面配备了一个雷达。
值得注意的是,特斯拉最初并未将雷达作为主要目标检测工具,而是利用RGB摄像头实现目标检测和紧急制动功能。这种情况在RGB摄像头系统未能识别出明亮天空背景下的白色拖车,导致一起严重事故后发生了改变。随后的固件更新赋予了雷达系统与摄像头系统相同的功能,这很可能避免了那起事故的发生。
HW1 采用的是 Mobileye 的 EyeQ3 摄像头,但在 Mobileye 与特斯拉终止合作后,HW2 改用了英伟达的 Drive PX 2 摄像头。这使得摄像头数量增加到八个,能够提供车辆周围环境的环视影像,并配备了类似的前置雷达。经过中间版本的 HW2.5 之后,HW3 首次采用了定制处理器,该处理器配备了十二个主频为 2.6 GHz 的 Arm Cortex-A72 核心。
HW3最初也配备了雷达传感器,但在2021年,随着“特斯拉视觉”系统的推出,该传感器被取消,导致事故数量显著上升。2022年,特斯拉宣布还将移除用于短程物体探测的超声波传感器。
随后,2023年1月,HW4开始发货,其计算规格更加强大,摄像头也从之前的120万像素升级到了500万像素。此次升级还重新引入了前置雷达,据称是探测距离达300米的Arbe Phoenix雷达,但Model Y并未配备。这表明,仅依靠RGB摄像头进行感知仍然是特斯拉汽车的主要感知方式。
回答这个问题 现在可以非常肯定地说,仅使用RGB摄像头很难可靠地阻止车辆撞到物体,原因很简单:这会减少输入决策软件的可靠数据量。虽然目标检测卷积神经网络(CNN)可能给出前方有29%的概率存在物体,但雷达或激光雷达会告诉你路面上躺着一个看起来相当坚硬的大物体。而你的眼睛则会告诉你,那是一块从前方卡车上掉下来的大块混凝土。
那么,问题就主要集中在:特斯拉部分车型配备的前置雷达是否能与沃尔沃等其他汽车制造商使用的激光雷达以及Waymo的车顶式激光雷达相媲美。毕竟,两者的工作原理大致相同。
尽管如此,激光雷达在精度等方面更胜一筹,因为雷达使用更长的波长。同时,雷达系统受天气条件的影响较小,而且通常价格更低。对于 Waymo 而言,选择激光雷达而非雷达的原因在于其更高的细节表现力,因为激光雷达可以创建周围环境的精细 3D 图像,甚至能够识别行人的朝向和骑行者的手势信号。
因此,最简洁的答案是:激光雷达绝对是最佳选择,而雷达至少可以避免撞到半挂车和/或行人,也是一个相当不错的选择。当然,前提是你的固件已正确配置,能够对目标检测做出响应。

评论