训练数据是决定深层神经网络性能的基本因素之一。(另外两个是网络结构和优化算法)一般来说,训练数据越多,性能越好。这就是为什么我相信特斯拉,而不是韦莫,拥有世界上最有前途的自主汽车项目。
可视化特斯拉车辆
由于50万辆车在路上配备了特斯拉宣称的全自动驾驶硬件,特斯拉的日行驶里程为1500万英里,与Waymo的里程相当。以每天1500万英里计算,它每年可以行驶54亿英里,是Waymo预测的200倍。特斯拉的车队正在以每周5000辆的速度增长。
有三个关键领域的数据会产生影响:。
- 计算机视觉
- 预测
- 路径规划/驾驶策略。
计算机视觉
一个重要的计算机视觉任务是目标检测。有些东西,如马很少出现在路上。每当特斯拉遇到神经网络认为可能是马的东西,或者可能只是一个无法识别的障碍物时,摄像机就会拍下一张快照,待停车后通过 WIFI 上传反馈给 Tesla。特斯拉的车队每年在地球上各个角落行驶数十亿英里,这也意味着特斯拉可以轻而易举获得许多稀有物体的例子。随着时间的推移,特斯拉在识别稀有物体方面的能力将比威莫汽车强,这是有道理的。
对于常见的对象,Waymo和Tesla的瓶颈很可能是花钱让人们手动标记图像。很容易捕捉到的图像比你付钱给别人贴标签要多。对于稀有物体,Waymo的瓶颈可能是能否收集对应的图像,而对于特斯拉来说,瓶颈可能是收集到图片之后,对图片的标记和开发软件,以便在正确的时间触发快照。这是一个更好的位置。
特斯拉的人工智能主管安德烈·卡普西(Andrej Karpathy)在这段视频中解释了特斯拉是如何利用图像来训练目标检测的:。
预测。
预测是指提前几秒预测汽车、行人和骑自行车者的运动和动作的能力。多年来一直是waymo顶级工程师之一的Anthony levandowski最近写道:“没有人实现‘完全自主’的原因今天的软件不足以预测未来。”levandowski声称,自主车辆的主要故障类别是对附近车辆和行人行为的预测失误。
特斯拉的50万辆车队是这里的一大资源。每当特斯拉对汽车和行人做出错误预测时,特斯拉可以保存数据的快照,以便日后上传到特斯拉的训练集中。特斯拉可能能够上传由计算机视觉神经网络生成的场景的抽象表示(其中对象被可视化为彩色编码的长方体形状,像素级信息被丢弃),而不是上传视频。这减少了上传这些数据的带宽和存储需求。
然而,用于训练目标检测的图像需要人的标记,而预测神经网络只能从事件的时间序列中学习过去与未来的相关性。
人类不需要标记这些数据。特斯拉在收集到的许多有用数据上训练神经网络。这意味着训练数据集的大小将与其总里程数相关。至于目标检测,与waymo相比,它的优势不仅在于能够预测更常见的行为,还在于能够在罕见的情况下收集罕见行为的数据以预测这些行为。
路径规划/驾驶政策。
道路规划和驾驶政策是指车辆采取的行动:限速时保持在车道中心,改变车道,通过慢车,绿灯亮时左转,在停放的车辆周围慢跑,为过马路的人停车等。很难规定一套规则来涵盖车辆的所有行动在任何情况下都可能需要。解决这一问题的方法之一是让神经网络模仿人类的行为。这称为模仿学习(有时称为学徒学习,从示范中学习)。
训练过程类似于神经网络如何通过绘制过去和未来的相关性来学习预测其他道路使用者的行为。在模拟学习中,神经网络可以通过绘制驾驶员所看到的(通过计算机视觉神经网络)与他们所采取的行动之间的相关性来预测驾驶员的行为。
特斯拉自动驾驶演示的静止画面
模仿学习最近被认为是迄今为止最大的成功:alphastar。Deepmind使用了数百万玩星际争霸游戏的人的数据库中的例子来训练一个神经网络,使其像人一样玩。网络学习博弈状态与人的博弈行为之间的关系,从而学习预测人在呈现博弈状态时会做什么。仅仅通过这次训练,alphastar已经达到了deepmind估计的能力水平,这使它处于星际争霸的竞争排名中间。(后来,AlphaStar通过强化学习得到增强,这使得它能够提升到专业水平的能力。在自动驾驶汽车上,可能可能无法实现类似的增强功能——这是另一个话题。。
特斯拉正在学习模拟驾驶任务,例如如何处理高速公路三叶草陡峭的弯道,或者如何在十字路口左转。听起来,特斯拉计划仿效随着时间的推移而扩展的学习任务,比如如何和如何在高速公路上变换车道。
与预测一样,上传围绕汽车的场景的抽象表示可能就足够了,而不是上传视频。这将意味着更低的带宽和存储需求。
与预测一样,数据上传时没有人为标记。神经网络预测人类驾驶员在给定世界状态下的行为。它所需要的只是世界状况和司机的行为。本质上,模仿学习是预测特斯拉司机的行为,而不是特斯拉看到的其他道路使用者的行为。与alphastar一样,所有需要的信息都包含在事件回放中。
根据karpathy关于预测切入的评论,当无法正确预测前方车辆是否会切入特斯拉车道时,特斯拉可以触发汽车来保存回放。类似地,当涉及路径规划驾驶策略的神经网络无法正确预测Tesla驾驶员行为时,Tesla可能会捕获重放数据。埃隆·马斯克在过去曾提到过这种能力,但目前还不清楚它是否在特斯拉上运行。
相反,当特斯拉处于自动驾驶或即将到来的城市半自动驾驶模式时,人类司机将接管。这可能是一个丰富的例子来源,其中系统做了一些不正确的事情,然后人类驱动程序立即演示如何正确地做。
捕捉有趣回放的其他方法包括:突然刹车转弯、自动紧急刹车、碰撞警告和机器学习中的复杂技术,即异常检测和新颖性检测。(这些相同的条件也可以用来触发回放捕捉以进行预测,者触发摄像机快照以进行目标检测。)如果特斯拉知道它想要捕捉什么,例如在交叉路口左转,当视觉神经网络看到红绿灯和左转信号灯激活,方向盘左转时,它可以设置一个触发器来捕捉回放。
结论。
由于特斯拉拥有大约50万辆的车队,它在三个关键领域比Waymo(和其他竞争对手)具有优势:。
- 计算机视觉
- 预测
- 路径规划/驾驶策略。
关注收集正确的数据、付费给用户标签、或者付费购买带宽和存储并不能消除这些优势。这些问题可以通过设计触发器、使用不需要人工标记的数据以及使用抽象表示(重放)代替原始视频来解决。
在商业分析师、记者和公众中,多数人认为,韦莫尔在自动驾驶方面遥遥领先,而特斯拉则不太接近。当你研究神经网络的第一原理时,这个观点是没有意义的。
此外,alphastar是复杂任务大规模模拟学习概念的证明。如果你怀疑特斯拉的方法是正确的,或者路径规划/驾驶政策是一个可管理的问题,你必须解释为什么模仿学习对星际争霸有效,而不是对驾驶有效。
我预测韦莫尔将采取激进的行动来增加队伍的规模。在未来1—3年内,韦莫尔遥遥领先,特斯拉落后的观点将被广泛抛弃。人们太关注脱离控制的指标,这些指标没有告诉我们系统的健壮性、深度限制,以及Google/waymo能够接触到顶尖机器学习工程师和研究人员的演示。他们很少关注训练数据,特别是对于那些没有足够的数据来处理机器学习中的稀有对象和行为的waymo来说。
特斯拉的驾驶模拟
模拟并不是waymo的优势,因为特斯拉(和所有的自主汽车公司一样)使用模拟。重要的是,仿真不能产生稀有对象和稀有行为,而仿真的创建者无法预测如何精确建模。
纯强化学习对alphastar没有影响,因为星际争霸的动作空间很大,随机探索找不到好的策略。深度思维必须以模仿学习为指导。这表明了纯模拟经验(如alphago 0)解决任何问题的假设的弱点。正是在驾驶等问题上,预测人们的行为是一个关键组成部分。预测人类行为需要有关真实世界的经验信息。
自动驾驶领域的观察人士可能低估了特斯拉吸引顶尖机器学习人才的能力。一项对技术专家的调查显示,特斯拉是海湾地区第二受欢迎的公司,仅次于谷歌。它发现,特斯拉是全球第四大最受追捧的公司,仅次于谷歌。(Shopify在全球排名第三,SpaceX排名第一)引人注目的是,学术界、openai以及谷歌、Facebook和deepmind的企业实验室公开分享机器学习的基本进展。特斯拉能做什么和韦莫尔能做什么之间的差别可能没有那么大。
这两家公司的最大区别是数据。随着特斯拉车队增加到100万辆,它的月里程将达到约10亿英里,比韦莫每月约100万英里的速度高出1000倍。对于特斯拉来说,1000倍的差异意味着对稀有物体的卓越检测、对稀有行为的卓越预测以及对稀有情况的卓越路径规划/驾驶策略。自驾挑战更多的是处理0.001%的英里数,其中包含罕见的边缘情况,而不是99.999%的英里数是不引人注目的。因此,有理由认为,能够从这0.001%的英里数中收集大量培训示例的公司将比不能收集的公司做得更好。