自动驾驶汽车为何不需要雷达? 特斯拉首席AI科学家这样解释

发表于 4年以前  | 总阅读数:798 次

过去几年,卡帕西始终负责领导特斯拉的自动驾驶系统研发工作。在2021年CVPR自动驾驶研讨会上,卡帕西详细介绍了该公司是如何开发深度学习系统的,该系统只需要视频输入就可以了解汽车周围的环境。同时,卡帕西还解释了为何特斯拉最有可能帮助基于视觉的自动驾驶成为现实的原因。

通用计算机视觉系统

深度神经网络是自动驾驶技术堆栈的主要组成部分之一,它主要对车载摄像头所拍摄视频中的道路、标志、汽车、障碍物和行人进行分析。不过,深度学习在检测图像中的目标时也会出错。为此,包括Alphabet子公司Waymo在内的大多数自动驾驶汽车公司,都使用激光雷达。这种设备通过向各个方向发射激光束,生成汽车周围的3D地图。激光雷达提供了更多的信息,可以填补神经网络留下的空白。

然而,在自动驾驶堆栈中加入激光雷达也有其复杂之处。卡帕西说:“你必须用激光雷达预先测绘环境地图,然后借此创建高清地图,你必须插入所有的车道,搞清楚它们如何连接,以及了解所有的交通灯。在测试阶段,你只需要依据地图驾车四处移动。”与此同时,要为自动驾驶汽车将要行驶的每个地点创建精确的地图是极其困难的。卡帕西表示:“收集、构建和维护这些高清激光雷达地图是不可扩展的。要保持基础设施的持续更新也极其困难。”

特斯拉的自动驾驶汽车没有使用激光雷达和高清地图。卡帕西称:“根据汽车周围8个摄像头拍摄的视频,所有发生的事情都是第一次发生在车里。”

自动驾驶技术必须弄清楚车道在哪里,交通灯在哪里,它们所处状态如何,以及哪些与车辆相关。而且它必须在没有任何预先确定的道路导航信息的情况下完成所有这些工作。卡帕西承认,基于视觉的自动驾驶方法在技术上更难实现,因为它需要仅靠视频反馈就能运转良好的神经网络。但他称:“一旦这种系统投入使用,它就会成为通用计算机视觉系统,可以部署在地球上的任何地方。”

有了通用计算机视觉系统,汽车将不再需要其他辅助驾驶功能。卡帕西表示,特斯拉已经在朝这个方向发展。此前,该公司使用雷达和摄像头相结合的方式支持自动驾驶系统,但其最近开始推出不再配备雷达的汽车。卡帕西表示:“我们移除了雷达,这些车只靠视觉行驶。这是因为,特斯拉的深度学习系统已经达到了临界点,现在比雷达的表现好100倍,而雷达开始成为阻碍。”

监督式学习

反对纯计算机视觉自动驾驶方法的主要论点是,神经网络是否可以在没有激光雷达深度地图的帮助下,进行测距和估计存在的不确定性。卡帕西对此表示:“显然,人类开车时依赖视觉,所以我们的神经网络能够处理视觉输入,以了解我们周围物体的深度和速度。但最大的问题是,合成神经网络能做到同样的事情吗?在过去几个月里,我们的努力证明,这是有可能实现的。”

特斯拉的工程师们想要创建一个深度学习系统,可以在深度、速度和加速度方面对物体进行检测。他们决定将这一挑战视为一个监督式学习问题来对待,即神经网络在经过注释数据训练后,学会检测目标及其相关属性。

为了训练他们的深度学习架构,特斯拉团队需要一个包含数百万个视频的海量数据集,并仔细地对视频所包含的对象及其属性进行注释。为自动驾驶汽车创建数据集尤其棘手,工程师们必须确保包括各种不同的道路设置和不经常发生的边缘情况。卡帕西说:“当你有一个庞大、干净、多样化的数据集,然后用它训练大型神经网络时,我在实践中看到的是,成功可以得到保证。”

自动标记数据集

特斯拉在全球售出了数百万辆配有摄像头的汽车,并据此在收集训练汽车视觉深度学习模型所需的数据方面处于有利地位。特斯拉的自动驾驶团队积累了1.5PB的数据,包括100万段10秒长的视频和60亿个标注了边框、深度和速度的物体。但是给这样庞大的数据集贴上标签是个巨大的挑战。一种方法是通过数据标签公司或在线平台(如Amazon Turk)手动标注。但这将需要大量的手工工作,可能会花费一大笔钱,而且进展缓慢。

与之相比,特斯拉团队使用了自动标记技术,它结合了神经网络、雷达数据和人工审核。由于数据集是离线标注的,神经网络可以回播视频,将它们的预测与实际情况进行比较,并调整它们的参数。这与所谓的“测试推理”相反,后者所有事情都是实时发生的,深度学习模型无法进行追溯。

离线标记还使工程师能够应用非常强大的、计算密集型的目标检测网络,这些网络无法部署在汽车上,可以用于实时、低延迟的应用程序。他们利用雷达传感器数据进一步验证神经网络的推断。所有这些都提高了标记网络的精度。卡帕西说:“如果你处于离线状态,你就会获得后续好处,可以更好地融合不同的传感器数据。此外,你可以让人类参与进来,他们可以进行清理、验证、编辑等工作。”

不过,卡帕西没有透露对自动标签系统进行最终修改需要多少人力,但人类的认知在引导自动标签系统向正确方向发展方面发挥了关键作用。

在开发数据集的过程中,特斯拉团队发现了超过200个触发点,表明目标检测需要调整。这些问题包括不同摄像头之间或摄像头与雷达之间的检测结果不一致。他们还确定了可能需要特别注意的情况,比如隧道入口和出口,以及顶部有物体的汽车。特斯拉用了四个月的时间来开发和掌握所有这些触发器。随着标签网络的改进,它以“影子模式”部署。这意味着它被安装在消费者的汽车上,静默运行,而不向汽车发出命令,并将该网络的输出与传统网络、雷达和司机的行为进行比较。

特斯拉团队经历了七次数据工程迭代。他们从一个初始数据集开始,在这个数据集上训练他们的神经网络。然后,他们在真实汽车上部署“影子模式”的深度学习,并使用触发器来检测不一致性、错误和特殊场景。然后对错误进行修正,如果需要,还会向数据集添加新数据。卡帕西说:“我们一遍又一遍地重复这个循环,直到神经网络变得足够好。”

因此,该体系结构可以更好地描述为具有巧妙分工的半自动标注系统,其中神经网络负责重复性工作,人类负责解决高级认知问题和罕见情况。

有趣的是,当被问及触发器的生成是否可以自动化时,卡帕西回答说:“触发器的自动化是个非常棘手的问题,因为你可以有通用触发器,但它们不能正确地代表错误模式。例如,很难自动生成具有触发进入和退出隧道功能的触发器,这是人类通过直觉获得的能力,目前还不清楚其具体原理。”

分层深度学习体系结构

特斯拉的自动驾驶团队需要高效和精心设计的神经网络,以最大限度地利用他们收集的高质量数据集。该公司创建了一个由不同神经网络组成的分层深度学习体系结构,这些神经网络处理信息,并将其输出给下一组网络。

深度学习模型使用卷积神经网络从安装在汽车周围的8个摄像头的视频中提取特征,并使用变换神经网络将它们融合在一起。然后,它会随着时间的推移融合这些信息,这对于轨迹预测和消除推理不一致等任务来说非常重要。然后,空间和时间特征被输入神经网络的分层结构中,卡帕西将其描述为头部、躯干和神经。他说:“你之所以想要这种分层结构,是因为你对大量的输出感兴趣,但你负担不起每个输出都有对应神经网络的代价。”

分层结构使得可以为不同的任务重用组件,并支持不同推理路径之间的特性共享。网络的模块化体系结构的另一个好处是进行分布式开发的可能性。特斯拉目前聘用了一个庞大的机器学习工程师团队,致力于自动驾驶神经网络的研究。他们每个人都在网络的单个小组件上工作,然后把他们的结果插入到更大的网络中。卡帕西称:“我们有个大约20人的团队,他们在全职训练神经网络。它们都在同一个神经网络上合作。”

垂直整合

在CVPR的演讲中,卡帕西分享了特斯拉用来训练和微调其深度学习模型的超级计算机的更多细节。整个计算集群由80个节点组成,每个节点包含8个英伟达A100图形处理器和80 GB显存,总计5760个GPU和超过450 TB的VRAM。这台超级计算机还拥有10PB的NVME超高速存储和640 Tbps的网络容量来连接所有节点,并允许对神经网络进行高效的分布式训练。

特斯拉还拥有并制造安装在其汽车内的AI芯片。卡帕西表示:“这些芯片是专门为我们希望在完全自动驾驶应用中运行的神经网络设计的。”

特斯拉的最大优势是它的垂直整合能力。该公司拥有整个自动驾驶汽车堆栈,自己生产汽车和自动驾驶功能硬件,同时通过从售出的数百万辆汽车中收集各种各样的遥测和视频数据占据独特的位置。特斯拉还利用其专有数据集创建并训练其神经网络,并通过在其汽车上进行影子测试来验证和微调这些网络。当然,特斯拉拥有杰出的团队,由机器学习工程师、研究人员和硬件设计师组成,他们把所有的东西组装在一起。

卡帕西说:“你可以在所有层面进行协同设计和攻坚,没有第三方在阻碍你。你完全掌控了自己的命运,我认为这是不可思议的。”

这种垂直整合以及创建数据、调整机器学习模型并将其部署到许多汽车上的能力,使特斯拉在实现仅基于视觉的自动驾驶汽车能力方面获得了优势。在他的演讲中,卡帕西展示了几个例子,显示新的神经网络胜过了与雷达信息结合工作的传统ML模型。卡帕西说,如果该系统继续改进,特斯拉可能会淘汰激光雷达,并认为没有其他公司能够复制特斯拉的方法。

未解决问题

但问题仍然存在,比如深度学习目前的进步状态是否足以克服自动驾驶面临的所有挑战。当然,目标检测、速度和距离估计在驾驶中起着重要作用。但是人类的视觉还有许多其他复杂的功能,科学家们称之为视觉的“暗物质”。这些都是意识和潜意识分析视觉输入和不同环境导航的重要组成部分。

深度学习模型也很难做出因果推理,当模型面对他们以前没有见过的新情况时,这可能是个巨大的障碍。因此,虽然特斯拉成功地创建了庞大而多样化的数据集,但开放道路上的实际环境却非常复杂,那里随时都可能发生新的、不可预测的事情。

AI社区存在的分歧在于,是否需要明确地将因果关系和推理整合到深度神经网络中,或者是否可以通过“直接拟合”克服因果关系障碍。特斯拉以视觉为基础的自动驾驶团队似乎更喜欢后者,但这项技术显然需要接受时间的考验。(小小)

 相关推荐

刘强东夫妇:“移民美国”传言被驳斥

京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。

发布于:1年以前  |  808次阅读  |  详细内容 »

博主曝三大运营商,将集体采购百万台华为Mate60系列

日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。

发布于:1年以前  |  770次阅读  |  详细内容 »

ASML CEO警告:出口管制不是可行做法,不要“逼迫中国大陆创新”

据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。

发布于:1年以前  |  756次阅读  |  详细内容 »

抖音中长视频App青桃更名抖音精选,字节再发力对抗B站

今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。

发布于:1年以前  |  648次阅读  |  详细内容 »

威马CDO:中国每百户家庭仅17户有车

日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。

发布于:1年以前  |  589次阅读  |  详细内容 »

研究发现维生素 C 等抗氧化剂会刺激癌症生长和转移

近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。

发布于:1年以前  |  449次阅读  |  详细内容 »

苹果据称正引入3D打印技术,用以生产智能手表的钢质底盘

据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。

发布于:1年以前  |  446次阅读  |  详细内容 »

千万级抖音网红秀才账号被封禁

9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...

发布于:1年以前  |  445次阅读  |  详细内容 »

亚马逊股东起诉公司和贝索斯,称其在购买卫星发射服务时忽视了 SpaceX

9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。

发布于:1年以前  |  444次阅读  |  详细内容 »

苹果上线AppsbyApple网站,以推广自家应用程序

据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。

发布于:1年以前  |  442次阅读  |  详细内容 »

特斯拉美国降价引发投资者不满:“这是短期麻醉剂”

特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。

发布于:1年以前  |  441次阅读  |  详细内容 »

光刻机巨头阿斯麦:拿到许可,继续对华出口

据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。

发布于:1年以前  |  437次阅读  |  详细内容 »

马斯克与库克首次隔空合作:为苹果提供卫星服务

近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。

发布于:1年以前  |  430次阅读  |  详细内容 »

𝕏(推特)调整隐私政策,可拿用户发布的信息训练 AI 模型

据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。

发布于:1年以前  |  428次阅读  |  详细内容 »

荣耀CEO谈华为手机回归:替老同事们高兴,对行业也是好事

9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。

发布于:1年以前  |  423次阅读  |  详细内容 »

AI操控无人机能力超越人类冠军

《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。

发布于:1年以前  |  423次阅读  |  详细内容 »

AI生成的蘑菇科普书存在可致命错误

近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。

发布于:1年以前  |  420次阅读  |  详细内容 »

社交媒体平台𝕏计划收集用户生物识别数据与工作教育经历

社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”

发布于:1年以前  |  411次阅读  |  详细内容 »

国产扫地机器人热销欧洲,国产割草机器人抢占欧洲草坪

2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。

发布于:1年以前  |  406次阅读  |  详细内容 »

罗永浩吐槽iPhone15和14不会有区别,除了序列号变了

罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。

发布于:1年以前  |  398次阅读  |  详细内容 »