当前位置:恩施知识网 > 电脑百科 > 正文

特斯拉为何坚守纯视觉路线呢,特斯拉视觉方案

近日,特斯拉中国在线下与媒体分享了其采用纯视觉方案的思路与研究进展。
坚持视觉感知 用AI神经网络技术提升辅助驾驶能力
如图1所示,Andrej说:“我们希望能够打造一个类似动物视觉皮层的神经网络连接,模拟大脑信息输入和输出的过程。就像光线进入到视网膜当中,我们希望通过摄像头来模拟这个过程。”
图1 摄像头模拟人类图像处理流程示意
多任务学习神经网络架构HydraNets,通过一个主干网络处理8个摄像头传入进来的原始数据,利用RegNet残差网络和BiFPN算法模型

近日,特斯拉中国在线下与媒体分享了其采用纯视觉方案的思路与研究进展。

坚持视觉感知 用AI神经网络技术提升辅助驾驶能力

如图1所示,Andrej说:“我们希望能够打造一个类似动物视觉皮层的神经网络连接,模拟大脑信息输入和输出的过程。就像光线进入到视网膜当中,我们希望通过摄像头来模拟这个过程。”

图1 摄像头模拟人类图像处理流程示意

多任务学习神经网络架构HydraNets,通过一个主干网络处理8个摄像头传入进来的原始数据,利用RegNet残差网络和BiFPN算法模型统一处理,得出不同精度下的各类型图像特征,供给不同需求类型的神经网络任务所用。

图2 多任务学习神经网络架构HydraNets

不过由于该结构处理的是单个摄像头的单帧图片画面,在实际应用时候遇到很多瓶颈;于是在次结构之上加入了Transformer神经网络结构,使得原本提取的二维的图像特征,变为了多个摄像头拼合起来的三维向量空间的特征,从而大大提升了识别率和精准度。

还没完,由于仍是单帧的画面,所以还需要时间维度和空间维度,以让车辆拥有特征“记忆”功能,用于应对“遮挡”、“路牌”等多种场景,最终实现以视频流的形式,将行驶环境的特征提取出来,形成向量空间,让车辆能够精准、低延迟地判断周围环境,形成4D向量空间,这些视频形式特征的数据库为训练自动驾驶所用。

图3 视频化4D向量空间的神经网络架构

不过由于城市自动驾驶与高速自动驾驶不同,车辆规划模块有两大难题,其一是行车方案不一定有最优解,其局部最优解会很多,也就意味着同样的驾驶环境,自动驾驶可以选择很多种可能的解决方案,并且都是好的方案;其二是维度较高,车辆不仅需要做出当下的反应,还需要为接下来的一段时间做好规划,估算出位置空间、速度、加速度等诸多信息。

所以特斯拉选择两个途径解决规划模块这两大难题,一个是用离散搜索方式解决局部最优解的“答案”,以每1.5毫秒2500次搜索的超高效率执行;另一个是用连续函数优化来解决高维度问题。通过离散搜索方式先得出一个全局最优解,然后利用连续函数优化来平衡多个维度的诉求,例如舒适型、平顺性等,得出最终的规划路径。

此外,除了要为自己做规划,还要“估算”和猜测其他物体的规划,即用同样的方式,基于对其他物体的识别以及基础的速度、加速度等参数,然后替其他车辆规划路径,并以此应对。

不过全球各地的道路状况千变万化,非常复杂,如果采用离散搜索的方式会消耗大量资源,并且使得决策时间过长,所以选择了深度神经网络结合蒙地卡罗搜索树的方式,大大提高的决策效率,几乎是数量级的差距。

图5 不同方式下的效率

最终规划模块的整体架构如图5,先基于纯视觉方案的架构将数据处理为4D向量空间,然后基于之前得到的物体识别以及共享的特征数据,再利用深度神经网络寻找全局最优解,最终规划结果交给执行机构执行。

图6 视觉识别 规划、执行整体架构

当然,再好的神经网络架构和处理办法,都离不开一个有效且庞大的数据库。在数据从2D向3D、4D转换过程中,约1000多人的人工标注团队也在与时俱进在4D空间上进行标注,并且仅需在向量空间中标注后,会自动映射入不同摄像头的具体单个画面中,大大增加的数据标注量,但这些还远远不够,人工标注的数据量远远喂不饱自动驾驶所需的训练量。

图7 4D向量空间中人工标注的演示

由于人更擅长语义识别,而计算机更加擅长与几何、三角化、跟踪、重建等,所以特斯拉想要创造一个人和计算机“和谐分工”共同标注的模式。

特斯拉搭建了一个庞大的自动标注流水线,用45秒-1分的视频,包括大量传感器数据,交给神经网络离线学习,然后利用大量机器和人工智能算法生成可以用于训练网络的标注数据集。

图8 视频片段自动标注处理流程

对与可行驶区域例如道路、道线、十字路口等的识别,特斯拉使用了NeRF“神经辐射场”,即一种2D向3D转化的图像处理算法,给出既定的XY坐标点数据,让神经网络预测地面的高度,由此生成无数的XYZ坐标点,以及各种语义,例如路边、车道线、路面等,形成大量的信息点,并反向投射到摄像头画面中;然后将其道路数据和之前神经网络识别出来的画面分割结果进行比较,并整体优化所有摄像头的图像;同时结合时间维度和空间维度,创建出较为完善的重建场景。

图9 重建道路的演示

利用此技术将不同车辆经过同一地点所重建的道路信息,进行交叉比对,他们必须在所有位置点信息一致对的上,才为预测正确,这样共同作用下,形成了一种有效的道路表面的标注方法。

图10 多视频数据标注重叠互相校验

这与高精地图完全不一样,所有的视频片段所产生的标注信息只要越来越精确精准,标注信息和视频里实际道路情况相符,就不必再维护这些数据。

同时利用这些技术,还可以对静态的物体进行识别和重建,并且有纹理、没纹理都可以根据这些3D信息点做出标注;这些标注点对于摄像头识别任意障碍物都非常有用。

图11 静态物体的3D信息点重建

采用离线处理这些数据和标注的另一个好处是,单车网络每次只能对其他运动事物进行预测,而离线由于数据既定行,可以通晓过去和未来,就能依照确定的数据,忽视遮挡与否,对所有的物体的速度、加速度进行预测和校准优化,并标注,训练网络后来更准确判断其他运动事物,便于规划模块进行规划。

图12 离线对车辆、行人的速度、加速度校对和标注

然后将这些结合起来,就形成了对视频数据中,所有道路相关、静动态物体的识别、预判和重建,并对其动力学数据标注。

图13 视频片段对周围环境的重建和标注

这样的视频数据标注将成为训练自动驾驶神经网络的核心部分。其中一个项目就是在3个月内,利用这些数据训练网络,成功实现了毫米波雷达所有功能并且更加准确,所以去掉了毫米波雷达。

图14 摄像头几乎无法看到情况下,对速度和距离的判断依然精准

验证了这种方式的高度有效,那么就需要海量的视频数据来训练。所以同时,特斯拉还开发了“仿真场景技术”,可以模拟现实中不太常见的“边缘场景”用于自动驾驶培训。如图4所示,在仿真场景中,特斯拉工程师可以提供不同的环境以及其他参数(障碍物、碰撞、舒适度等),极大提升了训练效率。

图15 仿真场景

特斯拉利用仿真模式训练网络,已经用了3亿张图像和50亿个标注来训练网络,接下来还会利用该模式继续解决更多的难题。

图16 仿真模式带来的提升和未来几个月预期

综上,如果要更快速提升自动驾驶网络的能力,需要处理海量的视频片段以及运算。举个简单的例子,为了拿掉毫米波雷达,就处理了250万个视频片段,生成了超过100亿个标注;而这些,让硬件越来越成为发展速度的瓶颈。

之前特斯拉使用的是一组约3000块GPU、稍低于20000个CPU的训练硬件,并为了仿真还加入了2000多台FSD计算机;后来发展到10000块GPU组成的世界排名第五的超级计算机,但是即便如此,还是远远不够。

图17目前在使用的超级计算机参数和变化

所以特斯拉决定自己研制超级计算机。

“工程学的创举”——D1芯片与Dojo超级计算机

当下,随着所需处理的数据开始指数级增长,特斯拉也在提高训练神经网络的算力,因此,便有了特斯拉Dojo超级计算机。

特斯拉的目标是实现人工智能训练的超高算力,处理大型复杂的神经网络模式、同时还要扩展带宽、减少延迟、节省成本。这就要求Dojo超级计算机的布局,要实现空间和时间的最佳平衡。

如图所示,组成Dojo超级计算机的关键单元是特斯拉自主研发的神经网络训练芯片——D1芯片。D1芯片采用分布式结构和7纳米工艺,搭载500亿个晶体管、354个训练节点,仅内部的电路就长达17.7公里,实现了超强算力和超高带宽。

图18 D1芯片技术参数

图19 D1芯片现场展示

如图所示,Dojo超级计算机的单个训练模块由25个D1芯片组成。由于每个D1芯片之间都是无缝连接在一起,相邻芯片之间的延迟极低,训练模块最大程度上实现了带宽的保留,配合特斯拉自创的高带宽、低延迟的连接器;在不到1立方英尺的体积下,算力高达9PFLOPs(9千万亿次),I/O带宽高达36TB/s。

图20 D1芯片组成的训练模块

图21 训练模块现场展示

得益于训练模块的独立运行能力和无限链接能力,由其组成的Dojo超级计算机的性能拓展在理论上无上限,是个不折不扣的“性能野兽”。如图9所示,实际应用中,特斯拉将以120个训练模块组装成ExaPOD,它是世界上首屈一指的人工智能训练计算机。与业内其他产品相比,同成本下它的性能提升4倍,同能耗下性能提高1.3倍,占用空间节省5倍。

图9 训练模块组合成ExaPOD

与强大硬件相匹配的,是特斯拉针对性开发的分布式系统——DPU(Dojo Processing Unit)。DPU是一个可视化交互软件,可以随时根据要求调整规模,高效地处理和计算,进行数据建模、存储分配、优化布局、分区拓展等任务。

不久后,特斯拉即将开始Dojo超级计算机的首批组装,并从整个超级计算机到芯片、系统,进行更进一步的完善。对于人工智能技术,马斯克显然还有更远大的追求。这种追求,寄托在他开场白中“我们遭遇了一点技术问题,希望以后可以用AI来解决”的调侃,更在于活动结尾时他许下的“我们会进一步在整个人类世界里畅游”的承诺。

特斯拉为何坚守纯视觉路线呢,特斯拉视觉方案

这就是自动驾驶的大结局?

北京时间8月20日,特斯拉召开一次别开生面的技术发布会,AI DAY,与以往的电池日、新车日不同,这次发布会的重点放在目前电动车上最前沿的技术——自动驾驶、神经网络、超级计算机等。

在AI DAY上,特斯拉着重介绍了在人工智能领域的软件和硬件进展,尤其在神经网络上的训练系统,其中最大的看点就是『Dojo超级计算机』。

特斯拉本次推出的人工智能训练机Dojo D1芯片,是特斯拉全新自研的超级计算机芯片,该电脑将用于车辆自动驾驶数据的运算和分析,能够自动地学习和识别标记道路上的行人、动物、坑洼地等数据,将海量的数据汇聚于Dojo,然后通过自动化深度神经网络训练,以此不断加强算法进化,最终实现以纯视觉为基础的完全自动驾驶(FSD),即特斯拉自动驾驶的最终形态。

据悉,目前单个Dojo D1芯片的演算力已经达到全球第五。纵观全世界的超级计算机的排名,前五中除了第五名的Selene是英伟达的之外,前四的都是国家所有,包括第一的日本『富岳』、第二的美国Summit、第三的美国Sier,以及第四的中国『神威太湖』。

其中,目前排名第一的超级计算机是日本的『富岳』,在机器学习应用上的算力超频之后是2.15EFLOPS,默频是1.95EFLOPS。

值得一提的是,上述前四的超级计算机都是举国之力研发的结果,而特斯拉只是一家新能源车制造公司,能取得这样的成就,特斯拉可谓又一次突破了自己的极限。

什么是『Dojo超级计算机』?

Dojo一词来源于日语,意思是“道场”,翻译成中文应该叫做“训练馆”。

特斯拉特地取此名,可以说目的就是专门训练特斯拉 汽车 的。来自全球超100万辆特斯拉车辆采集的真实数据将汇聚于此,然后通过Dojo进行深度神经网络训练,以此帮助特斯拉的Autopilot不断进化,最终实现以纯视觉为基础的完全自动驾驶(FSD)。

换一个更好理解的方式,就像是AlphaGo专攻围棋领域一样,经过人工参与调整和标注的训练,只需要几年时间就击败了全球围棋高手,而Dojo可以被看做是为专攻自动驾驶领域的AlphaGo,通过深度学习和分析海量的特斯拉车队数据,Dojo可以自动模拟开车、自动寻找问题最优解,从而完成自我进化。

重点是“无监督训练”和“自我进化”,你可以理解为:Dojo最初不会驾驶车辆,但通过极快的速度学习人类开车(影子模式)和模拟开车(特斯拉为其构建了一个虚拟世界供训练)后,就可以慢慢地在真实世界开车了。

接着随经验的积累,算法的精进,驾驶技术还会越来越娴熟,最终超过人类的驾驶水平。就像AlphaGo最终击败李世石和柯洁一样。

『Dojo超级计算机』有什么能力?

今年6月,特斯拉AI高级总监Andrej Karpathy宣称由特斯拉团队研发的世界第五代超级电脑Dojo即将问世。今天的AI Day发布会则透露了更多的细节。

Dojo D1计算芯片采用了5760个算力为321TFLOPS的英伟达A100显卡,组成了720个节点构建的超级计算机,总算力达到了1.8EFLOPS(EFLOPS:每秒千万亿次浮点运算),有10PB的存储空间,读写速度为1.6TBps。

注意,这还是单个Dojo D1的算力,未来特斯拉还会将多个Dojo D1组成『Dojo超级计算机群』,届时,该超级计算机群的总算力将超过目前世界第一的超级计算机『日本富岳』。

随着Dojo D1推出,毫不夸张的说,它就是目前世界上最强大的人工学习机器,它使用7nm芯片驱动、将50万个训练单元搭建在一起。

在马斯克的规划中,『Dojo超级计算机群』目标算力要达到每秒钟exaFLOP的级别,也就是百亿亿次浮点运算,是现在的一万倍,名副其实的直接最尖端的超级计算机。

那么,Dojo能做什么呢?主要就是自主深度神经网络训练。

特斯拉车辆搭载的摄像头,能够不间断地采集真实的道路数据,然后Dojo D1的人工智能算法,会自动标记这些数据中的物体(包括常规道路、危险道路和其他意外情况)。

之前的大型AI数据集通常需要手动标记,非常耗时费力,而Dojo将配合无监督学习算法(Unsupervised Learning,无需人工对训练数据集进行标注,系统可以自行根据样本间的统计规律对样本集进行分析)。

譬如,可以不给任何额外提示的情况下,仅依据一定数量“狗”的图片特征,就能将“狗”这个物体识别出来。大幅减少特斯拉对于数据人工标注的工作量,进而帮助其数据训练效率实现指数级提升。

这些数据还可以包括信号灯、车道线、动物、行人、天气、马路边缘、指示牌、路灯、桩桶、可行车区域、不可行车区域等等,通过8个摄像完成360度环影,以鸟瞰的方式来展示一个4D视图(三维空间+时间戳)。

不过,特斯拉车辆并不会将每分每秒的视频数据都发送给Dojo,也不会随机发送视频数据,更多的情况是发送一个“案例”(10秒)。比如在Autopilot驾驶时,驾驶员突然介入,改为人工驾驶,Dojo就会分析这个视频案例,试图找出驾驶员中断Autopilot的原因,又或者司机在高速路上突然刹车、堵车时有人插队、雷达与摄像头判断结果不一致、车辆发生事故/险些发生事故等等,将这些具体的案例,交给Dojo来分析处理。

最终,更多的数据通过Dojo的处理,反馈给神经学习系统,实现自动驾驶算法的迭代,而算法的迭代,让Autopilot更加好用,持续反馈更多的数据给Dojo分析,从而实现一个正循环。

目前,特斯拉已经积累了100万个10秒左右的视频,并给60亿个物体贴上了深度、速度和加速度的标签。这些数据每天都还在增加,这就需要特斯拉有一个强大的计算机来处理这些庞大的数据,目前这些数据已经达到了惊人的1.5PB。

以特斯拉百万级的车辆保有量,这个规模的数据收集终端,数据增长速度也是惊人的。这似乎是个天文数字,而特斯拉如果继续依赖纯视觉的自动驾驶方案,不断提高其可靠性,就需要开发出更强大的超级计算机,以追求更先进的AI算法。

一家车企为什么要做超级计算机?

我们前面说到,全世界的超级计算机的排名前五的超级计算机,除了第五名的Selene是英伟达的之外,前四的都是国家拥有的,包括第一的日本『富岳』、美国的Summit和Siera分别位于第二、第三,第四的是中国的『神威太湖』。

这些都是国家级的超级计算机,它们通常是体量巨大、造价高昂的设备,拥有数以万计的处理器,旨在执行专业性强、计算密集型的任务,可完成极端尺度的宇宙模拟、为药物反应预测寻找新途径、发现可用于制造高效有机太阳能电池的新材料等任务,应用于人工智能、生物医药和智慧城市建设等多个领域。

为什么特斯拉,一个电动车企需要研制一台超级计算机?

其实原因,上面已经有所提及。

目前,全球自动驾驶领域主要分为两派,即纯视觉路线与高精地图+雷达路线。后者认为,多传感器与摄像头可以优势互补,更可依靠高精度地图与多激光雷达来完成全自动驾驶。而作为纯视觉路线领头者的特斯拉,则坚定的认为,纯视觉是唯一正确的出路。

马斯克主张采用纯视觉的自动驾驶方法,就是依靠摄像头和机器学习来支持其高级驾驶辅助系统和自动驾驶,而摒弃了激光雷达(LiDAR)、毫米波雷达。

马斯克曾非常自信地说到:“只要人眼能够完成的事情,视觉传感器也应该能够完成。其它的激光雷达都是累赘”。

在特斯拉看来,把激光雷达、毫米波雷达砍掉,是因为多传感器融合,会干扰系统的判断,甚至会造成误判,因为当不同传感器过来的数据冲突的时候,会延长系统处理和判断的时间,甚至会出现误判。

在纯视觉自动驾驶方法下想改进这套自动驾驶AI达到足够的可靠性,自研适应计算需要的超级计算机便极为必要。

特斯拉AI高级总监Andrej Karpathy是计算机视觉和深度学习领域的顶级专家之一,博士毕业于斯坦福AI实验室,主要研究方向是卷积神经网络结构,自然语言处理,以及其在计算机视觉上的应用。

进入特斯拉之后,主要就是为了攻坚特斯拉自动驾驶的难题,而特斯拉非常坚决地采取纯视觉算法路线,这就为数据处理以及神经网络学习提出了巨大的要求。

Karpathy解释道,如果想要让计算机以人类的方式对新环境做出反应,需要一个巨大的数据集,以及超级计算机的处理能力。我们有一个神经网络架构网络和一个1.5 PB的数据集,需要大量的计算。

对我们而言,计算机视觉是使自动驾驶成为可能的基本要素。为了让其更好地工作,我们需要掌握来自车队的数据,训练大量的神经网络,并进行大量实验。

Karpathy讨论了特斯拉人工智能的视觉组件,他指出,特斯拉在设计其 汽车 的视觉皮层时,是按照眼睛感知生物视觉的方式进行建模的。他还谈到了特斯拉的视觉处理策略多年来是如何演变的,以及现在是如何实现的。Karpathy还提到了特斯拉的“HydraNets”,它具有多任务学习能力。

充分利用从整个车队收集来的数据训练,从而不断改善特斯拉的自动驾驶功能(Autopilot),为下一代自动驾驶人工智能(AI)提供能够更进一步的自主学习的神经网络。

这里的神经网络可以简单理解为通过『仿生学』模拟人类大脑皮层的神经元『沟通学习』的方式进行处理数据,用来实现『类似人类』的学习方式。

这也是为什么这个超算机群取名为Dojo(道场)的原因,在中文里翻译为训练场也非常合适,这个“训练场”就是专门用来训练特斯拉 汽车 的自动驾驶能力的。

其实早在2019年的Autonomous Day,马斯克就提到过Dojo,称Dojo是能够利用海量的视频(级别)数据,做『无人监管』的标注和训练的超级计算机。

如果认真了解过当年Autonomous Day的朋友,自然会发现,特斯拉推出Dojo超算以及自研芯片,是必然且在规划中的事,也是特斯拉不得不去做的事。

因为按照特斯拉的逻辑,一辆车上要装8个摄像机,十秒内就能产生一百万个视频。这也难怪,需要依赖超级计算机的运算能力。

换句话说,不是特斯拉想要成为人工智能巨头,而是被逼无奈,因为选了纯视觉路线,就需要一个超级计算机的算力与之匹配。结果Dojo一出场,就是要成为世界第一。可以说,这也是马斯克的凡尔赛了吧。

其实关于“视觉算法与AI的关系”这个问题,马斯克曾在推特中回复过,大致意思为:『只有解决了真实世界的 AI 问题,才能解决自动驾驶问题……除非拥有很强的 AI 能力以及超强算力,否则根本没办法……自动驾驶行业大家都很清楚,无数的边缘场景只能通过真实世界的视觉 AI 来解决,因为整个世界的道路就是按照人类的认知来建立的……一旦拥有了解决上述问题的 AI 芯片,其他的就只能算是锦上添花』。

确实,毫米波雷达或激光雷达方案虽然有优势,但是成本更高,而且还有着无法解决的弊端。首先雷达精度、反应速度都不如纯视觉方案,而高精地图则严重限制了可使用自动驾驶的范围。这意味着他们除了需要非常详细的使用地点地图外,还需要所有车道及其连接方式、实时交通灯等额外信息。

但特斯拉的纯视觉方式不同,特斯拉的自动驾驶依靠8个摄像头和背后的Dojo超算,原则上我们可以在地球上任何地方(的道路上)使用。

『Dojo超级计算机』的出现意味着什么?

Dojo的问世,将帮助特斯拉的无人驾驶技术继续提升一个等级,让视觉算法这条路线走的更加深远,它能帮助训练电脑去理解道路画面,通过对视频信息的采集和大量视频信息运算处理,达到仅通过视觉图像便能实现全自动驾驶的目的。

视觉自动驾驶与人类驾驶员的开车方式相似,但最重要的是,计算机更加的可靠。为此,Karpathy也举了几个例子:

首先,人类的反应速度太慢,即使是优秀的驾驶员也要250ms(0.25秒)的反应速度,很多人甚至超过460ms(0.46秒),而电脑的反应速度全部低于100ms(0.1秒);其次,人类驾驶员经常在开车时玩手机,而电脑则会全神贯注,不会一会看看微信,一会刷刷抖音;再来,人类驾驶员的视野范围太窄,并道时如果不回头,则完全看不到位于后视镜盲区的来车,而特斯拉拥有8个摄像头以每秒36帧的速度从车身周围识别信息,涵盖360度视野……

通过海量的案例,Dojo将帮助驾驶员更安全的驾驶车辆,包括利用视觉计算机来纠正人类错误和不安全的驾驶行为。比如:信号灯警告,系统识别到远处的红灯或黄灯,如驾驶员不减速会发出警告;紧急制动场景,系统判断车辆在障碍物前减速度不足或没有减速,会自动帮助车辆制动;躲避障碍,系统侦测到周围有突然出现的动物、行人、车辆、异物等,会自动控制方向盘来进行躲避。

在目前的特斯拉Autopilot中,已经出现过很多因系统失灵而出现的事故,这些可以通过Dojo进行解决,包括不限于:桥下阴影造成的无故刹车;高速跟车时,自动刹车踩得太死;遇到路边占用部分车道停放车辆的规避问题;当车辆检测到前方有行人或者道路变窄的情况时,当驾驶员把油门当做刹车踩下,车辆则不会加速(包括恶意报复 社会 行为)。

总结起来, Dojo的出现,实现了海量数据的『无监督训练』,大幅度提高神经网络训练的效率。通过用海量的数据锻炼它,就能解决各种『边缘场景』的问题,加快自动驾驶系统的成熟和完善,实现指数级的成长速度。

更关键的是,特斯拉对其软硬件的垂直整合度非常高,不仅不受制于别人,而且能够以此作为服务,给外界提供深度学习的训练业务。

在特斯拉的规划中,全球各地的数据,都会汇集到Dojo超级计算机中心进行处理。当然,这不包括中国的数据,因为中国出台了相关的管理办法,限制这类数据出境(因此,特斯拉在上海建立了数据中心,所以我们也会期待Dojo也能在中国实现)。

这就是自动驾驶的大结局?

对于自动驾驶的 科技 价值,几乎全球科学家都达成共识,其拥有广泛的应用前景,在包括出租车、代驾、共享 汽车 、机器人物流等领域都有巨大潜力。

根据中国信通院《2020年全球自动驾驶战略与政策观察》报告显示,自动驾驶具有巨大的 社会 经济价值,预计2050年将为美国创造大约3.2至6.3万亿美元的经济效益,其中 社会 福利和消费者福利预计接近8000亿美元。

我国多个地方政府也大力支持自动驾驶技术发展。北京已累计开放四个区县的自动驾驶测试道路共计200条、699.58公里,开放了亦庄和海淀2个自动驾驶测试区域,面积约140平方公里。同时累计为14家自动驾驶企业87辆车发放一般性道路测试牌照。

深圳市也已经先后公开两批无人驾驶路测道路;深圳坪山区的L5级别全无人RoboTaxi已商业化试运营超过100天,并承载了国内首批乘客。此外,包括亚马逊、苹果、三星等国外 科技 巨头,以及阿里巴巴、百度、腾讯等国内 科技 巨头都纷纷加入无人驾驶的赛道,想在这个潜力无限的市场里瓜分一块蛋糕。

从技术的角度来看,无人驾驶 汽车 是一个复杂的软硬件结合的智能自动化系统,运用到了自动控制技术、现代传感技术、计算机技术、信息与通信技术以及人工智能等。从战略意义的角度来看,自动驾驶移动能力更强,能够有效改善交通安全、实现节能减排、消除交通拥堵、促进产业转型。

过去数年,特斯拉一直对外宣传“全自动驾驶”技术,由此也为人们所诟病。因为事实上,特斯拉的“Autopilot”(自动辅助驾驶)以及“Full Self-Driving”(全自动辅助驾驶)都只是“辅助驾驶”功能,并不是真正意义上的“自动驾驶”功能。

因为这样的宣传,导致了不少车主过于相信特斯拉的辅助驾驶功能,因此也导致了很多起令人痛心的安全事故,最近的蔚来也因为NIO Pilot导致的事故登上了热搜。

可见,截止目前,自动驾驶还是一个理想中的概念,离我们的实际使用还有不少的距离,我们现在能用上路的都是“辅助驾驶”,大家为了自己的人身财产安全一定要牢记这一点,切勿过分相信市面鼓吹的“自动驾驶”功能。

目前,特斯拉已开始向纯视觉自动驾驶路线转变,从上月开始,部分在北美生产的特斯拉车型,已停止安装雷达传感器,而全新的FSD Beta V9.0(完全自动驾驶测试版)也将在近期更新,而这一切的背后,都离不开Dojo。

Dojo的到来,意味着我们离真正的“自动驾驶”又近了一步,打开了电动车驾驶AI世界的新入口。

对了,这个技术并不遥远,我们明年可能看到Dojo正式运行。

最后的彩蛋

就在发布会最后,马斯克开着玩笑带来了一位Tesla Bot机器人,他表示,如果Dojo的能力能够如期实现,那么将它至于机器人的内部,同样可以100%模拟人类的性能。在未来,可以为人类 社会 释放更多的劳动力。

马斯克绝对是一个技术疯子,改变全球能源布局、改变交通出行方式、改变人类脑机交互方式、游历太空、 探索 火星等等,单凭一个人的意志推动了整个人类 社会 的 科技 进步。

通过已量产的产品挣钱,但不会敛财,因为挣到的钱马上用在下一个疯狂的想法,并努力实现它,如果此时说马斯克是后乔布斯时代最伟大的 科技 创造者,应该没有人会反对吧?

(图/文/摄:皆电 唐科)

特斯拉为何坚守纯视觉路线呢,特斯拉视觉方案

特斯拉的“纯视觉”,能否到达自动驾驶的彼岸?

特斯拉最近又出大新闻了。才内部邮件宣布达成L2级自动驾驶,这次彻底“纯视觉”了。

这次是美国时间7月10日,特斯拉 FSD Beta V9.0终于在美国向用户推送。相比起上一个版本,V9.0做了FSD有史以来最大的一次更新。彻底抛弃了雷达的使用。而且,特斯拉征召了2000名车主内测,报名踊跃。不过,BUG很快就出来了。

这不,一位叫Giacaglia的网友看了一下特斯拉车主们发的视频,马上就收集了FSD 9.0 beta的11个失误瞬间。从各个动图来看,很明显现在的系统还是只能算是驾驶辅助,如果脱手或者离开人的监控,还是会出事情。这次可以看到的BUG有:

场景一:自动转弯之后径直向道路中央的绿化带撞了过去。

场景二:无法识别路中单轨道路。

场景三:闯公交车专用道。

场景四:在单行车道上逆行。

场景五:一直转换车道。路口右转时,无法判断使用哪个车道。

场景六: 汽车 压实线并线;急需换道时,因为后方车辆逼近,错过时机,只能下个路口见了。

场景七:自动并线超车之后发现道路划线,还要强行压线并道。

场景八:左转时提前换道。

场景九:左转时,差点进入对向路边停车位。

场景十: 汽车 穿过几条车道后才能左转。

场景十一:在一个只有停车标志的地方,看到两个停车标志。

“作为一个做Deep Learning方向的人表示,用神经网络的车我是肯定不敢坐的……”“是的,做ML(Machine Learning)的看现在的自动驾驶,堪比医生遇到挂科的同学给自己做手术。”“强行让机器来学人(纯靠视觉)本就是错误的发展方向,机器有自己的优势(可以自由加装雷达等设备进行辅助)而不利用,就是典型的教条主义、本本主义。”……

这都是很专业的质疑,那么,特斯拉是不是点错 科技 树?这个问题虽然见仁见智,但是从主流的CV(Computer Vision)+雷达路线来说,特斯拉有点像“西毒”欧阳锋了,为了降低成本,纯视觉一条道走到黑,“虽百死而不悔”的精神虽然有了,但是,那都是消费者的命啊……

为什么纯视觉?

如果特斯拉很老实地讲自己是驾驶辅助也就罢了,坏就坏在从一开始马斯克喜欢“吹”自动驾驶,直到吹破了以后在内部邮件中承认是L2级驾驶辅助。但是,现在马斯克给吹得成为一种神话,这种造神运动让马斯克骑上虎背下不来了。

而且,国内外有太多“特吹”,包括大众集团CEO赫伯特·迪斯博士。当然,迪斯博士吹特斯拉,是为了麻痹敌人,那是另外一回事。

且不说特斯拉多年排名垫底的自动驾驶功力,已经让多少人命丧黄泉,单说特斯拉靠“纯视觉”方案,说能达到全自动驾驶L4~L5级别,这就让人匪夷所思了。

苏黎世联邦理工学院(ETH Zurich)教授Marc Pollefeys则认为特斯拉不太可能放弃完全自动驾驶近在咫尺的说法,“很多人已经为此买单(特斯拉的FSD套餐),所以他们必须保持希望,”他说,“他们被困在那个故事里。”故事已经成为一种神话。

那么,为什么特斯拉取消雷达使用纯视觉?特斯拉多次强调过,摄像头数据和雷达数据在做融合的时候比较困难,当摄像头数据与雷达数据有冲突时,系统反而会更加难以抉择。

所以,马斯克也表示过,与其让二者互相扯后腿,不如只选一个并把它做到极致。而且,在他看来,特斯拉的深度学习系统已经比毫米波雷达强100倍,现在的毫米波雷达已经开始拖后腿了。

而在今年的 CVPR(计算视觉与模式识别大会)上,特斯拉首席AI科学家安乔·卡帕西(Andrej Karpathy)还讲了特斯拉如此“执拗”的原因。不过,对于走上歧路的特斯拉,我们还是奉劝要保持冷静。

为什么呢?道理其实很简单,人在开车,虽然是以视觉为主,但是其他的感官都是一体作用的,并非无用。比如听觉,身体的触觉,甚至是意识的直觉等。“事实上,人类开车的时候,是一种近乎无意识的感知,他就能够预测下一步应该怎么办,从而规避事故。”这是奇瑞 科技 有限公司总经理李中兵在世界人工智能大会的一场论坛上所讲的。而在这点,特斯拉有点过于执着在视觉上了。

通用视觉系统和神经网络

那么,这次的CVPR上,特斯拉的安乔·卡帕西(Andrej Karpathy)详细介绍的基于深度学习开发的自动驾驶系统,也就是全视觉的好处是什么?

特斯拉的底气,是采用了“通用视觉系统”和“神经网络”两种黑 科技 。当然,Karpathy 强调,基于视觉的自动驾驶,在技术角度更难实现,因为它要求神经网络仅仅基于视频输入就能达到超强性能的输出。“不过,一旦取得了突破,就能获得通用视觉系统,方便部署在地球的任何地方。”

“我们抛弃了毫米波雷达,车辆只靠视觉来行驶。”Karpathy认为,有了通用视觉系统,车辆就不再需要什么补充信息了。特斯拉始终认为,收集环境信息是一回事,利用环境信息又是另一回事。而且,传感器的种类和数量越多,互相之间的协调与整合就越难做,最终效果恐怕只是1+1 2,得不偿失。

这次特斯拉发布的FSD Beta V9.0,从技术上来说,新算法调用所有用于自动驾驶的8个摄像头,修复跨镜头畸变、时域差,拼接成环视视觉,再对周围环境进行实时的3D建模。也就是特斯拉所谓的“鸟瞰图视觉”。

具体来说,就是特斯拉将2D视图转化为模拟激光雷达数据,然后再用(激光雷达)算法处理这些数据,得到比之前好非常多的视觉测距精度。你不觉得奇怪么,既然还是得用激光雷达算法,为什么不用激光雷达呢?

按照特斯拉的说法,其自动驾驶系统是基于神经网络的特征识别、预判和规控,对于道路环境项目进行学习,比如交通路牌的含义到底是什么,需要通过很多场景素材训练系统,训练得越多系统能处理的场景越多。通过几百万车主积累的大数据,表现出来的能力就是,特斯拉可以轻松做到目前城市道路的自主驾驶。

实际上,马斯克一直都希望将特斯拉的制造成本压到最低。从成本上来说,目前特斯拉Model 3的自动驾驶摄像头成本只需要65美元。而激光雷达的成本,还基本上在1000美元以上级别。要知道,2018年的时候,Velodyne的64线激光雷达HDL-64售价可是高达7.5万美元的。

支撑特斯拉车价一降再降的当然是成本的控制。但是,马斯克和特斯拉还是过于迷信软件和AI的力量了。对于自动驾驶的“长尾问题”,特斯拉认为靠AI和超级计算机能解决,这都是有问题的。就算完成了99%,最后的1%依然是不可跨越的鸿沟。

此外,已经有外媒认为,美国本土的传统车企通用 汽车 将在2021年超越特斯拉,原因就在于特斯拉在自动驾驶方面已经落后,特别是又在“纯视觉”的路线上一条道走到黑。

传感器融合才是未来

就纯视觉的局限来说,有业内人士认为,在一些极端的场景中是无法满足对于感知探测能力的KPI指标的。比如一些复杂的天气情况,如大雨、大雾、沙尘、强光、夜晚,这对于视觉和激光雷达都是非常恶劣的场景,难以用一种传感器应对。主要体现在几个大的方面:

1)天气环境因素造成的视觉传感器致盲(如逆光炫目、沙尘暴遮挡等);

2)小目标物体在中低分辨率视觉感知系统中,可能造成目标晚识别(如减速带、小动物、锥桶等);

3)异形目标由于未经训练可能造成无法匹配,被漏识别(道路落石、前车掉落轮胎等);

4)视觉传感器本身的识别要理要求,对于视觉识别的高算力需求等。

就算一些自动驾驶测试或比较成熟厂商,在智能驾驶中也多次发生撞车事故,为传感器系统的失效付出惨痛代价。所以,传感器融合是构建稳定感知系统的必要条件。毕竟,视觉感知能力有局限,必须结合毫米波雷达或激光雷达做优势互补才能实现。

回头来说,这次特斯拉的内测BUG里面,但凡有一个场景没有人类驾驶员眼明手快接手的话,就会演变成为交通事故。这能让人放心吗?特斯拉的车主们也忒心大了。

此外,我们知道,摄像头如何感知深度只是自动驾驶问题的一部分。特斯拉依靠的最先进的机器学习只是识别模式,这意味着它会在新情况下挣扎。一挣扎,就会产生误判。

与人类司机不同的是,如果系统没有遇到场景,它就无法推理该做什么。“任何AI系统都不了解实际发生的事情,”研究自动驾驶 汽车 计算机视觉的康奈尔大学副教授克里安·温伯格(Kilian Weinberger)如此表示。

还有一点是,虽说,FSD 9.0给智能辅助驾驶系统是创造了更广阔的应用场景,但是,在L2级别的驾驶辅助系统(而不是自动驾驶系统)这个前提下,这些功能多少仍显得有些鸡肋,因为驾驶过程中根本无法脱手。而且,人类驾驶员不仅需要手握方向盘,还需要在城市道路上与车载电脑系统较劲,增加了额外负担和心理压力。

FSD BETA V9.0的这些内测BUG会在实际道路上反复出现,毫无疑问这为城市交通也制造了更多的隐患。不过,这套系统能不能用在更加复杂的中国的开放道路上?公社的小伙伴中还是有对特斯拉超有信心的,“大家都没开过,怎么知道行不行呢?”是啊,是骡子是马,特斯拉总会拉出来遛遛。

免责申明:以上内容属作者个人观点,版权归原作者所有,不代表恩施知识网立场!登载此文只为提供信息参考,并不用于任何商业目的。如有侵权或内容不符,请联系我们处理,谢谢合作!
当前文章地址:https://www.esly.wang/diannao/12954.html 感谢你把文章分享给有需要的朋友!
上一篇:我们为什么要注册并使用微信使用朋友圈,新号怎么注册微信 下一篇:车装监控摄像头防砸,摄像头怎么安才防盗

文章评论