(文章来源:智车科技)
特斯拉AI高级总监Andrej Karpathy在机器学习会议上透漏也在做一些 pseudo-LiDAR 技术研究,他认为虚拟激光雷达与真实激光雷达的差距越来越小了。
最早提出“伪激光雷达”数据(pseudo-LiDAR)这个概念的论文,要追溯到2018年一篇来自康奈尔大学的技术论文,作者 Yan Wang 与 Wei-Lun Chao 均为华人,该论文提出了一种新方法来缩短纯视觉技术架构与激光雷达间的性能差距。
该论文通过改变立体摄像机目标检测系统的 3D 信息呈现形式,将基于图像的立体视觉数据转换为类似激光雷达生成的3D点云,通过数据转换切换成最终的视图格式。尽管在实验效果上,视觉还无法与激光雷达媲美,但这种新的低成本方法为视觉方案提供了一种思路。
在那之后的两年前,康奈尔大学等又陆续发表了基本该方法的视觉深度估计、目标识别,3D Packing等论文。有研究者发现,采用其新方法之后,该摄像机在目标检测方面的性能接近激光雷达,且其成本仅为后者的一小部分。以鸟瞰图而不是正视图来分析摄像机捕捉到的图像,可以将目标检测准确率提升 2 倍,从而使立体摄像机成为激光雷达的可行替代方案,且其成本相比后者要低很多。
马斯克对激光雷达的态度是不言而喻的,他认为依赖激光雷达就像行走依赖拐杖一样。而近日,特斯拉AI高级总监Andrej Karpathy 于今年举行的机器学习大会透露特斯拉也在做一些“伪激光雷达”的研究。
在此过程中,他分享了特斯拉仅用少数几个摄像头即可达到传统激光雷达精度的方法的具体案例。特斯拉不断发展的解决方案中的秘诀不是摄像头本身,而是摄像头所构建的先进处理和神经网络,可以充分理解输入的范围和质量。通过不同方向的摄像头进行拼接,视觉深度估计,再投影到鸟瞰图,作为局部导航地图使用。同时,将画面的每个像素都进行深度估计,就像激光雷达点云一样,形成3D目标检测。
特斯拉基于摄像头的方法便宜得多,并且在硬件方面更容易实现,但是需要极其复杂的算法才能将原始摄像头输入和车辆远程信息处理转换有用的信息。从根本上讲,计算机可以从一系列连续的静态图像(也称为视频)中识别车道标记,标志和其他车辆。特斯拉将计算机视觉提升到前所未有的水平,不仅分析图像,而且分析图像中的各个像素。
Karpathy说:“我们采用伪激光雷达方法,基本上可以预测每个像素的深度,并且可以投射出像素。” 随时间推移执行此 *** 作可以复制传统激光雷达系统的许多功能,但需要大量的实时处理能力才能使图像解构功能发挥作用。
车辆是实时驾驶的,因此,如果无法即时获得结果,那么拥有可以基于图像进行确定或预测的系统并没有任何好处。值得庆幸的是,特斯拉为其自动驾驶计算机的第三个主要版本构建了自己的硬件,并且专门用于运行特斯拉的代码。
特斯拉所谓的伪激光雷达解决方案正在变得越来越好。Karpathy展示了一系列类似激光雷达的世界3D地图,看起来非常像来自尖端激光雷达解决方案的结果。当然,可视化更有利于人类而不是计算机,因此并不能真正传达特斯拉在计算机视觉方面的进步有多大影响力。Karpathy说:“仅使用视觉技术和伪激光雷达方法,差距很快就会缩小。”
不过,也有专家提出了质疑,基于视觉的方法对图像清晰度有很大的依赖性,对摄像头像素以及光纤强弱影响很大,这可能是目前不好解决的问题。所以,这就要看激光雷达降价的速度更快,还是视觉算法进步的速度更快。
(责任编辑:fqj)
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)