8 ਖ਼月 10 日,宁波高架发生一起小鹏∴ P7 追尾致人死亡的事 故。
👽
发生事故的∑原因主要有两点,一是被撞车辆是静止的。二是被撞人员站在车后。离车很近的地方是水泥护¶栏,还有一个人蹲着,离被撞车很近。
即便这次事故,车主没有开启 NGP 功能,AEB 系统也应该起作用,但上述的原因≈让 AEBà 系Ä统失效了。
Λ 有人可能会说时速 ←80 公里超出了 A'EB 的上限,早期的 AEB 系统的确如此,上限一般是时速 60 公里。
2020 年后的新一代 AE⋅B 则不然,在速度上限内是刹÷停,也就是刹车力度会达到最大,超过上Η限则是减速。
以特斯拉为例,如减速 5∩0 公里,那么系统则在时速 110 公里情况下触发 AEB,最多减速至时速 60 Ξ公里。
Î 有∂些如奔驰Ã,AEB 速度上限高达时速 110 公里。
还有些车型把这一部分单独☎抽出,称之为碰撞缓解,实际就是加ⓐ强ੈ版的 AEB。
੪ 只减速不刹停,这样做也是为了避免高速情况下后车™ⓢ的追尾。
ñ
蔚来和特斯拉都发生过撞静止车辆的事故,特斯拉的次数尤其多,多次撞向白色Ρ卡车和消ઠ防车。
在封闭场ચ地测试时,我们可以看到静å止车辆或行人都能触发 AEB,即使最憨廉价的车型都能做到刹停。
但ਨ为何在Ú真实道路上,遇到静止目标时,AEB 不Ó行了?
❄
Ð 0¡1
分离动»态ψ目标的常见三种方੭法
我们先从先从图像识别流程和运用目标分¦离方法来看看自动驾驶系☜统是如↔何识别和处理障碍物的。
上图为机器视觉的处理流程,੧其主要过程为输入图像,对输入的ૢ图像进行ⓙ预处理。
预处理之后的图像,再对其进行 ROI 区域检测或者异常检测,对已经检Þe;测出来的区域进行特征提取分类识别等。°
系统对运动目标是需要特别重视的,会优先处理运动目标੬,因此第一步要将运动目标从背景图中分割出来κ,有些系统为了避免误动作,干脆将静态目标过滤掉。
分离动态目标最常见的三种方法是帧差法、Î光流法和ⓚ背景差法。
考虑到实时性和成本,目前业内大多采用帧差法。这种方法∴对运算资源消耗最少,最容易达到§实时性ਖ਼,但缺点准确度不高。
所♬谓帧差法,即检测相邻帧∪之间的像素变化。
帧差法的基本思想是:运动目标视频中,可☎以根”据时间提取出系列连续的序列图像,在这些相邻的序列图像中,背景的像素变化较小,而运动目标的像素变化较大,利用目标运动导致的像素变化差,则可以分割出Η运动目标。
帧Û差法可以Φ分为两Μ帧差分法与三帧差分法。
☎
ⓔ 两帧差分ì法
三帧差分¶≤法
两帧差分法b3;就是将视频采集到时序列图像的相邻两帧图像进行差分。
对ੇ相邻的两帧图像进行差分,可以在任→何具有复杂的图像特征જ (例如,纹理特征、灰度均值等) 上进行。
因此,只要明显区别与⇔背景的运动物体均…可检测出来。
根⇑据给定的阈值,对差分结果二值Æ化:❄
若差值图像大于给½定ੋ阈值,则认为该像素点是前景目标中的点,并将该像素点作为运≤动目标的一部分;
若差值图像小于给定阈值,则认为સ该ષ像素点属于背Ν景目标点,从而将运动目标从背景目标中分割出来。
图像进行阈值分割之后,通常÷都带有噪声,因此需要使用形态学滤波的方法对噪声进行衰减。衰减噪声后得到的图像运动目标会存在一°些空洞,☞需要进行连通性处理,最后才得到判别目标。
阈值设定太低,检测不到目标。设定×太高,会被检测ψ为两ü个分开的物体。
同时对于◑比较大、颜色一致的运动目标,如白色大货车,帧间差分法会在目标内☞部产生空洞,无法完整分割提取运æ动目标。
分离出动态目♡标,对目标进行识别并探测其距离,如果动态目标都已经处理完毕,这才开始处理静态目标。而在封闭场地测试场ગ里,只有一个目标,很轻松就能分离出背'景,只处理静态目标。
而在真实道路上,静止目标比移动目标的检测要晚大约 2 到• 4 秒,ੇ这次发生事故时,小鹏 P7 的时速是 80 公里,也就是 44 到 88 米。
光流法是利用图像序列▥中像素在时间域上的变化以及相邻帧之间的相关性,来找到上一帧跟当前€帧之间શ存在的对应关系,从而计算出相邻帧之间物体的运动信息。
研究光流场的目的就是为了从图片序列中近似得到不能直接得到的运动场,其本质是◐一个二维向量场,每个向量表示场景中ê该点从前一帧到后一帧的位移。对光流的求解,即输入两张连续图象(图象像素),输出二◯维向量场。
除了智能驾驶,体育比赛中各种球类的轨迹预测,军事行动Ç中的目标轨迹预测都能Æ用到。
光流场是运动场在二维图像平面上的投影。因੬为立体双目和激光雷达∇都是 3D 传感器,而单目或三目是 ¬2D 传感器,所以单目或三目的光流非常难做。
光流再分为稀疏和稠密(Dense)两种,稀疏光流对部分特征点进ćf;行光流解算¢,稠密光流则针对的是所有点的偏移。
最常见的光流算法即 KLT 特征追踪,早期ૣ的光流算法都是稀疏光流,◊手工模型或者说传统算法。
2015 年有人提出深度学习光流ષ法,在 CVPR2017 上发表改进版本 FlowNet2.0,成为当时最先ƒ进的方法。截止到现在,FlowNet 和 F‰lowNet2.0 依然是深度学习光流估计算法中引用率最高的论文。
Ąe; 传统算法计算资源消耗少,实时性好,效果ਯ比较均衡,但鲁棒性„不好。
深度学习消耗大量的运算资源⇑,⁄鲁棒性好,但容ગ易出现极端,即某个场景非常差,但无法解释,与训练数据集关联程度高。
即使强大的英伟ⓔ达 Orin 芯片,在 FlowNet2.0 上也无法做到ઘ实时性,毕竟 ÅOrin 不能只做光流这一件事。
γ光流法比帧差法准确度要高,但会大量消耗Θ运算资源。
b3;ⓓ0˜2
ⓥ4ઢD 毫米波雷达会ⓟ漏检吗?
四种毫⇓米波雷达性Ąf;能对比
目前典型的 ੨76GHz 毫米波−雷达的带宽是 5ⓐ00GHz
大部分毫米波雷达的ય带宽是 500MHz,也就是 0.5GŒHz,目标分离度是 150 厘米。
也就ª是说,1.5 米内的两个目标,毫米波雷达会识别成一个——这次小鹏 P7 发生的事故也是如此,车辆很靠近水泥á护栏,很有可能会被认为是一个目标。
特斯拉最近也在研发毫米波雷达,其带宽应该是 500MHz,全球最先进的 4D 毫米波雷达થ即大陆▣汽车的 ARSΑ540,也是 500MHz。
博世还未量产的 ¦4D 毫米૨波雷达是 867MHz,比特斯拉和大陆都要好,缺点可能是功耗太高,射♫频输出功率达到惊人的 5495 毫瓦,整体功耗估计有 30-60 瓦。
ARS540 的射频输出功率是 1143 毫瓦,整体功耗大概 10 瓦。这对一个ϑ一直常开的传感器来Ι说功耗似乎太高了Τ。
再有就⋅是虽然 60GHz 以ⓘ上波段无需牌照,但૯超过 1GHz 的带宽,可能还是会有监管,在没有明确政策出台前,业界不敢研发这种高宽带雷达,万一禁止就白研发了。
ੈ 因为目标分离度ç的问题,我估计厂家为了避免误动作,未必敢将 4D 毫米波雷达单独做ƿ为 AEB 的触发条件,肯定要以视觉为准。
除了静止目标原c8;因外,这次小鹏 P7 在事故Æ发生前,被撞者走到车尾。这就形成了一个很罕见的目标,既像车又像行人,在这种情况下,就会出现漏检ਮ。
☏ 03
基于单◘目、三目ⓛ的机器视觉,有着天然缺陷૨
基于单目或三目的机器视觉,有着天然的无法改变d3;的缺陷,这个缺陷表现为识别或者说分类与探测是一体的,无法Ņ分割,特别是基ੇ于深度学习的机器视觉。
∴ 也就是说,如果系ç统©无法将目标分类(也可以通俗地说是识别),也就无法探测。
换句话说,如果系👿统无法识别目标,就认为目标不存在。车辆会认为前™方ઐ无障碍物,会不减速直接撞上去。
¨
< 什么状况下无法识别?∂
Ô Āf; 有两种情况↑:
第一种是训练数据集无法完全覆♡盖真实世界的全部目标,能覆盖 10% 都已ⓤ经称得上优秀了,更何况真实世界每时每刻都在产生着新的不规则目标。
深度学习这种穷∏举法有致命缺陷。特斯拉多次事故都å是如此,比如在中国两次在高速公路上追尾扫地车(第一次致人死亡),在美国多次追尾消防车。
ø
第二种是图像缺乏纹理特征,比如💼在摄像头前放一张白纸,自然识别不出来是什么物体。某些底盘高的大货车侧面,就如同 白纸,基于深度学习的机器视觉此时就如同盲人,不减速直接撞上去。
在以深度⌊学习为核心的Ąf;机器视觉里,边界框(Boundલing Box)是关键元素。
在检测任ࢮ务中,我们需要同时预测物体的类别和位置,因此需要引入一些与位置相关的概念。通常使用边界框来表示物体的位置,边界框是正好能包含物体的矩形框。
对单Ǝ目、三目来说,其机ૣ器视Ë觉如下图:
ੈ ષ£ 那么立体双目呢?
双目可以准确识别出中央隔离带,无论怎么用深度学习、单目·、虚拟双目,单目和三目在这种大面积੭空洞无纹理特征的车侧和车顶图像前,就如σ同瞎子,什么也看不到。
Û
事实上,特斯拉ષ也有撞上中央隔离带致人死亡的事故。
立体双目的流&#ffe0 ;程Ú是这样的,如下图ⓞ:
੧ 最后输出可行驶空间(free space),与单目、三目完全不同,它不需”要识别,自然也不需要画出 Bounding Box。
双ੇ目也有⌊缺点,运算量太高。当然,双目不需要 AI 运⇔算。
尽管只有奔þ驰和丰田用英伟达处理器处理立体双目ਠ,新造车势力除了 RIVIAN,目前都不使用立体双目(小鹏、小米可能在将来使用立体双目),但英伟达每一次硬件升级都不√忘对立体双目部分特别关照。
英伟达立体双目处理流程,立体双目视差的获得Ν需要多Ó种运算资源的参加,包括了 VIC、GPU(CUDA)、CPU 和Κ PVA。
英伟达 Orin 平台立体ú双目视差测试成绩,要达到每秒 30 帧,那么处理时间必须低于 30 毫秒,考虑a1;到还有后端决策与控制系统的延迟,处⊃理时间必须低于 20 毫秒。
1 个σ下取样情Φ况下,显然无法满足 3Ċa;0 帧的要求。
4 个下取样,不加置信度图时,单用 OFA 就可以满足。加置信图后,需³要 OFA/PVA/VIC ⓑ联手,也能满足 30 帧需求。但这只是 200 万像素的情况下,300 万像素估计就γ无法满足了。
奔驰的立体双目是 ♤170 万像ñ素,输出视差图的边缘精度不会太高,有效距离也不会太远。如本文开头所说的状况,估计可以减速,但难以刹ા停,反应时间不够。
可以说,除了立体双目系统,遇到☼这次小鹏 P7 事故这ⓞ样的怪异θ目标,都会漏检。
’0›4
€ς激光雷达能પ否避免这类事故的发生?
那么,装ÿ了激光雷达会不会避免这个事故Σ?
bd; ࠽ 恐怕也不¼能。
目前主流的激光雷达也是基于深度学习的,纯深度学习视觉遇到的问题,激光雷达也会遇到,±无◙法识别就画不出 Bounding੪ Box,就认为前面什么都没,不减速撞上去。
主ⓜ流Ω的激光雷ળ达算法经历了三个阶段:
第一阶ð段是 Po‹int¶Net
第二阶段Á是ü Voxe∫l
第三阶段是ćf; PointPill∇aÍr
P—ointPillar 少了 Z 轴切割,而是使用 2D👽 骨干,这导致其精度下降,性能相较于纯 2D 的视觉,提升੫并不明显。这也就是为什么特斯拉不使用激光雷达。
而不依赖深度学习、具备可解释性的多ઙ线激光雷达算法,目前还未见面世。博世、奔驰和丰田在研究,这会是一个À漫长的过程。શ
深度学习太好用了,不到半年¹,一´个普通大学生就可以熟ε练调参。
深度学κ习淘汰了几乎所有的传统☺算法。Π
« 眼下,几ⓙ乎没有人研究激光雷达的传统算法,比如激â光雷达的强度成像。
目前,智能驾驶最d3;关键的问题是过于依赖不具备解释性的深度学习,或者说深度神经网络,也就是大•家常૧说的 AI——这可能导致无人驾驶永远无法实现。
ੇ“掌”握科技鲜闻 (微信搜索techsina或扫描左Γ侧二维码关注)
Äξ
新浪科技é
新∝浪ⓓ科♠技为你带来最新鲜的科技资讯
苹ƒ果汇⊃
苹果汇°为你带来æ最新鲜的苹果产品新闻
新▨à浪ⓛ众测
新酷će;产品d3;第™一时间免费试玩
࠽
ⓨ新☜浪探索
提供ਰ最新的科学家®新ૠ闻,精彩的震撼图片
新浪科技ૄ意见反馈留言板á
All Rightsિ Re⊃served 新浪公司 版权所有