阅读时间大约8分钟（2828字）

2024-07-06 理想硬控车圈1小时：无图NOA全国都能开，端到端+VLM决策更像人

来源：理想汽车

7月内全量推AD Max用户。

文 | 王磊

编辑 | 秦章勇

昨晚，理想开了一场智能驾驶夏季发布会，与其说是发布会，更像一场理想汽车的AI Day。

复盘整场活动，技术干货满满，甚至有点过于干了。。

从推送“全国都能开”的无图NOA，再到后半场的基于端到端模型、VLM视觉语言模型和世界模型的全新自动驾驶技术架构。

或许因为纯技术类解读，李想本人并没有在发布会露面。看来自理想MEGA发布以来，李想越来越低调，但理想汽车的斗志却越来越强了。

理想拉齐“无图化”

这次的发布会，最重磅的莫过于理想的智能驾驶迎来拐点——无图NOA，并将在7月内全量推送。

这次升级虽然覆盖了理想MEGA和理想L9、理想L8、理想L7、理想L6全部车型，但仅限AD Max版本。

理想有两套独立智驾方案，分别是“AD PRO”和“AD MAX”，具体到车型也很好区分，理想L系列MAX版以上搭载都是”AD MAX“高阶智驾，具备城区和高速NOA功能；PRO、AIR车型搭载的都是”AD PRO“智驾，具备高速NOA功能。

从这次的发布会的重点来看，只是针对AD MAX方案的优化。

而且直接和众多友商看齐：全国都能开，不论城市主干道、小道还是乡间，能导航的地方都可以使用。

在发布会上，理想汽车还展示了一张在全国范围内，在18点到20点这两个小时之间使用无图 NOA的用户数据，根据他们的位置，形成了一张轨迹图，以此来佐证理想汽车的无图NOA真正具备了全国都能开的能力。

最新的无图NOA相比过去的版本，BEV、感知能力、规控能力，还有整体系统能力得到全面提升，特别是将纯视觉的OCC占用网络升级为Lidar与视觉前融合的占用网络，具备分米级的微操能力，从而精准识别更大范围内的不规则障碍物，感知精度更高。

做到“全国都能开”，是因为无图的概念就代表着不再依赖高精地图或先验信息，在以往的智驾决策中理想打了个比方，就像背后很多“小机器人”在运行，可能有一些“小机器人”需要一些先验信息，也就是需要导航数据的先验信息进行决策。

而通过运用BEV算法的感知能力进行一系列技术复合决策，并将摄像头拼接的周边环境、道路信息、导航提供的轨迹和数据信息全部合并在一起，形成超视距能力，在行驶的过程中就可以生成最优路线，不再过多依赖“先验”信息。

另外，新系统采用了全新的时空规划算法，使整体决策变得果断，从而表现出第二个特点———绕行能力强。

绕行能力是评价城市 NOA 的一个重要指标，因为其在实际驾驶中应用的场景非常频繁，比如遇到动静态的障碍物，优秀的绕行能力可以巧妙化解，绕行能力弱就只能陷入无尽的等待，甚至接管。

这里理想汽车衍生出了时间和空间的概念，通过横纵（前后左右）同步规划，能够持续预测自车与他车的空间交互关系，并规划出“未来一段时间窗口内”的所有可行驶的轨迹，筛选出最优最高效的轨迹。

这样一来，即便是在复杂路口也能轻松通过，仿佛拥有了“上帝视角”，也是其另一个特点——路口轻松过。

搞定“高频低危”

理想汽车表示，今年上半年，理想汽车人类驾驶的事故率降低了30%，期间理想 AD Max 主动安全系统共为用户规避了36万起潜在事故，且AEB误触发率降低到小于 30万公里。

而且对于道路上的潜在威胁，理想汽车做了一个「安全风险场景库」，按照从低危到高危、从低频到高频的顺序排开，把风险场景分成了 9 种类型。

理想汽车高级副总裁范皓宇表示，去年推送的 OTA 5.0 已经能够应付「低频高危」和「中频中危」这两个部分的威胁。

如今推送的OTA 6.0 就是要提升车辆在高频低危场景下的能力。

比如在经过复杂路口，理想汽车的AEB（自动紧急制动）系统能够全面覆盖行人、两轮车和三轮车等典型障碍物，无论它们从左、右或前方靠近，系统都能及时响应。

而且系统内设计了安全阈值，一旦有障碍物侵占了理想汽车的安全系统区间，都会启动AEB帮助用户主动刹停。如果出现了在盲区的车辆，自己的车辆侵占了对方的安全性空间，同样会主动刹停。

另外就是高速上的夜间行驶，周围基本上没有光照的情况下，夜间AEB尤为关键。如果前方不远处有一辆货柜车停着静止不动，没有开灯、没有反光条，这样的场景下，AD Max的AEB能做到120公里时速完全刹停。

理想汽车还提供了全自动AES（自动紧急转向）功能，以应对“消失的前车”这种极端场景。

比如说，以非常快的速度在高速上行驶时，突然前车急刹停或者避让，因为距离太近无法及时停下时，这种情况下AES（自动紧急转向）就会介入，车辆会减速并执行避让功能，进一步提升了安全的上限。

最后，还提供了全方位低速AEB（自动紧急制动），主要针对泊车和低速行车场景。

在日常的高频低速场景中，特别在地库停车环境复杂的情况下，可能会出现比如柱子、墩子或者低速的行人增加剐蹭风险，全方位低速AEB就能识别来自前向、后向和侧向的碰撞风险，及时紧急制动。

当然，从安全性的功能上看，可以说是全方位无死角的保护，但是在实际应用中出现误报和误刹也是一个不小的困扰，这一点仍需要后续的实际体验。

双系统支持

除了7月内推送无图 NOA，理想汽车还在发布会的后半程提出来一个灵魂拷问：真正实现自动驾驶的技术方案是什么样的？

理想给出的答案，也是端到端大模型，不过理想认为如果面对中国复杂路况，只有端到端不够。

基于此，理想提出来一个全新的方案：E2E（端到端大模型）+VLM（视觉语言模型）。

有意思的是，这个方案的灵感还是来源于认知心理学的原理，诺贝尔奖获得者丹尼尔·卡尼曼在《思考，快与慢》中，使用系统 1 和系统 2 的理论来解释了人类决策和思考的过程。

系统1是人根据自己过去的经验和习惯形成的直觉，可以做出快速的决策，比如“1+1=2”的问题系统2就是一个思维推理能力，人需要经过思考或推理才能解决这种复杂的问题和应对未知的场景。

简言之，系统1和系统2相互配合，构成了人类认知和理解世界、做出决策的基础。

那么，系统1和系统2是如何类比到自动驾驶中的？很简单，端到端是系统一，作为主决策者，VLM视觉语言模型，当作系统2，可以理解为系统1的“冗余”。

这么理解就简单了，运用端到端技术处理泛化的场景，而VLM视觉语言模型作为系统2，则具备一些逻辑思考的能力，会在一些复杂情况下验证“端到端”的决策，最终实现车辆的兜底或控制。

按照理想汽车智能驾驶技术研发负责人贾鹏的说法，人开车的时候其实都是系统1在工作，可能只有 5%的情况，会使用系统 2。

理想汽车也表示，届时会有两颗Orin-X分别负责系统一和系统二。

如今端到端大家都知道是怎么回事，但理想提出的VLM视觉语言模型还很新鲜的。

VLM视觉语言模型可以看做是一个统一的Transformer模型，参数量能达到22亿，Prompt（提示词）文本进行Tokenizer（分词器）编码，并将前视相机的图像和导航地图信息进行视觉信息编码，再通过图文对齐模块进行模态对齐，最终统一进行自回归推理，输出对环境的理解、驾驶决策和驾驶轨迹，传递给系统1辅助控制车辆。