v2net（V2net如何使用）

arXiv论文“TridentNetV2: Lightweight Graphical Global Plan Representations for Dynamic Trajectory Generation“，上传于2022年3月，作者来自UC San Diego。

该文提出一个用于自主导航的动态轨迹生成框架，该框架不依赖HD地图作为底层表示。HD地图已成为大多数自动驾驶框架的关键组成部分，其中包括完整的道路网络信息，并在厘米级进行标注，包括可遍历的航路点、车道信息和交通信号。不同的是，在给定一个基于有名无实图（nominal graph）的全局规划和一个轻量级场景表示的情况下，该方法实时模拟可行自车为中心轨迹的分布。通过嵌入背景信息，如人行横道、停车标志和交通信号，这个方法在多个城市导航数据集（包括各种交叉口机动）中做到了低错误，同时保持了实时性能并降低了网络复杂性。

该文是作者之前工作“Tridentnet: A conditional generative model for dynamic trajectory generation“扩展：

作者之前引入一种轻量级地图表征的方法，显式地实施几何约束，并使用条件生成模型学习可行的轨迹。另外还给了一个新数据集 NominalScenes 1.0，用于定量验证提出的模型。如图是TridentNet 的表征，包括 OpenStreetMaps（OSM）, 局部语义地图和一个 Conditional Variational Autoencoder （CVAE）生成轨迹。

下图是本文作者提出的TridentNetV2 模型概览：这种方法使用全局规划和自动生成语义图而定义；全局规划以一个图mg表示，该图定义了道路连通性以及在给定GPS姿势或起点的情况下到达特定目的地所需的高级指令；该全局规划表征为轨迹生成模块的粗方向提示；另一方面，局部语义表示ms，描述了附近的特征，如可行驶区域、车道标记和人行道；每次接收到新自车姿势更新时，作为定位过程的一部分，mg和ms两种表征都会更新。

在每次更新期间应用CVAE方法来模拟潜轨迹p（y | m）分布，在给定全局规划和语义场景表示的情况下，该潜轨迹p（y | m）可由自车执行；其中，y={（xi，yi）}是通过地平线动态生成的轨迹，m={mg，ms}是mg和ms的联合嵌入；这些特征可以共同提供详细的语义，对场景和全局规划的信息进行编码，其帮助网络了解道路要素之间的关系。

为了解释点对点导航，并确定在交叉口是否需要左转或右转，需要一个全局规划。OpenStreetMaps生成的光栅化表示可以用来编码高级信息。基于图像的全局规划，通过GPS估计粗略姿势、IMU估计航向（偏航）和里程计数据，更新GPS测量之间的粗略车辆状态，对到特定点所需的规划编码。为了防止偏向特定方向或机动类型，利用航向执行2D旋转，在自车框架中表征该全局规划。

如图是OSM做有名无实表征：（a）光栅化表示和（b）图表示。

尽管OSM的全局规划方法可以对目的地的高级指令进行编码，但这些指令的准确性较低，并且不能提供有关车道标注和可驾驶区域的额外信息，而精确的路径跟踪和导航需要这种信息。为了结合这些上下文信息，轨迹的生成模型以局部语义场景表征为条件。

如图是自主导航的全局规划和场景表示说明：（a）使用高清地图生成的轨迹（蓝色轨迹表示规划/灰色轨迹表示完整的道路网络），（b）无高清地图情况下，基于有名无实的OSM全局规划和自动生成的语义场景表征，动态生成的轨迹（显示为绿色轨迹）。

首先，通过沿感兴趣的区域驾驶一次自动生成2D语义地图，并做必要的后处理；地图由因子 D 做离散化，并由一幅图像表示，该图像对可行驶区域、人行道、人行横道、车道标线和植被的信息进行编码。最后，考虑到上下文信息仅对有限范围内的导航必要，利用定位执行以自车为中心的坐标转换，在运行时执行L×L区域裁剪过程。然后，将这种局部语义场景表示用作模型的输入。

这种方法的一个优点是，它通过利用摄像头-激光雷达的投影几何技术来考虑具有陡坡和弯曲道路的路段。基于CVAEs的多模态特征，把其目标函数扩展去做城市驾驶场景的动态轨迹生成。该方法用图表示对全局规划进行编码。此外，引入均方误差（MSE）损失项，可以降低相对真值轨迹的误差。因此，如下为最小化的总目标函数，其中y?对应于预测的轨迹

为了解释各种道路要素之间的关系以及全局规划中的穿过/规划轨迹，在全局规划编码器中应用了自注意机制。注意操作如下定义，其中C=3，而Q、K和V是mg的线性投影，分别称为查询、键和值。

然后将多层感知（MLP）做输出的矢量化表征；得到一项全局规划hg。这个语义场景编码器生成一个语义模型的压缩表征hs。

实验提供的GT轨迹会用定位做自动注释。为了防止速度偏差，每个轨迹在训练前做内插，并延伸到30m的地平线，其特征是H=10个航路点，间距为3m。作为参考，全球规划编码信息的精度范围约为1m。另一方面，语义图框中标注的轨迹标注在2cm范围。

实验导航操作包括车道跟踪、三向和四向交叉口、U形转弯和急转弯。使用粗略的GPS估计，根据与自车最接近的匹配OSM航路点生成图信息，根据航路点的方向去旋转附近节点位置。在不依赖IMU的情况下提供OSM航路点近似值。

实验数据集NominalScenes 1.0由6128个训练样本和2864个测试样本组成，每个样本都由一个全局规划、一个局部语义场景表示、一个GT轨迹、IMU数据、一个Unix Epoch 时间戳、语义地图框架中自车的状态（精度在2cm以内）以及全局坐标系的状态（纬度和经度精度在1米以内）等组成。

其次，一个名为IntersectionScenes 1.0的新数据集在这项工作中引入，重点是评估三向和四向交叉口导航的性能。该数据集由2924个训练样本和1506个插值后的测试样本组成。

对于这两个数据集，全局规划由基于GPS的规划器生成，该规划器采用Dijkstra 最短路径搜索算法，并为光栅和图形模型分别生成表征。图形表征版包括OSM提供的停车标志、交通信号和人行横道。为了方便起见，保留了OSM中的纬度和经度信息，支持将来规划器的实现。

实验结果如下：

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 cloud@ksuyun.com 举报，一经查实，本站将立刻删除。
如若转载，请注明出处：https://www.daxuejiayuan.com/32600.html

v2net（V2net如何使用）

相关推荐