使用平行的属性网络模块化自动驾驶中的控制策略网络

作者简介:许倬,UC Berkeley博士在读,研究方向包括机器学习、增强学习、控制理论及其在机器人和自动驾驶等领域的应用。

目前神经网络控制策略在机器人和自动驾驶的领域中都被广泛探索和应用,因为这些使用模仿学习和增强学习等方法所训练的策略网络相比于传统的控制方法具有相当多的优势。首先,神经网络可以表示非常复杂的模型;其次,多种驾驶场景和模式可以同时、全面地影响策略网络的训练;此外,相比于线上优化的方法,策略网络的执行往往更快。但是,策略网络的实际应用收到一系列限制,其中一个非常重要的问题则是训练和知识迁移的困难性。

以以下的一个驾驶案例为例(见下图),假设我们对于第一个驶向既定目标地的任务训练了一个输入维度为10维的策略网络。假设我们新增添了一个躲避障碍物的属性,而这个属性新增添了5维的信息输入,那幺我们需要新训练一个15维输入的神经网络。而由于我们对于神经网络的内部运转的无知性,尽管这两个任务非常相似,我们也无法复用任何已有知识而只能完全重新训练新的策略网络。同理,假设我们新增添一个限速的属性,而它又带来了新的5维输入,我们又不得不重新训练一个新策略网络。

图1. 三个典型的类似的驾驶任务,但是对于他们的策略网络(非层级结构神经网络),没有知识可以被复用,因此每个新任务需要重新训练一个新的策略网络

因此我们的工作目标是建立起一套依据任务属性的策略网络模块化系统,从而达到对于不同的驾驶属性,如车道保持,障碍物躲避和交通规则,每一个属性模块分别给出相关指示,而这些指示共同给出一个整体的驾驶指令。如下图所示车道保持模块首先吸取车道相关信息,并且给出相应的驾驶建议;障碍躲避模块吸收障碍物信息,交通规则模块吸收交通规则相关的信息,它们都给出和相应属性相关的驾驶要求。最后,整个属性网络整合所有属性模块的要求,给出最终的驾驶指令,亦即策略网络的输出。

图2. 平行的属性网络的各模块的结构示意图 我们提出的平行属性网络目标即为实现这一功能。这种层级结构的策略网络用一个独立的神经网络来充当此前描述的属性模块,该神经网络的输入为该属性相关的信息,而输出特定的驾驶要求。为了解释不同属性网络的输出,我们首先把各个属性分为两类,一类是基础的车道保持属性,另一类是附加的属性,如避障、遵守交通规则等。对于基础的车道保持属性,相应的属性模块充当一个纯车道保持策略网络,输出一个当前时刻的驾驶命令,如下图红色向量所示。而对于其他的附加属性,相应的属性模块则输出一个在驾驶命令空间里的属性集,这个属性集被定义为,如果驾驶命令属于该属性集,则这一驾驶属性可以被满足,对于某两个属性,下图中的蓝色和黄色椭圆内的空间表示了这两个属性集。最后,平行属性网络执行一个投影,将红色向量指代的最初的指令向量投影到所有属性集的交集中得到最终的指令,亦即图中的绿色向量,即求得距离原指令最近的满足所有属性的命令。

图3. 平行属性网络的内部运行方式 我们进行了详尽的仿真与实车实验验证了所提出的方法的有效性和优越性。在第一组实验的训练中,我们使用了线性属性集假设,并且使用了增强学习和模仿学习的方法训练了各个属性网络,并且将各个属性网络组合起来作为策略网络去控制无人车执行了很多未经训练的驾驶任务。我们主要考察了查车道保持、避障、遵守红绿灯和限速等常见驾驶属性,下图展示了若干未经直接训练,而是直接通过属性模块组合而成的策略网络执行相关任务时的驾驶行为示意图。我们的实验证明了:(1)使用模块化方法,高维的驾驶任务可以被降级成很多低维的属性,从而更容易训练;(2)平行属性网络可以动态处理不同任务造成的不同维度的网络输入;(3)对于一些未被训练的任务,通过组合以训练的属性模块,我们可以得令人满意的策略网络。

图4. 平行属性网络作为策略网络控制无人车车道保持同时服从红绿灯

图5. 平行属性网络作为策略网络控制无人车车道保持同时服从限z

图6. 平行属性网络作为策略网络控制无人车躲避障碍物同时服从红绿灯和限速

理论上,各个属性模块的训练可以使用增强学习和模仿学习,并且对于模仿学习,训练集可以来自于人类标注或者理论计算结果。我们在实验中比较了增强学习、模仿学习、以及用于生成模仿学习训练集的专家执行者的表现,如下图所示。这一实验说明,增强学习可以得到比模仿学习更好的效果,这也是本方法的突出优势之一。

图7. 增强学习、模仿学习training log以及生成模仿学习数据集的专家执行者的表现对比 最后,我们还进行了实车实验,验证了我们的方法可以实时地控制无人车执行驾驶任务。实车实验中我们使用平行属性网络作为控制策略在仿真空间中生成一系列参考轨迹,再使用控制器控制无人车沿着轨迹形势,这一部分工作主要整理发表在[2]文中。实验表明,使用我们的平行属性网络作为路径规划单元的控制系统可以控制无人车实时执行变道避障任务,下图主要定性展示展示无人车在执行变道避障时的行为以及车载监控视角的表现。

图8. 变道避障实车实验的现场照片以及车内监控视角示意图

(具体方法及更详尽的分析请参考论文)

[1] Zhuo Xu, Haonan Chang, Chen Tang, Changliu Liu, and Masayoshi Tomizuka, “Toward Modularization of Neural Network Autonomous Driving Policy Using Parallel Attribute Networks”in IEEE Intelligent Vehicles Symposium (IV), June. 2019

[2] Chen Tang * , Zhuo Xu * , and M. Tomizuka, “Disturbance Observer based Tracking Controller for Neural Network Driving Policy Transfer”, to appear in IEEE Transactions on Intelligent Transportation Systems in 2019.