Waymo 共享用于机器学习的自动驾驶数据集

自动驾驶技术公司 Waymo (该公司归 谷歌 母公司 Alphabet 所有)发布了一个 数据集 ,其中包含自动驾驶汽车在 5 个多小时的驾驶过程中收集到的传感器数据。该数据集包含了 激光定位器 和摄像头在多个城市和郊区环境的多种驾驶条件下收集的高分辨率数据,其中还包含车辆、行人、骑行者和路标的标签。

Waymo 团队在一篇博文中宣布发布 Waymo Open Dataset ,并称其为“有史以来发布的最大、最丰富和最多样化的研究用自动驾驶数据集之一”。这些数据是由 Waymo 在美国凤凰城、阿兹州、柯克兰、西弗吉尼亚州、山景城、加利福尼亚州和旧金山市的车辆在不同时间、不同天气情况下收集的。该数据集有 1000 个数据段,每段 20 秒,以 10Hz 的频率收集(也就是 200000 帧),其中包括:

  • 从五个激光定位器和正面及侧面的五个摄像头同步的数据
  • 传感器标定和姿态
  • 所有激光定位器画面的 3D 边界框都有对象标签(车辆、行人、骑行者和路标)
  • 100 个数据段的摄像头数据的 2D 边界框有对象标签

Waymo 还发布了一个 谷歌Colab 笔记本 ,包含教程和一个 GitHub 存储库 ,而后者又包含用于构建模型的 TensorFlow 辅助代码。这个巨大的标记数据集可以用于检测障碍物和交通标志的模型的监督机器学习,这是任何自动驾驶汽车的关键能力。激光定位器虽然可以生成一个点云图来定位三维空间中的物体,但它无法检测颜色,因此完全看不到路标上的字母。二维摄像头图像缺乏距离信息,但来自多个摄像头的图像可以通过处理 重建深度 。虽然 Elon Musk 认为 激光定位器是“不必要的”,但将激光定位器的 3D 数据与 2D 摄像头数据相结合,可以简化在图像中检测障碍物距离的过程。

Lyft 上个月 公布 了一个类似的数据集 Lyft Level 5 (以 SAE 驾驶自动化的最高级别 命名)。Lyft 的数据集包含 5.5 万帧,大约是 Waymo 的四分之一;与 Waymo 的数据集相比,Lyft 获取每一帧数据所使用的摄像头更多(7 个)、激光定位器则更少(3 个)。两家公司都希望他们的数据能被研究团体用来改进算法和模型。Lyft 在发布会上特别强调了学术研究,并计划利用他们的数据集赞助一场机器学习竞赛。

毫不奇怪,这两个数据集都只允许用于非商业用途。Lyft 遵循 知识共享署名- 非商业性共享 许可。Waymo 的许可非常严格,甚至禁止“在车辆运行或协助车辆运行时”使用。 Twitter 上的一位用户 指出,虽然 Waymo 将数据集描述为“开放的”,但许可协议“不符合开放的定义”。

虽然从某种意义上说,自动驾驶汽车已经成为现实——Waymo 的自动驾驶出租车已经在凤凰城运营了两年多——而且 研究表明 ,在未来,机器人汽车能够拯救生命,但目前还不清楚它们是否已经“为进入黄金时代做好了准备”。Waymo 的出租车总是有一个人在方向盘后面作为安全备份,而且自动驾驶软件有时会给乘客带来痛苦的体验。科技新闻网站 The Information 调查了 7 月和 8 月 1 万多次 Waymo 旅程中乘客的 评分和反馈 。尽管 70% 的旅程获得了完美的评分,与今年第一季度相比有所改善,但一些乘客抱怨说,自动驾驶的体验“让人不舒服,而且非常令人担忧”。其他乘客抱怨说,这些车选择了迂回的路线,导致他们迟到。

人工智能研究人员、Roomba 联合创始人 Rodney Brooks 表示 ,他预计在 2032 年之前不会出现真正的机器人出租车服务:

对无人驾驶汽车可行性的真正考验,不是在测试或演示中,而是在无人驾驶出租车、拼车服务或供终端消费者的自行驾驶汽车停车的停车场的所有者真正从中赚钱时。

原文链接:

Waymo Shares Autonomous Vehicle Dataset for Machine Learning