自动驾驶

0 推荐

335 浏览

0评论

福特美国工厂投资3.5亿美元 SUV和自动驾驶并重

自动驾驶

物联网类国产女汉子 2017-03-30 17:53 发表了文章来自相关话题

盖世汽车讯据外媒报道，为满足全新福特Ranger和Bronco的生产及移动化发展需求，福特计划在美国三家工厂投资12亿美元。此次投资也是福特两大战略的践行，一是增加卡车及SUV的产品线；二是增加在自动驾驶和智能网联领域的投资。

据悉，福特将在密歇根Wayne装配工厂投资8.5亿美元用于卡车及SUV生产设备的重整；在Romeo引擎工厂投资1.5亿美元用于扩大产能；在Flat Rock装配工厂投资2亿美元用于组建一个数据中心，该数据中心未来将主要负责处理机器人汽车的相关信息。另外，福特在今年一月份曾表示将在Flat Rock工厂投资7亿美元。

此次投资也是在2015美国汽车工人联合协议（United Auto Workers）之外，福特另外增加的高达3.5亿美元的投资。其中福特将向Flat Rock数据中心增加2亿美元的投资，而向密歇根装配工厂的设备升级预算当中增加1.5亿美元。根据2015协议，福特计划在2019年之前在美国工厂的投资至少达到90亿美元。

福特表示，此次投资将为Romeo引擎工厂增加或保留130份工作岗位，而密歇根经济发展公司（MEDC）在备忘录中透露，福特的投资将为当地增长100份全新工作。福特目前还没有透露大概会为密歇根装配工厂增加多少份工作，但MEDC表示现有的3600份工作岗位是可以得到保障的。福特一月份发布的在Flat Rock 工厂投资的7亿美元将为当地增加700份全新工作岗位，而福特也没有透露新建数据中心之后能增加多少份工作岗位。

密歇根战略基金委员会也同意向Flat Rock和密歇根工厂支付1200万美元的津贴，并为三家工厂免除1895万美元的不动产税。据悉，密歇根战略基金委员会是半公开的政府组织，同时也是MEDC的一个组成部分。

此外，福特星期二发布的投资计划也是遵循特朗普政府对于美国车企的要求。特朗普曾要求美国及外资车企在美国建设工厂和增加就业岗位。在此次投资正式公布之前，美国总统也在推特上发布动态表示出对于福特投资的肯定。

Wayne和 Romeo工厂的重组与扩充将在明年正式开始，将用于生产2019及2020款车型。据悉，Flat Rock数据中心的建设将从今年年底开始，建成之后将成为福特的第二个数据中心，而第一个数据中心目前正在福特全球总部附近建设当中。福特预计到2021年，其数据存储需求与现有的储能相比要扩大15倍。

此外，本田北美于星期一晚间宣布将在本田阿拉巴马工厂投资8500万美元，该工厂主要负责Odyssey、Pilot SUB、Ridgeline皮卡和讴歌MDX的生产，且雇佣员工总数超过4500名。

更多内容请关注：www.imefuture.com

来源：盖世汽车社区阳万顺查看全部

盖世汽车讯据外媒报道，为满足全新福特Ranger和Bronco的生产及移动化发展需求，福特计划在美国三家工厂投资12亿美元。此次投资也是福特两大战略的践行，一是增加卡车及SUV的产品线；二是增加在自动驾驶和智能网联领域的投资。

据悉，福特将在密歇根Wayne装配工厂投资8.5亿美元用于卡车及SUV生产设备的重整；在Romeo引擎工厂投资1.5亿美元用于扩大产能；在Flat Rock装配工厂投资2亿美元用于组建一个数据中心，该数据中心未来将主要负责处理机器人汽车的相关信息。另外，福特在今年一月份曾表示将在Flat Rock工厂投资7亿美元。

此次投资也是在2015美国汽车工人联合协议（United Auto Workers）之外，福特另外增加的高达3.5亿美元的投资。其中福特将向Flat Rock数据中心增加2亿美元的投资，而向密歇根装配工厂的设备升级预算当中增加1.5亿美元。根据2015协议，福特计划在2019年之前在美国工厂的投资至少达到90亿美元。

福特表示，此次投资将为Romeo引擎工厂增加或保留130份工作岗位，而密歇根经济发展公司（MEDC）在备忘录中透露，福特的投资将为当地增长100份全新工作。福特目前还没有透露大概会为密歇根装配工厂增加多少份工作，但MEDC表示现有的3600份工作岗位是可以得到保障的。福特一月份发布的在Flat Rock 工厂投资的7亿美元将为当地增加700份全新工作岗位，而福特也没有透露新建数据中心之后能增加多少份工作岗位。

密歇根战略基金委员会也同意向Flat Rock和密歇根工厂支付1200万美元的津贴，并为三家工厂免除1895万美元的不动产税。据悉，密歇根战略基金委员会是半公开的政府组织，同时也是MEDC的一个组成部分。

此外，福特星期二发布的投资计划也是遵循特朗普政府对于美国车企的要求。特朗普曾要求美国及外资车企在美国建设工厂和增加就业岗位。在此次投资正式公布之前，美国总统也在推特上发布动态表示出对于福特投资的肯定。

Wayne和 Romeo工厂的重组与扩充将在明年正式开始，将用于生产2019及2020款车型。据悉，Flat Rock数据中心的建设将从今年年底开始，建成之后将成为福特的第二个数据中心，而第一个数据中心目前正在福特全球总部附近建设当中。福特预计到2021年，其数据存储需求与现有的储能相比要扩大15倍。

此外，本田北美于星期一晚间宣布将在本田阿拉巴马工厂投资8500万美元，该工厂主要负责Odyssey、Pilot SUB、Ridgeline皮卡和讴歌MDX的生产，且雇佣员工总数超过4500名。

更多内容请关注：www.imefuture.com

来源：盖世汽车社区阳万顺

0 推荐

347 浏览

0评论

激光雷达传感器：助力自动驾驶汽车

自动驾驶

智能科技类盛世流光 2017-03-23 15:44 发表了文章来自相关话题

建立自动驾驶车辆系统需要很多部件，但其中一个比其他的更重要且更有争议性。这一重要部件就是激光雷达传感器。

这是一种通过向四周环境发射激光束，并接收反射光束来感知周围3D环境的装置。由Alphabet，Uber和丰田公司进行测试的自驾车在很大程度上依赖激光雷达，帮助他们在详细的地图上定位，并识别行人和其他车辆。最好的传感器能够在100米以外的地方观测到几厘米的细节。

在自驾车的商业化竞争中，大多数公司认为激光雷达必不可少（特斯拉是个例外，因为它仅依赖摄像头和雷达）。雷达传感器在弱光和强光条件下看不到太多的细节。去年，一辆特斯拉汽车撞到一辆拖拉机拖车，导致驾驶员丧生，主要原因是自动驾驶软件未能区分拖车车身和明亮的天空。丰田公司负责自动驾驶的副总裁Ryan Eustice最近告诉我，这是一个“开放性问题”——一个不那么先进的自动驾驶安全系统，没有它是否可以正常运行。

但自动驾驶技术发展如此之快，以至于新兴产业正在遭遇雷达滞后的问题。生产和销售激光雷达传感器在以前是一项相对小众的业务，且这项技术要作为数以百万计的汽车标准件，还显得不够成熟。

你看一眼现在的自动驾驶原型车，就会发现一个很明显的问题：激光雷达传感器体积偏大。这就是为什么Waymo和Alphabet的自驾车单元所测试的车辆顶部都有一个巨大的黑色圆顶，而丰田和Uber的车顶有一个咖啡罐大小的激光雷达。

激光雷达传感器还十分昂贵，每件成本数千甚至数万美元。接受测试的大部分车辆都装有多个激光雷达。尽管道路上测试车辆数量相对较少，但需求也已成为一个问题。据The Information上周报告称，激光雷达制造商正在努力跟上，新的激光雷达传感器交付期至少为六个月。

这一切都有助于解释上个月Waymo对Uber提起的诉讼。Waymo称，有证据表明，他们的一个顶级工程师Anthony Levandowski在离开他们，开始创建Otto之前，窃取了自定义激光雷达传感器的设计，此自驾车公司后来被Uber收购。

去年我参观Otto的车库时，Otto另一个创始人Lior Ron告诉我，Otto建立自己的传感器是因为市场上的传感器不具备让18轮卡车在高速公路上自动驾驶的探测范围和功能。Waymo表示Otto的技术实际上是由他们自己的团队耗资数千万美元开发的。因而用了比前几年成本低90%多的成本做出了用途更大的传感器。

设计出更好的激光雷达是Waymo使自驾车成为大众市场且盈利计划的核心内容。公司已开发出三种不同的传感器，可在不同的范围内寻找目标。激光传感器技术将和Waymo其他自动驾驶技术共同授权给现有的汽车制造商。

Waymo不是唯一一家斥资数百万解决雷达滞后问题的公司。去年，福特和百度都投资了自驾车，在世界领先激光雷达供应商Velodyne共同投资了1.5亿美元。该公司正在圣荷西建造“巨型工厂”，计划明年开始生产激光雷达。

自动驾驶汽车产业的很多人仍然认为，要重新设计激光雷达才能实现真正的实用。Velodyne是众多公司中的一个，他们致力于实现无需旋转镜直接把激光束射出去的设计。用电路改变激光投射方向，称为固态激光雷达，这种设计应该更便宜，体积更小，更强大，因为他们没有移动部件。

这是个尚未被充分证明的理论。去年12月Velodyne的报告称，这个项目已取得“突破”使激光雷达价格低至50美元，但它没说什么时候提供固态激光雷达。去年获得9000万美元资金的初创公司Quanergy称，他们今年将在马萨诸塞州的一家工厂生产固态激光雷达传感器，以250美元的价格销售，但他们的进展详情还不清楚。汽车零部件供应商Continental 和Valeo正致力于他们类似的技术，但他们称将会在两三年内才能进入市场。

汽车制造商，包括福特和宝马都表示，他们希望在2021年之前能够大批量生产自动驾驶汽车。那些汽车的性能，成本和外观都将随着固态激光雷达的改进而改变，所有这些对今天的原型都至关重要。

更多内容请关注：www.imefuture.com

来源：战略前沿查看全部

建立自动驾驶车辆系统需要很多部件，但其中一个比其他的更重要且更有争议性。这一重要部件就是激光雷达传感器。

这是一种通过向四周环境发射激光束，并接收反射光束来感知周围3D环境的装置。由Alphabet，Uber和丰田公司进行测试的自驾车在很大程度上依赖激光雷达，帮助他们在详细的地图上定位，并识别行人和其他车辆。最好的传感器能够在100米以外的地方观测到几厘米的细节。

在自驾车的商业化竞争中，大多数公司认为激光雷达必不可少（特斯拉是个例外，因为它仅依赖摄像头和雷达）。雷达传感器在弱光和强光条件下看不到太多的细节。去年，一辆特斯拉汽车撞到一辆拖拉机拖车，导致驾驶员丧生，主要原因是自动驾驶软件未能区分拖车车身和明亮的天空。丰田公司负责自动驾驶的副总裁Ryan Eustice最近告诉我，这是一个“开放性问题”——一个不那么先进的自动驾驶安全系统，没有它是否可以正常运行。

但自动驾驶技术发展如此之快，以至于新兴产业正在遭遇雷达滞后的问题。生产和销售激光雷达传感器在以前是一项相对小众的业务，且这项技术要作为数以百万计的汽车标准件，还显得不够成熟。

你看一眼现在的自动驾驶原型车，就会发现一个很明显的问题：激光雷达传感器体积偏大。这就是为什么Waymo和Alphabet的自驾车单元所测试的车辆顶部都有一个巨大的黑色圆顶，而丰田和Uber的车顶有一个咖啡罐大小的激光雷达。

激光雷达传感器还十分昂贵，每件成本数千甚至数万美元。接受测试的大部分车辆都装有多个激光雷达。尽管道路上测试车辆数量相对较少，但需求也已成为一个问题。据The Information上周报告称，激光雷达制造商正在努力跟上，新的激光雷达传感器交付期至少为六个月。

这一切都有助于解释上个月Waymo对Uber提起的诉讼。Waymo称，有证据表明，他们的一个顶级工程师Anthony Levandowski在离开他们，开始创建Otto之前，窃取了自定义激光雷达传感器的设计，此自驾车公司后来被Uber收购。

去年我参观Otto的车库时，Otto另一个创始人Lior Ron告诉我，Otto建立自己的传感器是因为市场上的传感器不具备让18轮卡车在高速公路上自动驾驶的探测范围和功能。Waymo表示Otto的技术实际上是由他们自己的团队耗资数千万美元开发的。因而用了比前几年成本低90%多的成本做出了用途更大的传感器。

设计出更好的激光雷达是Waymo使自驾车成为大众市场且盈利计划的核心内容。公司已开发出三种不同的传感器，可在不同的范围内寻找目标。激光传感器技术将和Waymo其他自动驾驶技术共同授权给现有的汽车制造商。

Waymo不是唯一一家斥资数百万解决雷达滞后问题的公司。去年，福特和百度都投资了自驾车，在世界领先激光雷达供应商Velodyne共同投资了1.5亿美元。该公司正在圣荷西建造“巨型工厂”，计划明年开始生产激光雷达。

自动驾驶汽车产业的很多人仍然认为，要重新设计激光雷达才能实现真正的实用。Velodyne是众多公司中的一个，他们致力于实现无需旋转镜直接把激光束射出去的设计。用电路改变激光投射方向，称为固态激光雷达，这种设计应该更便宜，体积更小，更强大，因为他们没有移动部件。

这是个尚未被充分证明的理论。去年12月Velodyne的报告称，这个项目已取得“突破”使激光雷达价格低至50美元，但它没说什么时候提供固态激光雷达。去年获得9000万美元资金的初创公司Quanergy称，他们今年将在马萨诸塞州的一家工厂生产固态激光雷达传感器，以250美元的价格销售，但他们的进展详情还不清楚。汽车零部件供应商Continental 和Valeo正致力于他们类似的技术，但他们称将会在两三年内才能进入市场。

汽车制造商，包括福特和宝马都表示，他们希望在2021年之前能够大批量生产自动驾驶汽车。那些汽车的性能，成本和外观都将随着固态激光雷达的改进而改变，所有这些对今天的原型都至关重要。

更多内容请关注：www.imefuture.com

来源：战略前沿

1 推荐

307 浏览

0评论

特斯拉的自动驾驶至死的调查结果

自动驾驶

其它类 EasonYY 2017-02-04 13:52 发表了文章来自相关话题

2016年电动汽车和自动驾驶技术这两个领域里最重要的事件一定都包括了这起车祸致死案。

今天，美国高速公路管理局(简称NHTSA)结束了对于2016年3月全球首起自动驾驶致死事故的调查案件。历经6个月调查，NHTSA判断这起特斯拉(Tesla)ModelS车祸中，特斯拉的自动驾驶系统Autopilot并没有缺陷，也不需要进行安全召回。同时他们还发现，在Autopilot系统中的Autosteer功能开启以后，特斯拉汽车的事故率降低了40%，而Autosteer是Autopilot最重要的部分，它能够在常规条件下实现对汽车的自动驾驶。

2016年5月9日，美国俄亥俄州40岁男子JoshuaBrown，一名前海豹突击队队员，特斯拉的狂热粉丝，死于一起ModelS与大货车相撞的惨烈车祸，当时汽车的自动驾驶系统Autopilot处于开启状态，而有证人证明撞车前车内传出电影声。

对于这起全球首例在自动驾驶情况下致人死亡的车祸，特斯拉在1个多月后才向公众披露，并发布事故报告，其中有如下描述：

按照我们的标准流程，在事故发生后的第一时间，特斯拉就通报了NHTSA。根据我们了解的情况，当时ModelS行驶在一条双向、有中央隔离带的公路上，自动驾驶处于开启模式，此时一辆拖挂车以与ModelS垂直的方向穿越公路。在强烈的日照条件下，驾驶员和自动驾驶都未能注意到拖挂车的白色车身，因此未能及时启动刹车系统。由于拖挂车正在横穿公路，且车身较高，这一特殊情况导致ModelS从挂车底部通过时，其前挡风玻璃与挂车底部发生撞击。假使当时车辆发生的是正面撞击或追尾事故，即便在高速行驶条件下，ModelS先进的防撞系统都极有可能避免人员伤亡的发生，因为在此前的很多起事故中，ModelS都有过如此表现。

需要指出的是，特斯拉自动驾驶功能在默认状态时是关闭的，而在被开启前，驾驶员都会被要求选择接受，车辆才能开启自动驾驶功能。这一系统是一项新的技术和处于公开测试阶段。根据选择页面的说明，自动驾驶“是一项辅助功能，要求驾驶员双手始终握住方向盘”。此外，每一次自动驾驶启动时，车辆都会提醒驾驶员“请始终握住方向盘，准备随时接管”。系统还会时刻检查以确保驾驶员双手不离方向盘。如果系统感应到驾驶员双手已离开方向盘，车辆则会显示警示图标或发出声音提醒，并逐步降低车速，直至感应到双手在方向盘上。

2016年电动汽车和自动驾驶技术这两个领域里最重要的事件一定都包括了这起车祸致死案。它让人们第一次从狂热的技术崇拜和对未来大数据生存方式的美好愿景中抬起头来正视一个这样的现实：任何企图改变现有运行方式的改革都有着无法避免的阵痛，对于未来导向的生活方式来说，技术普及初期的不稳定，使用条件和使用环境的不协调、不适应就是这种阵痛难以避免的原因。

在对于这起事故的调查里，NHTSA的缺陷审查部门获得了所有2014年到2016之间出厂的ModelS和ModelX里程及安全气囊的相关数据，这些数据包括所有出厂配置自带Autopilot的车型以及通过系统升级而具备Autopilot功能的车型，并分析启用Autosteer前后，平均每百公里的事故(Crash)数量。最终结论是，启用了Autosteer以后，事故比例下降了40%，从每百公里1.3起事故降低为0.8起。

安装Autosteer前后百公里事故数据对比

在自动驾驶技术方面，特斯拉是主张从半自动驾驶逐渐过渡到全自动驾驶阶段的，对于自动驾驶系统，恰当的使用再辅以适当的人工介入将会比较安全，而Waymo等则打算一步到位的实现全自动驾驶，他们认为人工控制与系统自动驾驶的切换存在安全隐患。显然这次调查的结论有力的支持了特斯拉的技术观点。

在NHTSA的调查中，他们重现了事故现场，经过测试认为，ModelS的Autopilot至少要在识别障碍物以后7秒钟才会采取措施，因此这再次验证了调查的主要结论，Autopilot和其他的ADAS(自动驾驶辅助)系统一样，需要驾驶者对驾驶环境保持持续而专注的观察才能有效避免事故。在审查了ModelS的人机交互页面设置以后，NHTSA认为特斯拉对于驾驶者应如何使用Autopilot系统的提示是充分的，因此系统的整体设计是没有缺陷的。而驾驶者应该仔细的阅读相关的使用规则并执行。

不过事后，业内对于Autopilot这类系统命名方式还是产生了很大的争论，类似于自动驾驶仪这样的名字很可能让消费者产生误解，认为自己可以不用管，汽车能够自动驾驶。

无论如何，NHTSA的调查对于自动驾驶技术的研发和推广来说是个好消息，如果责任被推到自动驾驶系统的头上，特斯拉等技术开发商估计会很头疼。查看全部

2016年电动汽车和自动驾驶技术这两个领域里最重要的事件一定都包括了这起车祸致死案。

今天，美国高速公路管理局(简称NHTSA)结束了对于2016年3月全球首起自动驾驶致死事故的调查案件。历经6个月调查，NHTSA判断这起特斯拉(Tesla)ModelS车祸中，特斯拉的自动驾驶系统Autopilot并没有缺陷，也不需要进行安全召回。同时他们还发现，在Autopilot系统中的Autosteer功能开启以后，特斯拉汽车的事故率降低了40%，而Autosteer是Autopilot最重要的部分，它能够在常规条件下实现对汽车的自动驾驶。

2016年5月9日，美国俄亥俄州40岁男子JoshuaBrown，一名前海豹突击队队员，特斯拉的狂热粉丝，死于一起ModelS与大货车相撞的惨烈车祸，当时汽车的自动驾驶系统Autopilot处于开启状态，而有证人证明撞车前车内传出电影声。

对于这起全球首例在自动驾驶情况下致人死亡的车祸，特斯拉在1个多月后才向公众披露，并发布事故报告，其中有如下描述：

按照我们的标准流程，在事故发生后的第一时间，特斯拉就通报了NHTSA。根据我们了解的情况，当时ModelS行驶在一条双向、有中央隔离带的公路上，自动驾驶处于开启模式，此时一辆拖挂车以与ModelS垂直的方向穿越公路。在强烈的日照条件下，驾驶员和自动驾驶都未能注意到拖挂车的白色车身，因此未能及时启动刹车系统。由于拖挂车正在横穿公路，且车身较高，这一特殊情况导致ModelS从挂车底部通过时，其前挡风玻璃与挂车底部发生撞击。假使当时车辆发生的是正面撞击或追尾事故，即便在高速行驶条件下，ModelS先进的防撞系统都极有可能避免人员伤亡的发生，因为在此前的很多起事故中，ModelS都有过如此表现。

需要指出的是，特斯拉自动驾驶功能在默认状态时是关闭的，而在被开启前，驾驶员都会被要求选择接受，车辆才能开启自动驾驶功能。这一系统是一项新的技术和处于公开测试阶段。根据选择页面的说明，自动驾驶“是一项辅助功能，要求驾驶员双手始终握住方向盘”。此外，每一次自动驾驶启动时，车辆都会提醒驾驶员“请始终握住方向盘，准备随时接管”。系统还会时刻检查以确保驾驶员双手不离方向盘。如果系统感应到驾驶员双手已离开方向盘，车辆则会显示警示图标或发出声音提醒，并逐步降低车速，直至感应到双手在方向盘上。

2016年电动汽车和自动驾驶技术这两个领域里最重要的事件一定都包括了这起车祸致死案。它让人们第一次从狂热的技术崇拜和对未来大数据生存方式的美好愿景中抬起头来正视一个这样的现实：任何企图改变现有运行方式的改革都有着无法避免的阵痛，对于未来导向的生活方式来说，技术普及初期的不稳定，使用条件和使用环境的不协调、不适应就是这种阵痛难以避免的原因。

在对于这起事故的调查里，NHTSA的缺陷审查部门获得了所有2014年到2016之间出厂的ModelS和ModelX里程及安全气囊的相关数据，这些数据包括所有出厂配置自带Autopilot的车型以及通过系统升级而具备Autopilot功能的车型，并分析启用Autosteer前后，平均每百公里的事故(Crash)数量。最终结论是，启用了Autosteer以后，事故比例下降了40%，从每百公里1.3起事故降低为0.8起。

安装Autosteer前后百公里事故数据对比

在自动驾驶技术方面，特斯拉是主张从半自动驾驶逐渐过渡到全自动驾驶阶段的，对于自动驾驶系统，恰当的使用再辅以适当的人工介入将会比较安全，而Waymo等则打算一步到位的实现全自动驾驶，他们认为人工控制与系统自动驾驶的切换存在安全隐患。显然这次调查的结论有力的支持了特斯拉的技术观点。

在NHTSA的调查中，他们重现了事故现场，经过测试认为，ModelS的Autopilot至少要在识别障碍物以后7秒钟才会采取措施，因此这再次验证了调查的主要结论，Autopilot和其他的ADAS(自动驾驶辅助)系统一样，需要驾驶者对驾驶环境保持持续而专注的观察才能有效避免事故。在审查了ModelS的人机交互页面设置以后，NHTSA认为特斯拉对于驾驶者应如何使用Autopilot系统的提示是充分的，因此系统的整体设计是没有缺陷的。而驾驶者应该仔细的阅读相关的使用规则并执行。

不过事后，业内对于Autopilot这类系统命名方式还是产生了很大的争论，类似于自动驾驶仪这样的名字很可能让消费者产生误解，认为自己可以不用管，汽车能够自动驾驶。

无论如何，NHTSA的调查对于自动驾驶技术的研发和推广来说是个好消息，如果责任被推到自动驾驶系统的头上，特斯拉等技术开发商估计会很头疼。

0 推荐

366 浏览

0评论

业界 | 谷歌自动驾驶公司Waymo展示新车型，计划明年上路

人工智能

自动驾驶

机械自动化类 jingjing 2016-12-20 15:08 发表了文章来自相关话题

克莱斯勒已经完成了 100 辆 Pacifica 小型休旅车，这些车将于 2017 年加入 Waymo 车队。这些车是插电混合动力型车的变种，带有 Waymo 自动驾驶硬件和内置软件，也是菲亚特·克莱斯勒和 Waymo 今年早些时候宣布合作的一部分。

Waymo CEO John Krafcik 上礼拜曾说，公司的兴趣不在于打造更好的车，而是更好的司机。这也是 Waymo 与 FCA 合作的原因，后者并不像福特和通用这些汽车制造商一样，积极炫耀自己的自动驾驶秘笈。

Krafcik 说，「这些新的小型休旅车在测试市场上路后，我们就能从中获知各年龄、身形以及群体规模的人如何体验我们的全自动驾驶技术。公司已经在测试很多原型车，不过，这些车辆显然比其他原型车更紧密地与 Waymo 的自动驾驶硬件融合在一起。」

菲亚特·克莱斯勒发言人 Berj Alexanian 说，两家公司的合作见证了两家工程师之间的亲密合作，他们迅速并稳健地将车辆电子控制系统与全自动驾驶系统结合起来。Waymo 两百万英里的自动驾驶测试几乎都用的是带有谷歌自动驾驶硬件的雷克萨斯 SUV。

FCA 和 Waymo 工程师修改了 Pacifica 的电子动力系统以及结构系统，让小型休旅车适于 Waymo 的自动驾驶技术。两家公司已经在位于密歇根和亚利桑那的切尔西测试场地以及位于加州的 Waymo 设施场地测试了 Pacifica 的原型，包括 200 小时极端天气下的测试。

Berj Alexanian 说，「Waymo 直接学习一家汽车制造商的车辆研发过程中所需要的一手材料，比如优化重力分布以确保舒服的驾驶体验以及在极端天气条件下的持久性测试。」

据彭博报道，两家公司或许会在自动拼车服务方面展开合作，可能会在 2017 年末展开，而这些自动驾驶休旅车就是合作的核心部分。

自动 Pacificas 会于明年早些时候上路，可能是公司现有的位于加州、华盛顿、亚利桑那以及德克萨斯的测试市场。

来源：机器之心

更多内容请关注：

你真的知道什么是“新能源汽车”吗？最全解释看完全懂了
机器人设计中用步进电机的优点有哪些？
东芝应用VR技术打造磁共振影院
智造家

查看全部

克莱斯勒已经完成了 100 辆 Pacifica 小型休旅车，这些车将于 2017 年加入 Waymo 车队。这些车是插电混合动力型车的变种，带有 Waymo 自动驾驶硬件和内置软件，也是菲亚特·克莱斯勒和 Waymo 今年早些时候宣布合作的一部分。

Waymo CEO John Krafcik 上礼拜曾说，公司的兴趣不在于打造更好的车，而是更好的司机。这也是 Waymo 与 FCA 合作的原因，后者并不像福特和通用这些汽车制造商一样，积极炫耀自己的自动驾驶秘笈。

Krafcik 说，「这些新的小型休旅车在测试市场上路后，我们就能从中获知各年龄、身形以及群体规模的人如何体验我们的全自动驾驶技术。公司已经在测试很多原型车，不过，这些车辆显然比其他原型车更紧密地与 Waymo 的自动驾驶硬件融合在一起。」

菲亚特·克莱斯勒发言人 Berj Alexanian 说，两家公司的合作见证了两家工程师之间的亲密合作，他们迅速并稳健地将车辆电子控制系统与全自动驾驶系统结合起来。Waymo 两百万英里的自动驾驶测试几乎都用的是带有谷歌自动驾驶硬件的雷克萨斯 SUV。

FCA 和 Waymo 工程师修改了 Pacifica 的电子动力系统以及结构系统，让小型休旅车适于 Waymo 的自动驾驶技术。两家公司已经在位于密歇根和亚利桑那的切尔西测试场地以及位于加州的 Waymo 设施场地测试了 Pacifica 的原型，包括 200 小时极端天气下的测试。

Berj Alexanian 说，「Waymo 直接学习一家汽车制造商的车辆研发过程中所需要的一手材料，比如优化重力分布以确保舒服的驾驶体验以及在极端天气条件下的持久性测试。」

据彭博报道，两家公司或许会在自动拼车服务方面展开合作，可能会在 2017 年末展开，而这些自动驾驶休旅车就是合作的核心部分。

自动 Pacificas 会于明年早些时候上路，可能是公司现有的位于加州、华盛顿、亚利桑那以及德克萨斯的测试市场。

来源：机器之心

更多内容请关注：

你真的知道什么是“新能源汽车”吗？最全解释看完全懂了
机器人设计中用步进电机的优点有哪些？
东芝应用VR技术打造磁共振影院
智造家

1 投票

3 回答

785浏览

特斯拉致死事故后 ,自动驾驶如何完美？

自动驾驶

机械自动化类 kleidistorange 2016-09-28 16:49 回复了问题 • 4 人关注来自相关话题

0 推荐

600 浏览

0评论

深度 | Comma.ai首篇基于道路视频预测的自动驾驶论文（附原文及开源代码）

自动驾驶

生成转角值

对抗模型

电气控制类我是谁 2016-09-10 20:25 发表了文章来自相关话题

George Hotz及Comma.ai背景：

George Hotz于2007年首度破解iPhone，2010年成为破解索尼PS3第一人。先后在Google，Facebook实习，工作，后在Space待了4个月，2015年加入人工智能初创公司Vicarious，同年7月离开并于9月创立Comma.ai，独自在车库研究自动驾驶技术，正式宣布挑战Google，Mobileye，在今年4月该公司得到了310万美金的投资。于8月6日，George Hotz开源了其源码及论文等研究成果。

作者： Eder Santana George Hotz
末离编译
人工智能在自动驾驶上的应用，Comma.ai的策略是建立起一个代理（agent），通过模拟预测出未来路况事件来训练汽车模仿人类驾驶行为及驾驶规划能力。本论文阐述了一种我们目前研究用于驾驶模拟的方法，旨在研究变分自动编码器（Variational Autoencoder，简称VAE）及基于生成式对抗网络（generative adversarial network，简称GAN），用于实现道路视频预测的代价函数（cost function）。之后，我们训练了一种在此基础上结合了递归神经网络（RNN）的转换模型（transition model）。该优化后的模型在像素空间中虽不存在代价函数，但我们展示的方法仍能实现对多帧逼真画面的预测。

一、简介
自动驾驶汽车[1]是人工智能研究中短期内最有前景的领域之一，现阶段该技术利用了大量驾驶过程中出现的，含标签且上下文信息丰富的数据。考虑到其感知与控制复杂性，自动驾驶技术一旦得以实现，也将拓展出许多有趣的技术课题，例如视频中的动作识别以及驾驶规划。现阶段，以摄像头作为主要传感器，结合视觉处理及人工智能技术实现自动驾驶的方式在成本上占尽优势。

由于深度学习、递归神经网络的发展，虚拟与现实交互（interaction）的愈加便捷，基于视觉的控制与强化学习在以下文献[7][8][9][10]中都取得了成功。这种交互形式使得我们能以不同策略来重复测试同一个场景，并能模拟出所有可能发生的事件来训练基于神经网络的控制器。例如，Alpha Go[9]利用深度卷积神经网络（CNN）通过不断累积与自己下棋博弈的经验来预测下次的获胜概率。Go的游戏引擎能够模拟出游戏过程中所有可能演变出的结果，并用来做马尔科夫链树（Markov Chain Tree）搜索。目前，如让Go学会用游戏屏幕玩Torcs[7]或者Atari[8]，需进行数小时的训练学习。

由于学习代理难以实现与现实的穷举交互，对此目前大概有两种解决方案，其一是手动开发一套模拟器，其二是训练出预测未来场景的能力。前者的方案涉及到对物理世界的规则定义以及将现实的随机性建模的专业领域，但此类专业知识已经涵盖了所有与控制相关的信息，基本覆盖了现有如飞行模拟器[11]，机器人行走[12]等领域。

我们重点研究通过设置人类代理（agent）来使其自己模拟预测现实世界场景，车前挡风玻璃上安装前置摄像头作为视频流的输入。

早年是基于物理代理的状态空间 [13]来进行控制器的训练模拟，其他仅靠视觉处理的模型又只能适应低维度或纹理特征简单的视频，如游戏Atari[14][16]。对于纹理特征复杂的视频，则是通过被动视频预测（passive video prediction）来识别其中动作[17]。

本论文对现有视频预测相关文献做了补充，我们让控制器自身去训练模型并预测出逼真的视频场景，计算出低维度的压缩表示并转换成相应动作。在下一节中，我们描述了用于对实时路况拍摄的视频进行预测所用到的数据集（dataset）。

二、数据集（dataset）
我们开源了本论文中使用到的部分自动驾驶测试数据。数据集里的测试数据与comma.ai的自动驾驶汽车测试平台使用的是一致的摄像头与传感器。

我们在讴歌 ILX 2016的前挡风玻璃上安装了一个Point Grey摄像头，并以20hz频率对道路进行图像采集。释放的数据集中包含共计7.25小时的驾驶数据，分11段视频，视频帧为从捕获视频中间截取160*320像素的画面。除视频外，数据集中还包括数个传感器的数据，分别以不同频率进行测量，其中内插了100Hz，示例数据包含汽车车速、转向角、GPS、陀螺仪、IMU等。数据集以及测量设备的具体详情可以通过访问同步站点获取。

我们记录下传感器测量及捕获视频帧时的时间戳，并用测试时间及线性插入来同步传感器与视频数据。我们还发布了以HDF5格式存储的视频及传感器原始数据，该格式的选择是由于其较易于在机器学习及控制软件中使用。

本文中，将重点强调视频帧、转向角以及汽车速度。我们通过缩减像素采样原始数据得到了80*160的图像，并对图像进行了-1到1的像素微调重整（renormalizing），至此就完成了预处理。示例图像如图1所示。

在下一节中我们定义了本文旨在研究的难题。
三、问题定义（Problem definition）
xt表示的是数据集的第t帧，
Xt是帧长为n的视频表示：

St是控制信号，与图像帧直接相关：

At与车速及转向角（steering angle）相对应。

预测道路图像时定义估值函数F:


下一帧的预测结果为：

注意，该定义为高维度且各维度之间相互关联，机器学习中类似的问题也会出现如收敛速度慢或数据欠拟合（underfit）[26]的情况。有研究表明[20]，使用卷积动态神经网络（convolutional dynamic network）时，若不进行适当正则项调整（regularization），模型虽对单组数据模拟良好但对整体其他数据的预测正确率偏低。

从前的方式都是通过简单、人造的视频[14]直接训练得到估值函数F，最近，论文[20][17]表明能够预测生成纹理复杂度较高的视频，但却没有解决运动条件转移的问题，也没有生成数据的一个紧凑的中间表示。换句话说，他们的模型未经缩减像素采样也没有低维度的隐藏编码，而是完全经过卷积变换实现。但由于高维密集空间（dense space）[18]中，概率，过滤器（filter）及控制输出的定义都模糊不清（ill-defined），紧凑的中间表示（compact intermediate representation）对我们的研究工作至关重要。
据我们所知，这是第一篇试图从现实公路场景来预测后续帧视频的论文，就此，在本文中，我们决定分段学习函数F，以便能分块对其进行debug调试。

首先，我们学习了一个Autoencoder将帧数据xt嵌入到高斯隐层Zt（Gaussian latent space），

维度2048是由实验需求决定，变分贝叶斯[1]自编码（variational Autoencoding Bayes）强制执行高斯假设。第一步是将像素空间的学习转移简化为了在隐层（latent space）里的学习，除此以外，假设自编码器Autoencoder可以正确地学习隐层的高斯特性，那么只要转移模型能保证不离开嵌入空间的高密度区域，我们就能模拟出逼真的视频画面。高密度区域的超球面半径为ρ，是嵌入空间维数和高斯先验方差的函数。在下一节中我们将会开始详细介绍Autoencoder以及转移模型。

四、驾驶模拟器（Driving simulator）
考虑到问题的复杂性，我们不考虑端到端（End-to-End）的方法，而是使用分离的网络来学习视频预测。提出的体系架构基于两种模型：其一是利用Autoencoder来降维，其二是用一个RNN进行转换（transition）学习。完整的模型如图2所示。

自编码器（Autoencoder）
我们选择了一个隐层为高斯概率分布的模型来学习数据嵌入，尤其能够避免超球体内集中在原点的低概率不连续区域，这块区域的存在会妨碍隐层中对连续转换模型的学习。变分Autoencoder[1]及相关工作[19][21]在原始数据的隐层中用高斯先验模型完成了生成模型（generative model）的学习。然而，在原始数据空间中高斯假设并适用于处理自然图像，因而VAE预测得到的结果看上去会很模糊（见图三）。另一方面，生成对抗网络（GAN）[22]及相关工作[2][3]会与生成器一起学习生成模型的代价函数。因此可以对generative与discriminator网络交替训练。

generative生成模型将隐层分布的样本数据转换到了数据集中，discriminator判别网络则将数据集中的样本从发生器的所有样本中判别出来，但generator能够起到fool discriminator的作用，因此discriminator也可以视作是generator的一个代价函数。

我们不仅需要学习从隐层到道路图像空间的发生器，还要能将道路图像编码反馈回给隐层，因此就需要将VAE与GAN网络相结合。直观地说，一种简单的方式就是将VAE方法与一个代价函数直接结合。在Donahue et.al的文献[23]中，提出了一种学习生成模型并双射变换编码的双向GAN网络。Lamb et. al.[24] 提出了判别生成网络（discriminator generative networks），将先前已训练的分类器特征差异作为代价函数的一部分。最后，Larsen et.al[25]提出对VAE与GAN网络一起进行训练，这样编码器能够同时优化隐层的高斯先验模型以及由GAN网络提取出特征上的相似性。发生器会将隐层输出的随机样本作为输入，并输出编码器网络，在经优化后即可fool discriminator，并尽量减少原始图像与解码图像的相似性。判别器则始终训练以区分输入图片的真实性——判别真伪。

我们用Larsen et.al.[25]的方法来训练Autoencoder，图2中原理图展示了此模型。在其论文中所述[25]，编码器（Enc），发生器（Gen）以及判别器（Dis）网络优化后使得以下代价函数值最小：

在上面公式中，

满足编码输出分布q(z|x)与先验分布p(z)的Kullback-Liebler发散，都是VAE正则化矩阵，p(z)满足N(0,1)高斯分布，我们用reparemetrization来优化其regularizer，因此在训练过程中始终满足 z = µ + ∈σ ，在测试过程则满足z = μ（公式中 µ 和σ是编码网络的输出，∈则是与 µ、σ有相同维度的高斯随机向量）

第二项是一个由计算得到的误差值，代表的是判别网络中第l层的隐藏activation值，该值用合法图像x以及对应的编码-再解码的值Gen(Dis(x))计算得到。
假设：

即可得到：

在训练过程中，为避免步骤过于繁琐，Dis通常以常量处理。

最后LGAN是生成对抗网络（GAN）的代价[22]，代价函数表示了Gen与Dis之间的博弈关系。

当对Dis进行训练时，Enc与Gen始终保持固定值：

u是满足正态分布N(0,1)的随机变量，公式中的第一部分是Dis的对数似然函数，用于判别合法图像，剩下的两部分则是随机向量u或者编码值z = Enc（x）的对数值，用来判别是否为伪造的图像样本。

在对Gen进行训练时，Dis与Enc始终保持固定值：

表示Gen能够fool Dis判别网络,[25]等式中第二项的Enc(x)在训练过程中通常设为0。

我们对Autoencoder的训练次数为 200次，每一次迭代中包含10000的梯度更新，增量大小为64，如上一节中所述，样本从驾驶数据中随机采样。我们使用Adam进行优化[4]，自编码器网络架构参考Radford et.al[3].发生器由4层去卷基层组成，每层后紧随样本的归一化以及leaky-ReLU的激活函数。判别器与编码器由多层卷基层组成，而第一层后面紧随的是样本的归一化操作，这里用到的激活函数则是ReLU。Disl是解码器第三层卷基层的网络输出，而后再进行样本的归一化与ReLU操作。判别器的输出大小为1，它的代价函数是二进制交叉熵函数，编码网络的输出大小为2048，这样的紧凑表示（compact representation）压缩成了原始数据维度的1/16。详细信息可查看图2或本论文同步代码，样本的编码-再解码以及目标图像见图3。

在训练好Autoencoder后，我们固定了所有的权重，并以Enc作为训练转换模型的预处理步骤，我们将在下一节讨论转换模型。

转换模型（transition model）
训练Autoencoder后，我们得到了用于转换的数据集，使用Enc将xt -> zt
训练RNN： zt，ht，ct  -> Zt+1来表示编码空间的转换。

公式中的W,V,U,A为可训练的权值，ht是RNN的隐藏状态，ct 直接控制了汽车车速与转向角信号，LSTM,GRU,以及ct与zt之间的乘法迭代将在今后作进一步的研究，现在用来优化可训练权值的代价函数即是均方误差（MSE）：

显然该公式是最优的了，因为我们在训练Autoencoder时，对编码z的分布强加了Lprior的高斯约束。换句话说，均方误差会等于一个正态分布随机变量的对数值。假如预测的编码值为:

预估的画面帧就可以被表示为

我们用帧长为15的视频序列来训练转换模型，前5帧的学习结果输出后会作为后10帧学习网络的输入，即在用Enc（xt）函数计算出z1,…，z5后，继续作为后续输入，得到

再反馈继续作为输入。在RNN的文献中，将输出反馈回来继续作为输入被称作是RNN hallucination。为了避免复杂运算，我们将前者输出反馈继续作为输入过程中的梯度设为0。

五、测试结果
此次研究中，我们将大部分精力花如何能使Autoencoding架构保留住道路的纹理特征上，如上文所提，我们研究了不同的代价函数，尽管它们的均方误差都差不多，但使用GAN网络的代价函数还是得到了视觉效果最佳的结果。如图3中所示，我们展示了由两组由对应不同代价函数的训练模型产生的解码图片，不出所料，基于MSE的神经网络产生的图像很模糊，使得将多条车道标识线被错误识别成了一条长单线车道。

此外，模糊重建也无法保留前车图像的边缘，因此这种方法无法用于推广的最主要原因是难以实现测距以及与前车车距的估算。另一方面，用MSE的方式去学习绘制出弯道标识线速度比基于对抗网络的模型要快。也许在学习对带有汽车转向角信息的像素进行编码时可以可以免这个问题。我们会保留这个问题用以今后研究。

一旦我们得到了性能良好的Autoencoder，就可以开始对转换模型进行训练。预测画面帧结果如图4所示，我们用5Hz视频对转换模型进行训练，学习后的转换模型甚至在100帧后都能始终保持道路画面结构。当以不同种子帧从转换模型采样时，我们观察到了包括通过车道线、靠近前车，以及前车驶开等驾驶事件，但该模型无法模拟出弯道场景。当我们用在弯道行驶的图像帧对转换模型进行初始化时，转换模型迅速就将车道线变直，并重新开始模拟直线行驶。在此模型下，尽管像素空间中没有准确优化的代价函数，我们依然能够学习出对视频的转换。我们也相信依赖更强大的转换模型（如深度RNN、LSTM、GRU）以及上下文编码contextual encoding（传感器辅助视频采样加上转向角和速度）将会出现更为逼近现实的模拟。

本论文中释放的数据集中包含了这种方法实验过程中所有必要的传感器。

六、结论
本文介绍了comma.ai在学习汽车驾驶模拟器方面的初步研究成果，基于Autoencoder以及RNN的视频预测模型。我们并没有基于端对端（End-to-End）学习与所有事物的关联，而是先用基于生成对抗网络（GAN）的代价函数来训练Autoencoder，令其产生逼真的道路图像，而后我们在嵌入空间中训练了一个RNN转换模型。尽管Autoencoder以及转换模型的结果看起来都很逼真，但是想要模拟出所有与驾驶过程相关的事件仍需要做更多的研究。为了刺激自动驾驶上能有更深入的研究，我们发布了这份包含视频采样以及如汽车车速、转向角等传感器数据在内驾驶数据集，并开源了目前正在训练的神经网络源码。

七、参考文献
[1] Diederik P Kingma and Max Welling, “Auto-encoding variational bayes,” arXiv preprint
arXiv:1312.6114, 2013.
[2] Emily L Denton, Soumith Chintala, Rob Fergus, et al., “Deep generative image models using laplacian pyramid of adversarial networks,” in Advances in Neural Information Processing Systems, 2015.
[3] Radford, Alec, Luke Metz, and Soumith Chintala. “Unsupervised representation learning with deep convolutional generative adversarial networks.” arXiv preprint arXiv:1511.06434, 2015.
[4] Diederik Kingma and Jimmy Ba, “Adam: A method for stochastic optimization.” arXiv
preprint arXiv:1412.6980, 2014.
[5] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio, “Generative adversarial nets,” in Advances in Neural Information Processing Systems, 2014.
[6] Alireza Makhzani, Jonathon Shlens, Navdeep Jaitly, and Ian Goodfellow, “Adversarial Autoencoders,” arXiv preprint arXiv:1511.05644, 2015.
[7] Jan Koutn´ ık, Giuseppe Cuccu, Jurgen Schmidhuber, and Faustino Gomez, “Evolving large- scale neural networks for vision-based reinforcement learning,” Proceedings of the 15th annual conference on Genetic and evolutionary computation, 2013.
[8] Volodymyr Mnih, Koray Kavukcuoglu, David Silver, et al., “Human-level control through deep reinforcement learning,” Nature, 2015.
[9] David Silver, Aja Huang, Chris Maddison, et al., “Mastering the game of Go with deep neural networks and tree search,” Nature, 2016.
[10] Sergey Levine, Peter Pastor, Alex Krizhevsky, and Deirdre Quillen, “Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection,”
arXiv preprint arXiv:1603.02199, 2016.
[11] Brian L Stevens, Frank L Lewis and Eric N Johnson, “Aircraft Control and Simulation: Dynamics, Controls Design, and Autonomous Systems,” John Wiley & Sons, 2015.
[12] Eric R Westervelt, Jessy W Grizzle, Christine Chevallereau, et al., “Feedback control of dynamic bipedal robot locomotion,” CRC press, 2007.
[13] HJ Kim, Michael I Jordan, Shankar Sastry, Andrew Y Ng, “Autonomous helicopter flight via reinforcement learning,” Advances in neural information processing systems, 2003.
[14] Junhyuk Oh, Xiaoxiao Guo, Honglak Lee, et al., “Action-conditional video prediction using deep networks in atari games,” Advances in Neural Information Processing Systems, 2015.
[15] Manuel Watter, Jost Springenberg, Joschka Boedecker and Martin Riedmiller, “Embed to control: A locally linear latent dynamics model for control from raw images,” Advances in Neural Information Processing Systems, 2015.
[16] Jurgen Schmidhuber, “On learning to think: Algorithmic information theory for novel com- binations of reinforcement learning controllers and recurrent neural world models,” arXiv preprint arXiv:1511.09249, 2015.
[17] Michael Mathieu, Camille Couprie and Yann LeCun, “Deep multi-scale video prediction beyond mean square error,” arXiv preprint arXiv:1511.05440, 2015.7
[18] Ramon van Handel, “Probability in high dimension,” DTIC Document, 2014.
[19] Eder Santana, Matthew Emigh and Jose C Principe, “Information Theoretic-Learning Autoencoder,” arXiv preprint arXiv:1603.06653, 2016.
[20] Eder Santana, Matthew Emigh and Jose C Principe, “Exploiting Spatio-Temporal Dynamics for Deep Predictive Coding,” Under Review, 2016.
[21] Alireza Makhzani, Jonathon Shlens, Navdeep Jaitly and Ian Goodfellow, “Adversarial Autoencoders”, arXiv preprint arXiv:1511.05644, 2015.
[22] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, et al., “Generative adversarial nets,” Advances in Neural Information Processing Systems, 2014.
[23] Jeff Donahue, Philipp Krahenb ¨ uhl and Trevor Darrell, “Adversarial Feature Learning,” ¨ arXiv preprint arXiv:1605.09782, 2016.
[24] Alex Lamb, Vincent Dumoulin Vincent and Aaron Courville, “Discriminative Regularization for Generative Models,” arXiv preprint arXiv:1602.03220, 2016.
[25] Anders Boesen Lindbo Larsen, Søren Kaae Sønderby, Hugo Larochelle and Ole Winther, “Autoencoding beyond pixels using a learned similarity metric,” arXiv preprint arXiv:1512.09300, 2015.
[26] Jose C Principe, Neil R Euliano, W Cur Lefebvre, “Neural and adaptive systems: fundamentals through simulations with CD-ROM” John Wiley

文章来源于网络查看全部

George Hotz及Comma.ai背景：

George Hotz于2007年首度破解iPhone，2010年成为破解索尼PS3第一人。先后在Google，Facebook实习，工作，后在Space待了4个月，2015年加入人工智能初创公司Vicarious，同年7月离开并于9月创立Comma.ai，独自在车库研究自动驾驶技术，正式宣布挑战Google，Mobileye，在今年4月该公司得到了310万美金的投资。于8月6日，George Hotz开源了其源码及论文等研究成果。

作者： Eder Santana George Hotz
末离编译
人工智能在自动驾驶上的应用，Comma.ai的策略是建立起一个代理（agent），通过模拟预测出未来路况事件来训练汽车模仿人类驾驶行为及驾驶规划能力。本论文阐述了一种我们目前研究用于驾驶模拟的方法，旨在研究变分自动编码器（Variational Autoencoder，简称VAE）及基于生成式对抗网络（generative adversarial network，简称GAN），用于实现道路视频预测的代价函数（cost function）。之后，我们训练了一种在此基础上结合了递归神经网络（RNN）的转换模型（transition model）。该优化后的模型在像素空间中虽不存在代价函数，但我们展示的方法仍能实现对多帧逼真画面的预测。

一、简介
自动驾驶汽车[1]是人工智能研究中短期内最有前景的领域之一，现阶段该技术利用了大量驾驶过程中出现的，含标签且上下文信息丰富的数据。考虑到其感知与控制复杂性，自动驾驶技术一旦得以实现，也将拓展出许多有趣的技术课题，例如视频中的动作识别以及驾驶规划。现阶段，以摄像头作为主要传感器，结合视觉处理及人工智能技术实现自动驾驶的方式在成本上占尽优势。

由于深度学习、递归神经网络的发展，虚拟与现实交互（interaction）的愈加便捷，基于视觉的控制与强化学习在以下文献[7][8][9][10]中都取得了成功。这种交互形式使得我们能以不同策略来重复测试同一个场景，并能模拟出所有可能发生的事件来训练基于神经网络的控制器。例如，Alpha Go[9]利用深度卷积神经网络（CNN）通过不断累积与自己下棋博弈的经验来预测下次的获胜概率。Go的游戏引擎能够模拟出游戏过程中所有可能演变出的结果，并用来做马尔科夫链树（Markov Chain Tree）搜索。目前，如让Go学会用游戏屏幕玩Torcs[7]或者Atari[8]，需进行数小时的训练学习。

由于学习代理难以实现与现实的穷举交互，对此目前大概有两种解决方案，其一是手动开发一套模拟器，其二是训练出预测未来场景的能力。前者的方案涉及到对物理世界的规则定义以及将现实的随机性建模的专业领域，但此类专业知识已经涵盖了所有与控制相关的信息，基本覆盖了现有如飞行模拟器[11]，机器人行走[12]等领域。

我们重点研究通过设置人类代理（agent）来使其自己模拟预测现实世界场景，车前挡风玻璃上安装前置摄像头作为视频流的输入。

早年是基于物理代理的状态空间 [13]来进行控制器的训练模拟，其他仅靠视觉处理的模型又只能适应低维度或纹理特征简单的视频，如游戏Atari[14][16]。对于纹理特征复杂的视频，则是通过被动视频预测（passive video prediction）来识别其中动作[17]。

本论文对现有视频预测相关文献做了补充，我们让控制器自身去训练模型并预测出逼真的视频场景，计算出低维度的压缩表示并转换成相应动作。在下一节中，我们描述了用于对实时路况拍摄的视频进行预测所用到的数据集（dataset）。

二、数据集（dataset）
我们开源了本论文中使用到的部分自动驾驶测试数据。数据集里的测试数据与comma.ai的自动驾驶汽车测试平台使用的是一致的摄像头与传感器。

我们在讴歌 ILX 2016的前挡风玻璃上安装了一个Point Grey摄像头，并以20hz频率对道路进行图像采集。释放的数据集中包含共计7.25小时的驾驶数据，分11段视频，视频帧为从捕获视频中间截取160*320像素的画面。除视频外，数据集中还包括数个传感器的数据，分别以不同频率进行测量，其中内插了100Hz，示例数据包含汽车车速、转向角、GPS、陀螺仪、IMU等。数据集以及测量设备的具体详情可以通过访问同步站点获取。

我们记录下传感器测量及捕获视频帧时的时间戳，并用测试时间及线性插入来同步传感器与视频数据。我们还发布了以HDF5格式存储的视频及传感器原始数据，该格式的选择是由于其较易于在机器学习及控制软件中使用。

本文中，将重点强调视频帧、转向角以及汽车速度。我们通过缩减像素采样原始数据得到了80*160的图像，并对图像进行了-1到1的像素微调重整（renormalizing），至此就完成了预处理。示例图像如图1所示。

在下一节中我们定义了本文旨在研究的难题。
三、问题定义（Problem definition）
xt表示的是数据集的第t帧，
Xt是帧长为n的视频表示：

St是控制信号，与图像帧直接相关：

At与车速及转向角（steering angle）相对应。

预测道路图像时定义估值函数F:

下一帧的预测结果为：

注意，该定义为高维度且各维度之间相互关联，机器学习中类似的问题也会出现如收敛速度慢或数据欠拟合（underfit）[26]的情况。有研究表明[20]，使用卷积动态神经网络（convolutional dynamic network）时，若不进行适当正则项调整（regularization），模型虽对单组数据模拟良好但对整体其他数据的预测正确率偏低。

从前的方式都是通过简单、人造的视频[14]直接训练得到估值函数F，最近，论文[20][17]表明能够预测生成纹理复杂度较高的视频，但却没有解决运动条件转移的问题，也没有生成数据的一个紧凑的中间表示。换句话说，他们的模型未经缩减像素采样也没有低维度的隐藏编码，而是完全经过卷积变换实现。但由于高维密集空间（dense space）[18]中，概率，过滤器（filter）及控制输出的定义都模糊不清（ill-defined），紧凑的中间表示（compact intermediate representation）对我们的研究工作至关重要。
据我们所知，这是第一篇试图从现实公路场景来预测后续帧视频的论文，就此，在本文中，我们决定分段学习函数F，以便能分块对其进行debug调试。

首先，我们学习了一个Autoencoder将帧数据xt嵌入到高斯隐层Zt（Gaussian latent space），

维度2048是由实验需求决定，变分贝叶斯[1]自编码（variational Autoencoding Bayes）强制执行高斯假设。第一步是将像素空间的学习转移简化为了在隐层（latent space）里的学习，除此以外，假设自编码器Autoencoder可以正确地学习隐层的高斯特性，那么只要转移模型能保证不离开嵌入空间的高密度区域，我们就能模拟出逼真的视频画面。高密度区域的超球面半径为ρ，是嵌入空间维数和高斯先验方差的函数。在下一节中我们将会开始详细介绍Autoencoder以及转移模型。

四、驾驶模拟器（Driving simulator）
考虑到问题的复杂性，我们不考虑端到端（End-to-End）的方法，而是使用分离的网络来学习视频预测。提出的体系架构基于两种模型：其一是利用Autoencoder来降维，其二是用一个RNN进行转换（transition）学习。完整的模型如图2所示。

自编码器（Autoencoder）
我们选择了一个隐层为高斯概率分布的模型来学习数据嵌入，尤其能够避免超球体内集中在原点的低概率不连续区域，这块区域的存在会妨碍隐层中对连续转换模型的学习。变分Autoencoder[1]及相关工作[19][21]在原始数据的隐层中用高斯先验模型完成了生成模型（generative model）的学习。然而，在原始数据空间中高斯假设并适用于处理自然图像，因而VAE预测得到的结果看上去会很模糊（见图三）。另一方面，生成对抗网络（GAN）[22]及相关工作[2][3]会与生成器一起学习生成模型的代价函数。因此可以对generative与discriminator网络交替训练。

generative生成模型将隐层分布的样本数据转换到了数据集中，discriminator判别网络则将数据集中的样本从发生器的所有样本中判别出来，但generator能够起到fool discriminator的作用，因此discriminator也可以视作是generator的一个代价函数。

我们不仅需要学习从隐层到道路图像空间的发生器，还要能将道路图像编码反馈回给隐层，因此就需要将VAE与GAN网络相结合。直观地说，一种简单的方式就是将VAE方法与一个代价函数直接结合。在Donahue et.al的文献[23]中，提出了一种学习生成模型并双射变换编码的双向GAN网络。Lamb et. al.[24] 提出了判别生成网络（discriminator generative networks），将先前已训练的分类器特征差异作为代价函数的一部分。最后，Larsen et.al[25]提出对VAE与GAN网络一起进行训练，这样编码器能够同时优化隐层的高斯先验模型以及由GAN网络提取出特征上的相似性。发生器会将隐层输出的随机样本作为输入，并输出编码器网络，在经优化后即可fool discriminator，并尽量减少原始图像与解码图像的相似性。判别器则始终训练以区分输入图片的真实性——判别真伪。

我们用Larsen et.al.[25]的方法来训练Autoencoder，图2中原理图展示了此模型。在其论文中所述[25]，编码器（Enc），发生器（Gen）以及判别器（Dis）网络优化后使得以下代价函数值最小：

在上面公式中，

满足编码输出分布q(z|x)与先验分布p(z)的Kullback-Liebler发散，都是VAE正则化矩阵，p(z)满足N(0,1)高斯分布，我们用reparemetrization来优化其regularizer，因此在训练过程中始终满足 z = µ + ∈σ ，在测试过程则满足z = μ（公式中 µ 和σ是编码网络的输出，∈则是与 µ、σ有相同维度的高斯随机向量）

第二项是一个由计算得到的误差值，代表的是判别网络中第l层的隐藏activation值，该值用合法图像x以及对应的编码-再解码的值Gen(Dis(x))计算得到。
假设：

即可得到：

在训练过程中，为避免步骤过于繁琐，Dis通常以常量处理。

最后LGAN是生成对抗网络（GAN）的代价[22]，代价函数表示了Gen与Dis之间的博弈关系。

当对Dis进行训练时，Enc与Gen始终保持固定值：

u是满足正态分布N(0,1)的随机变量，公式中的第一部分是Dis的对数似然函数，用于判别合法图像，剩下的两部分则是随机向量u或者编码值z = Enc（x）的对数值，用来判别是否为伪造的图像样本。

在对Gen进行训练时，Dis与Enc始终保持固定值：

表示Gen能够fool Dis判别网络,[25]等式中第二项的Enc(x)在训练过程中通常设为0。

我们对Autoencoder的训练次数为 200次，每一次迭代中包含10000的梯度更新，增量大小为64，如上一节中所述，样本从驾驶数据中随机采样。我们使用Adam进行优化[4]，自编码器网络架构参考Radford et.al[3].发生器由4层去卷基层组成，每层后紧随样本的归一化以及leaky-ReLU的激活函数。判别器与编码器由多层卷基层组成，而第一层后面紧随的是样本的归一化操作，这里用到的激活函数则是ReLU。Disl是解码器第三层卷基层的网络输出，而后再进行样本的归一化与ReLU操作。判别器的输出大小为1，它的代价函数是二进制交叉熵函数，编码网络的输出大小为2048，这样的紧凑表示（compact representation）压缩成了原始数据维度的1/16。详细信息可查看图2或本论文同步代码，样本的编码-再解码以及目标图像见图3。

在训练好Autoencoder后，我们固定了所有的权重，并以Enc作为训练转换模型的预处理步骤，我们将在下一节讨论转换模型。

转换模型（transition model）
训练Autoencoder后，我们得到了用于转换的数据集，使用Enc将xt -> zt
训练RNN： zt，ht，ct -> Zt+1来表示编码空间的转换。

公式中的W,V,U,A为可训练的权值，ht是RNN的隐藏状态，ct 直接控制了汽车车速与转向角信号，LSTM,GRU,以及ct与zt之间的乘法迭代将在今后作进一步的研究，现在用来优化可训练权值的代价函数即是均方误差（MSE）：

显然该公式是最优的了，因为我们在训练Autoencoder时，对编码z的分布强加了Lprior的高斯约束。换句话说，均方误差会等于一个正态分布随机变量的对数值。假如预测的编码值为:

预估的画面帧就可以被表示为

我们用帧长为15的视频序列来训练转换模型，前5帧的学习结果输出后会作为后10帧学习网络的输入，即在用Enc（xt）函数计算出z1,…，z5后，继续作为后续输入，得到

再反馈继续作为输入。在RNN的文献中，将输出反馈回来继续作为输入被称作是RNN hallucination。为了避免复杂运算，我们将前者输出反馈继续作为输入过程中的梯度设为0。

五、测试结果
此次研究中，我们将大部分精力花如何能使Autoencoding架构保留住道路的纹理特征上，如上文所提，我们研究了不同的代价函数，尽管它们的均方误差都差不多，但使用GAN网络的代价函数还是得到了视觉效果最佳的结果。如图3中所示，我们展示了由两组由对应不同代价函数的训练模型产生的解码图片，不出所料，基于MSE的神经网络产生的图像很模糊，使得将多条车道标识线被错误识别成了一条长单线车道。

此外，模糊重建也无法保留前车图像的边缘，因此这种方法无法用于推广的最主要原因是难以实现测距以及与前车车距的估算。另一方面，用MSE的方式去学习绘制出弯道标识线速度比基于对抗网络的模型要快。也许在学习对带有汽车转向角信息的像素进行编码时可以可以免这个问题。我们会保留这个问题用以今后研究。

一旦我们得到了性能良好的Autoencoder，就可以开始对转换模型进行训练。预测画面帧结果如图4所示，我们用5Hz视频对转换模型进行训练，学习后的转换模型甚至在100帧后都能始终保持道路画面结构。当以不同种子帧从转换模型采样时，我们观察到了包括通过车道线、靠近前车，以及前车驶开等驾驶事件，但该模型无法模拟出弯道场景。当我们用在弯道行驶的图像帧对转换模型进行初始化时，转换模型迅速就将车道线变直，并重新开始模拟直线行驶。在此模型下，尽管像素空间中没有准确优化的代价函数，我们依然能够学习出对视频的转换。我们也相信依赖更强大的转换模型（如深度RNN、LSTM、GRU）以及上下文编码contextual encoding（传感器辅助视频采样加上转向角和速度）将会出现更为逼近现实的模拟。

本论文中释放的数据集中包含了这种方法实验过程中所有必要的传感器。

六、结论
本文介绍了comma.ai在学习汽车驾驶模拟器方面的初步研究成果，基于Autoencoder以及RNN的视频预测模型。我们并没有基于端对端（End-to-End）学习与所有事物的关联，而是先用基于生成对抗网络（GAN）的代价函数来训练Autoencoder，令其产生逼真的道路图像，而后我们在嵌入空间中训练了一个RNN转换模型。尽管Autoencoder以及转换模型的结果看起来都很逼真，但是想要模拟出所有与驾驶过程相关的事件仍需要做更多的研究。为了刺激自动驾驶上能有更深入的研究，我们发布了这份包含视频采样以及如汽车车速、转向角等传感器数据在内驾驶数据集，并开源了目前正在训练的神经网络源码。

七、参考文献
[1] Diederik P Kingma and Max Welling, “Auto-encoding variational bayes,” arXiv preprint
arXiv:1312.6114, 2013.
[2] Emily L Denton, Soumith Chintala, Rob Fergus, et al., “Deep generative image models using laplacian pyramid of adversarial networks,” in Advances in Neural Information Processing Systems, 2015.
[3] Radford, Alec, Luke Metz, and Soumith Chintala. “Unsupervised representation learning with deep convolutional generative adversarial networks.” arXiv preprint arXiv:1511.06434, 2015.
[4] Diederik Kingma and Jimmy Ba, “Adam: A method for stochastic optimization.” arXiv
preprint arXiv:1412.6980, 2014.
[5] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio, “Generative adversarial nets,” in Advances in Neural Information Processing Systems, 2014.
[6] Alireza Makhzani, Jonathon Shlens, Navdeep Jaitly, and Ian Goodfellow, “Adversarial Autoencoders,” arXiv preprint arXiv:1511.05644, 2015.
[7] Jan Koutn´ ık, Giuseppe Cuccu, Jurgen Schmidhuber, and Faustino Gomez, “Evolving large- scale neural networks for vision-based reinforcement learning,” Proceedings of the 15th annual conference on Genetic and evolutionary computation, 2013.
[8] Volodymyr Mnih, Koray Kavukcuoglu, David Silver, et al., “Human-level control through deep reinforcement learning,” Nature, 2015.
[9] David Silver, Aja Huang, Chris Maddison, et al., “Mastering the game of Go with deep neural networks and tree search,” Nature, 2016.
[10] Sergey Levine, Peter Pastor, Alex Krizhevsky, and Deirdre Quillen, “Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection,”
arXiv preprint arXiv:1603.02199, 2016.
[11] Brian L Stevens, Frank L Lewis and Eric N Johnson, “Aircraft Control and Simulation: Dynamics, Controls Design, and Autonomous Systems,” John Wiley & Sons, 2015.
[12] Eric R Westervelt, Jessy W Grizzle, Christine Chevallereau, et al., “Feedback control of dynamic bipedal robot locomotion,” CRC press, 2007.
[13] HJ Kim, Michael I Jordan, Shankar Sastry, Andrew Y Ng, “Autonomous helicopter flight via reinforcement learning,” Advances in neural information processing systems, 2003.
[14] Junhyuk Oh, Xiaoxiao Guo, Honglak Lee, et al., “Action-conditional video prediction using deep networks in atari games,” Advances in Neural Information Processing Systems, 2015.
[15] Manuel Watter, Jost Springenberg, Joschka Boedecker and Martin Riedmiller, “Embed to control: A locally linear latent dynamics model for control from raw images,” Advances in Neural Information Processing Systems, 2015.
[16] Jurgen Schmidhuber, “On learning to think: Algorithmic information theory for novel com- binations of reinforcement learning controllers and recurrent neural world models,” arXiv preprint arXiv:1511.09249, 2015.
[17] Michael Mathieu, Camille Couprie and Yann LeCun, “Deep multi-scale video prediction beyond mean square error,” arXiv preprint arXiv:1511.05440, 2015.7
[18] Ramon van Handel, “Probability in high dimension,” DTIC Document, 2014.
[19] Eder Santana, Matthew Emigh and Jose C Principe, “Information Theoretic-Learning Autoencoder,” arXiv preprint arXiv:1603.06653, 2016.
[20] Eder Santana, Matthew Emigh and Jose C Principe, “Exploiting Spatio-Temporal Dynamics for Deep Predictive Coding,” Under Review, 2016.
[21] Alireza Makhzani, Jonathon Shlens, Navdeep Jaitly and Ian Goodfellow, “Adversarial Autoencoders”, arXiv preprint arXiv:1511.05644, 2015.
[22] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, et al., “Generative adversarial nets,” Advances in Neural Information Processing Systems, 2014.
[23] Jeff Donahue, Philipp Krahenb ¨ uhl and Trevor Darrell, “Adversarial Feature Learning,” ¨ arXiv preprint arXiv:1605.09782, 2016.
[24] Alex Lamb, Vincent Dumoulin Vincent and Aaron Courville, “Discriminative Regularization for Generative Models,” arXiv preprint arXiv:1602.03220, 2016.
[25] Anders Boesen Lindbo Larsen, Søren Kaae Sønderby, Hugo Larochelle and Ole Winther, “Autoencoding beyond pixels using a learned similarity metric,” arXiv preprint arXiv:1512.09300, 2015.
[26] Jose C Principe, Neil R Euliano, W Cur Lefebvre, “Neural and adaptive systems: fundamentals through simulations with CD-ROM” John Wiley

文章来源于网络

年月

福特美国工厂投资3.5亿美元 SUV和自动驾驶并重

自动驾驶

激光雷达传感器：助力自动驾驶汽车

自动驾驶

特斯拉的自动驾驶至死的调查结果

自动驾驶

业界 | 谷歌自动驾驶公司Waymo展示新车型，计划明年上路

人工智能

自动驾驶

特斯拉致死事故后 ,自动驾驶如何完美？

自动驾驶

深度 | Comma.ai首篇基于道路视频预测的自动驾驶论文（附原文及开源代码）

自动驾驶

生成转角值

对抗模型

特斯拉致死事故后 ,自动驾驶如何完美？

自动驾驶

福特美国工厂投资3.5亿美元 SUV和自动驾驶并重

自动驾驶

激光雷达传感器：助力自动驾驶汽车

自动驾驶

特斯拉的自动驾驶至死的调查结果

自动驾驶

业界 | 谷歌自动驾驶公司Waymo展示新车型，计划明年上路

人工智能

自动驾驶

深度 | Comma.ai首篇基于道路视频预测的自动驾驶论文（附原文及开源代码）

自动驾驶

生成转角值

对抗模型

标签描述

相关话题

年 月

自动驾驶

标签描述

相关话题

年月