尽管该模型很精确,但是它也还是存在一系列达 15.8% 的错误率。然而,通过分析错误的例子,研究者发现其中 48% 是由于现实场景就是错的。这突显出新模型与标记质量平分秋色(对错误率完整的分析可参见论文)。 与提取街道数字的系统结合后,这个新系统让我们可以从图像中直接创造出新的地址,要知道这些街道名字或是地址的位置在事先是不知道的。现在,只要一台街景车开到任何一条新修的街道上,谷歌的深度学习系统就可以分析被捕获的成千上万张图像,atv,提取街道名字和数字,并且适当的在谷歌地图上自动创造和定位新的地址。 但是,自动创造地址对于谷歌地图来说还不够——研究人员在未来希望能够依据名字来提供对商户的导航。2015 年,谷歌发表了「从街景图像中发现大规模商户(论文地址:https://arxiv.org/abs/1512.05430)」的论文,它为人们提供了一个可以在街景图像中精确探测商户标牌的方法。 通过使用不同的训练集,谷歌用于读取街道名字的模型架构也同样可被用于从商户外墙上精确提取商户名字。在这个例子中,深度学习系统可以仅提取这样的商户名字:它们让开发者可以验证自己是否已从谷歌地图中知道了这家商户。这种提取商户名的功能让开发者们可以更精确地持续更新商户变化的情况。 尽管没有从图片名称中获取任何有关真实地址的信息,系统还是识别出了商户名「Zelina Pneus」。模型也没有被商户名旁边的轮胎品牌(普利司通)所迷惑。 将超过 800 亿张街景图使用这一模型处理是一个十分耗费计算能力的任务。对此,谷歌 Ground Truth 团队使用了,极大地解决了计算机资源的耗费。 人们依赖于谷歌地图的协助,而让地图随着城市、道路与商业区域的成长而同步更新仍然是一个非常有挑战性的任务。谷歌 Ground Truth 团队将会继续努力,将更多机器学习技术带给谷歌地图的用户。 论文:Attention-based Extraction of Structured Information from Street View Imagery 论文链接:https://arxiv.org/abs/1704.03549 我们提供了一个神经网络模型——基于 CNN、RNN 和一种全新的注意机制,它在 FSNS 数据集挑战中达到了 84.2% 的准确率,大大超过了此前最好的模型(Smith, 2016;准确率 72.46%)此外,新的模型比旧模型更加简单,也更具通用性。为了展示新模型的能力,我们让它在更具挑战性的谷歌街景图数据集中读取商户名。最后,我们研究了在不同 CNN 深度的情况下速度/准确性的变化趋势,我们发现更深并不一定意味着更好(在准确性和速度上都是这样)。我们的最终模型简单、快速而且准确,可以在具有挑战性的真实世界环境中应用于多种不同任务。 原文链接:https://research.googleblog.com/2017/05/updating-google-maps-with-deep-learning.html ↓↓↓ (责任编辑:本港台直播) |