2016年在算法方面还有另一个重大进展,某种意义上来说这使我们更接近无监督学习,即生成对抗网络(GAN)的兴起。虽然 Ian Goodfellow 早在2014年已经介绍过 GAN,但直到2016年发表了一份详细介绍深度卷积架构的论文,才是 GAN 真正被重视的开始。简单地说,GAN 由两个网络组成:一个生成器(G)和一个鉴别器(D),给定一组训练样本,G 将生成输出,而 D 将这些输出分类为与训练样本相同的分布。这样,D 能够被优化以区分训练样本和生成器网络输出的样本;反过来,该生成器网络 G 也能被优化以欺骗 D,直播,令 D 将其输出的样本误认为是训练样本。
在经过这样的训练之后,G 现在可以生成具有与训练样本非常相似的特征的样本。更深入的介绍可以参考 John Glover 在 Aylien 上的文章。Scott Reed 等在 ICML 2016 提交的论文 Generative Adversarial Text to Image Synthesis 中展示了GAN所能做到的一个令人印象深刻的例子,即使用GAN将文本转换为图像。
更近一些的成果,例如使用GAN从各种物体的2D视图生成3D视图。但一个问题是,GAN往往很难训练,虽然 OpenAI 提出过克服训练GAN的困难的一些小技巧。鉴于GAN有如此令人印象深刻的能力,许多行业里的大人物希望GAN能够通过改变传统的监督学习方法来解决迄今难以解决的问题。例如,Yann LeCun 认为,GAN将为拥有预测能力的AI铺平道路,这将赋予虚拟助理和聊天机器人必要的“常识”,从而能够以更自然的方式与人类互动。 2016年出现的另一类引起关注的生成模型是DeepMind的语音生成模型 WaveNet,图像生成模型 PixelRNN和 PixelCNN,以及视频生成模型 VPN(Video Pixel Network)。这些生成模型学习某些特征的联合概率,例如图像中所有像素的联合概率,然后根据给定的先前产生的所有像素预测下一个像素。很容易理解这种方法能够如何适用于声波和视频帧。
开源大势 实际上,以上提到的大部分研究都来自私营公司或非学术圈的非盈利组织,这表明了2016年非常明显的另一个趋势:AI发展的开放性。 小结一下:Facebook 发布了用于运行AI系统的硬件设计,FAIR以惊人的速度持续发布杰出的研究;马斯克以及其他科技巨头为OpenAI投资了10亿美元,他们出了发布研究结果还想公众开放模拟环境 universe;谷歌也在提供大量资源推动深度学习的研究,开放 TensorFlow 库等;Uber 建立了AI研究实验室,最近甚至。数据方面也同样有很大进展,几个大公司发布了大量标记数据集,这些数据集对训练深度神经网络十分重要。其中一些值得注意的数据集包括拥有500000小时带标记视频的Youtube视频数据集,以及雅虎的13.5TB的用户数据集。 合作与收购 仅今年一年,Salesforce 收购了 MetaMind 和 Prediction.IO,Uber 得到了 Geometric Intelligence,亚马逊得到聊天机器人公司 Angel.ai,英特尔公司分别收购Nervana Systems和Movidius,分别是专注深度学习计算架构和计算机视觉的创业公司,另外通用汽车公司收购了Crew Automation 自动驾驶汽车创业公司。
收购只有在其整体结果比各部分的结果加起来更有价值时才有意义。很少有其他领域能比深度学习和AI领域更适合这种情况。例如,将 MetaMind 的非常厉害的深度学习能力整合到世界上最大的 CRM 系统中,以简化或直接解决大量的重要任务,这是极好的价值增倍。这些初创公司现在所做的事情,如果它们没有与收购它们的公司合作,是不可能实现的。 硬件和芯片 我想通过对比作为深度学习核心的硬件设备和两家公司——英伟达和英特尔,来作为这篇综述的结尾。虽然英伟达的GPU仍然是在深度学习领域无可争议的市场领导者,但英特尔已经采取了一些措施来缩小这个差距。不过,英特尔也知道不可能轻易超越英伟达,所以先是收购了Nervana Systems来为建立一般深度学习基础平台打下坚实基础, 接着又收购Movidius以获得高性能的SoC平台,加速计算机视觉方面的应用。除此之外,英特尔宣称将在未来两年内在自动驾驶领域投资2.5亿,实践他们“以AI为中心”的宣言。今年,英特尔收购的第一批成果将以深度学习芯片的形式进入市场。 (责任编辑:本港台直播) |