机器学习是谷歌采用的各类工具的概括性的术语。机器学习,常缩写为ML,指的是通过给计算机输入标记过的数据“训练“其学会完成各种任务的计算机编程方式。一种特定的机器学习方式就是使用大致基于人类大脑连接系统建模的神经网络。各种节点(人造神经元)以不同的权重彼此连接。 近年来,多层次的神经网络已经被证明在解决复杂问题方面成效卓著,特别是在翻译和图像识别/处理领域。谷歌已经在这些新架构上重建了许多它的核心服务。通过模拟人类大脑的已知功能,这些神经网络具有识别输入(例如图像)中的不同模式的连接层。低级别层可能包含识别简单特性如明暗的神经元,高级别层则可能够识别如狗脸、汽车或蝴蝶。 使用上述结构和机器构建神经网络极为高效。极其复杂的计算问题简化成为一种模型的调校及训练以及一些图像处理单元的短期计算。如同 Gideon Lewis-Kraus 在纽约时报文章中描述的,谷歌翻译是一个耗时十年构建的复杂系统,然而使用深度学习系统仅用九个月就完成了重建。“ AI 系统一夜之间就取得了原有系统终其使用寿命一生能取得的改善”。 正因如此,神经网络的用法和类型已经爆炸式增长。对于 SketchRNN ,他们使用的是循环神经网络,用于处理输入序列。他们使用一系列人类绘制不同事物时使用的线条来训练神经网络。 描述训练的最简单方法是将其作为一种编码方式。输入数据(草图)后,神经网络尝试在所处理的数据中总结出一些概括性的规则。这些概括性的规则就是数据的模型,被存储在描述网络中神经元特性的数学中。 这种配置被生动地称为潜在空间或 Z 区,猪、卡车或者瑜伽体式的特性都被存储其中。取样则是要求系统绘制出它被训练的内容,SketchRNN 就会绘制出一幅猪、卡车或瑜伽体式的草图。它所画的就是它所学的。 SketchRNN 创作出了接近人类的画作 SketchRNN 可以学习什么?以下是训练生成消防车的神经网络。在模型中,有一个名为“温度”的变量,由研究人员将输出的随机性上调或下调。在以下图像中,较蓝的图像温度被调低,较红的图像“更热”。
或者也许你想看猫头鹰:
而最好的例子就是瑜伽体式:
现在这些看起来都像人类的画作了,但它们并非人类所画。它们是人类作画这种行为的重建。有些画得不错,有些则不怎么好,但是如果来和 AI 玩看图猜词应该是足够管用了。 SketchRNN也可以接收人类绘图形式的输入。你输入一些数据,它试图提炼规则。在一个接受猫数据训练的模型工作中,如果输入三只眼睛的猫图片会发生什么呢?
看到了吗?在从模型到右边的各种输出(再次显示不同的“温度”),它去掉第三只眼睛!原因何在?因为模型已经学到,猫有三角形的耳朵,两绺胡须,一个圆形的脸,而且只有两只眼睛。 当然,这个模型并不知道究竟耳朵是什么,猫胡子是否会动,甚至脸是什么,对于人眼会通过光子改变人视网膜特定细胞中的视紫质形状来传输图像至人脑也一无所知。它对所绘制的一切所指为何全无概念。 但它确实对于人们如何认知猫、猪、瑜伽或帆船有所了解。 “当我们开始生成或绘制一幅帆船的图画时,该模型可能会用数百个来自该图的其他帆船的模型进行填充。”谷歌的 Eck 告诉我。“它们对我们来说都有意义,因为这个模型已经从所有这些训练数据中提取出了柏拉图式的帆船——我这么说你可能不太高兴,但这就是‘你的帆船’。这不是一个特定的帆船,而是帆船的概念。” 话一出口,他似乎就后悔他出言自大。“我估计我会招来不少攻击”,他说,“但作为一副草图,已经很像样了”。(大西洋月刊的 Ian Bogost 跟我讲,“从哲学的角度看,这是纯粹的唯物论。”) 作为人工智能运动的一部分,这是迄今为止最令人兴奋的技术项目,至少对身在其中的人来说是这样,其他许多人也有这种感觉。 我的意思是,根据雨的画训练一个网络。然后输入一个蓬松的云的草图,于是,它画出了这个: (责任编辑:本港台直播) |