媒体有关机器学习的轮番报道或许让人误以为我们刚刚发现了什么全新的东西,但事实上这项技术的年代几乎与计算机一样久远。 作为史上最富盛名的计算机科学家之一,阿兰·图灵(Alan Turing)早在 1950 年一篇有关计算机的 文章中,就提出了“机器人能思考吗?”这一问题。从科幻小说到研究实验室,我们很早以前就提出了这样一个问题,即人工智能的诞生是否有助于我们发现自我意识的起源,或者从更广泛的意义上讲,有助于发现人类的具体作用。不幸的是,人工智能的学习曲线过陡,尽管如此,我们仍然希望通过追根溯源,能真正明白人工智能究竟是什么东西。 如果我的大数据足够大,是不是我也能创造智能? 我们复制自身的首次尝试就是人为干扰充满信息的机器,希望能获得最好的结果。说真的,曾几何时,有关意识的主流理论是,它源于汇聚在一起的海量信息。有些人认为,谷歌的诞生预示着这种愿景走向巅峰。然而,尽管谷歌对 30 万亿个网页建立了索引,我并不认为人们觉得搜索引擎会问我们世上是不是真的有上帝。 相反,机器学习的妙处恰恰在于,我们不是将计算机假装变成人类,然后不断灌输知识,而是帮助计算机进行推理,令其将自己学到的东西归纳总结为新的信息。 虽然神经网络、深度学习和强化学习(reinforcement learning)这些概念都不太好理解,直播,但这些都是机器学习。它们都是创建可对新数据进行分析的广义系统的方法。换言之,机器学习只是诸多人工智能方法的一种,神经网络和深度学习之类的东西只是工具而已,可以被用于创建应用范围更广、更好用的构架。 在上世纪 50 年代,我们的计算能力是有限的,大数据还是一个陌生的字眼,我们的算法也相当初级。这意味着,我们推进机器学习研究的能力相当有限。然而,这并未阻止人们勇于尝试的脚步。 1952 年,亚瑟·塞缪尔(Arthur Samuel)利用最基本的人工智能形式——Alpha-Beta 剪枝算法——开发了一个跳棋程序。这种方法通过运用代表数据的“搜索树”(search tree)来减少计算量,但这并不是解决一切问题的最佳方法。多年以前,随着弗兰克·罗森布拉特(Frank Rosenblatt)感知器(perceptron)的问世,神经网络终于露出庐山真面目。 复杂的声音模型 弗兰克·罗森布拉的感知器的确具有超前性,充分利用神经系统科学来推进机器学习研究。从理论上讲,这个创意就像下图所示。
若想搞清楚图中所表达的意思,首先必须明白大部分机器学习问题可以被分解为分类(classification)或回归(regression)。分类器(Classifier)一般用于对数据进行归类,而回归模式则主要是推算我们的趋势,然后进行预测。 弗兰克·罗森布拉的感知器即是分类器的一个 典型例证——它提取了一套数据,然后将其分为多个数据集。在这种情况下,两个具有不同重量的特征的存在,足以让这个物体被归为“绿色”类别。今天的分类器可以将垃圾邮件从收件箱中分离出去,帮助银行发现欺诈活动。 罗森布拉的感知器模式利用一系列输入手段,思考长度、重量、颜色等特征,然后给每一种特征指派重量。接着,这个模型不断调节重量,直至输出的重量也减少至那种程度,而误差也在可接受的范围内。 例如,一个人可以输入数据,物体(碰巧是苹果)的重量是 100 克。计算机并不知道物体是苹果,但感知器可以通过已知数据集来调节分类器的重量,最终将该物体归类为像苹果的物体或不像苹果的物体。一旦分类器被调整,它可以在数据集上重新使用,前提是这个数据集之前从未暴露过,被用于分类未知物体。 连人工智能研究人员都被这种东西搞懵了
感知器只是机器学习所取得的诸多早期进步之一。神经网络有点像是协同工作的感知器的大合集,酷似我们大脑和神经工作机制——也是神经网络这一名称的由来。 在之前的几十年,人工智能领域的进步始终与复制大脑工作机制有关,而不是复制我们头脑中对其内容的认识。基本或“浅层”神经网络至今仍在使用之中,但深度学习就像“下一个大事件”一样备受欢迎。深度学习模式是具有多层的神经网络。对于这种让人极不满意的解释,人们正常的反应是,会问我“层”的意思究竟是什么。 (责任编辑:本港台直播) |