是什么?DI与你我有着怎样的联系?5月23日在2017UBDC的主旨演讲中,【友盟+】首席数据官李丹枫从解析DI开始,将我们带入一个由数据智能驱动的全新世界 以下为演讲实录: 去年UBDC大会的主题是“无数据,不智能”,经过一年多的努力,今年我们对数据和智能的关系有了更明确的定义,即数据驱动智能。这里面包括最重要的两个词,一个是数据、一个是智能,当然我们谈到智能就不得不谈在风口浪尖的一个词“人工智能”,人工智能是什么呢 作为一个理工男,下面讲述的就是我心中的人工智能,今天的人工智能。 首先对学文的同学表示歉意,我一大早上不是要杀死你一亿脑细胞。为什么把这个式子放在这儿呢 它特别好地表达了今天人工智能做的绝大多数的事情,接下来我具体解释一下。 这里面有很多参数,第一个参数是M,就是我们所说的模型,简单来说,工业界40多年开始用模型,今天叫深度学习。这个模型包含有一些参数,有一些无参数的模型(大部分模型现在是有参数的),我选好这个模型,要去找到这一系列的参数来帮助我解决这个问题,我怎么去找这个参数呢 我有输入,有一堆的训练数据,输入包括有输出,有输入、输出,输入和输出定义好了,我就说你去学吧。就像训练小狗一样,我们教它一些东西,给它一些反馈,这个反馈就告诉你,你做的事情是对的还是错的,模型也是一样。 当然,训练模型没有那么简单,如果这么简单就不需要我们科学家了,所以我们训练模型的时候有很多技巧。第一个技巧,我们要定义损失函数,因为模型推算出一个东西不可能是完全正确的,总是跟实际的差一点点,怎么衡量这个差别呢 由损失函数来决定,比如说大家用最小的方差,很多场景里头我们会加一些权重,这就是损失函数。 还有一个叫惩罚函数,这个模型我们对它的参数是有一定限制的,不能任这个参数想怎么着就怎么着,比如说有些参数值特别特别大,一般来说是不太好的模型,所以我们要给他一些惩罚,你训练的时候要注意这些参数不要太大,这些合起来呢 这儿还有一个i,是样本数,一个两个样本我训练不了,现在的样本上万、上十万、上百万、上千万或者上亿,模型越多训练的效果越好,把这个加在一起,定义了损失函数、定义了惩罚函数,有了输入和输出,我让这个算法去找吧,在所有的维度里找到最佳的参数,这个就是你的模型。下面,再看一个图: 左侧这张图是一个简单的神经网络模型,是一个非常简单的身体神经网络,复杂的有几百层。我大概说一下这个模型是怎么工作的,这里面有输入节点,就是模型的X,还有藏层、输出层、神经网络工作原理非常简单。模型训练做的就是要把连线上面的权重参数找出来,有了输入、有了输出,有了数据,用训练的方法,把这些参数找出来,让模型根据我定义的损失函数达到最优。 这个是什么呢 实际上大家想想,这个就是一个暴力的计算与记忆。当然我说这个话可能有点不太公平,因为这么多数据科学家、这么多年的努力,用暴力来形容不太公平。实际上,我们有一个聪明的、暴力的计算方法,我们要搜索的权重的组合非常多,你怎么能够有效地找到它,实际上是今天大家解决问题时,运用的有效的找到参数的方法,但不管怎么说,这个模型本身是一个计算与记忆的机制。 直播,数据赋予智能力量" src="http://www.wzatv.cc/atv/uploads/allimg/170525/1K3194147_0.jpg" max-width="600" /> 这张图是众所周知的一个公式,即爱因斯坦有名的质能方程,这个式子跟刚才的神经网络比起来弱爆了。你想想爱因斯坦用这么简单的方程涵盖了物理界这么多的现象,现在人工智能做大量的数据,用非常复杂的网络来做到对这个事情的预测,比较起来差距很大。所以现在的人工智能叫弱人工智能。 所谓弱人工智能,就是需要完整的信息、完整的定义好的输入和输出,需要借助非常强的计算与记忆的能力。我们可以想象,麦斯威尔和爱因斯坦的计算能力有多强 估计不及我们手里的手机。跟弱人工智能对应的是强人工智能,在信息不对称的情况下,考验的是大家的推理和解决问题的能力,这是我们做人工智能追求的极致的方向。 (责任编辑:本港台直播) |