本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【j2开奖】看完AlphaGo的热闹,发现“数学之美”才是理解 AI 的干货 | BLACK 读书(2)

时间:2017-05-29 05:28来源:天下彩论坛 作者:118KJ 点击:
粗略地讲,就是不再用传统语法树规则去解析文本了,而是靠海量的语言资料,把各个词之间的相关性都统计出来,再用一系列上面提到的各种「近似算法

粗略地讲,就是不再用传统语法树规则去解析文本了,而是靠海量的语言资料,把各个词之间的相关性都统计出来,再用一系列上面提到的各种「近似算法」把概率最大的组合选出来。

是不是很神奇,数学家们把原来显式的语法规则都转变到了隐式的概率统计里。当然更重要的是,每一步数学计算都有相应的物理解释,而不是仅仅玩弄数学工具。

数学工具:

N-1阶马尔可夫假设

古德图灵估计

隐含马尔可夫模型

鲍姆韦尔奇训练算法

香农信息熵

【j2开奖】看完AlphaGo的热闹,发现“数学之美”才是理解 AI 的干货 | BLACK 读书

  2

  搜索引擎的关键技术

吴军博士是搜索引擎专家,这部分主要介绍了其四个主要技术:下载网页、建立索引、度量网页质量排序、按关键字查询。

说起下载,大家很容易想到爬虫,按照广度优先搜索BFS为主,深度优先搜索DFS为辅的算法进行。索引和排序是顾名思义,比较好理解。

Google成功的关键之一就是TF-IDF,确定一个网页和某查询关键词相关性的方法。简单讲,就是关键词在网页中出现的总词频越高排序就越靠前,这个用TF(关键词的频率)表示;但是这个情形要考虑关键词的权重,常见词,如“是”、“中”等肯定是低权重的,这个就用IDF(逆文本频率指数)表示。

书中按照香农信息论进行了证明,一个查询关键词w的权重应该反映这个词对查询来讲提供了多少信息。图4中可以看到,TF-IDF(w)表示对关键词w重要性的度量,词w的信息量I(w)越多,TF-IDF越大;同时w命中的文献中w平均出现的次数c(w)越多,第二项越小,TF-IDF也越大。这些结论和信息论完全相符。

  

图4 TF-IDF信息论公式

大家看到,搜索引擎的工作原理近乎完美的用香农信息论给出了数学解释,更重要的是每一步数学解释都有其物理意义。这就是本书一直在强调的数学背后的魅力。

数学工具:

PageRank算法

TF-IDF

有限状态机

  3

  关于分类:最大熵模型、布隆过滤器

书中在这部分说到了新闻分类问题,如何不用人工编辑,只是采用数学模型来处理海量新闻文章的归类:余弦定理和矩阵奇异值分解。

相信大家和我一样,我们在中学学习余弦定理和在大学学习线性代数的时候,肯定不会想到这两个数学方法和新闻分类有关系。按照吴博士的话来讲,这就是数学的美,用简单的数学模型解决了看起来无比复杂的现实问题。

更精彩的是,使用相似哈希(第16章)来判定集合之间的相似度,例如,抽取YouTube视频的关键帧,进行帧集合比较,可以有效的反盗版。

我们再来看看最大熵模型,大家可能觉的熵很深奥,其实书中给出的猜球队的例子很通俗的给出了解释:熵就是指不确定性。你猜哪个球队赢,如果猜到的不确定性越大,表示信息熵越大。

最大熵模型就是保留所有的不确定性。另外,数学家希萨 Csiszar证明了,任何一组不自相矛盾信息,这个最大熵模型不仅存在,而且唯一。并且它们都有一个共同的形式--指数函数,图5所示。

  

图5 最大熵模型

书中提到的拼音Wang-Xiao-Bo转换成王晓波和王小波的例子,很有意思。同样一个问题,最大熵模型和一些简单组合了特征的模型相比,效果可以提升几个百分点。大家可能觉得这个提升很不起眼,但是如果在投资收益上,就可能是数以亿计的利润了,这就是为什么那么多优秀的数学家去了投资机构的原因了。

另外,要特别提一下,在书最后部分介绍Google大脑时,人工神经网络中需要设计非线性函数,一般常用的也是指数函数,它的模式分类能力也等价于最大熵模型。

数学工具:

余弦定理

矩阵奇异值分解

相似哈希

最大熵模型

布隆过滤器

  4

  关于预测的算法

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容