柯洁和AlphaGo的人机大战已经落下帷幕,但是引发的讨论仍然在持续。但是和去年不同,随着AlphaGo退役,我们忽然发现,AI已经在一夜之间走向正式应用。 所以,在上次推荐了Google自然语言处理NLP领域的大牛吴军博士的《智能时代》后,黑君打算和大家回顾吴军博士另一本知名的著作《数学之美》(第二版)。对IT从业者们而言,尤其是工程师们,理解AI已然是必要的工作,而NLP恰恰是AI顶上的一颗明珠。只有读懂了这本书的内容,才会对AI不仅知其然,还知其所以然。 黑君的好友技术君(技术管理那些事,ID:jsglnxs),正在重读《数学之美》。它并不是一本新书,这本早在2014年推出第二版的书籍,早已被很多人读过,但是在人工智能浪潮席卷而来的时候,我们却再次发现了它的重要性所在。AI的浪潮已经势不可挡,而机器智能的支撑点之一,就是大数据和数学模型。数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。对于IT行业的工程师们而言,理解人工智能已经是必然的选择,而跟随吴军博士的这本书籍,研究AI背后的数学原理,这本书,仍然是必读的工具。 在这里,技术君整理了自己的读后感,梳理了全书的内容脉络。而书中最后一章也提到,AI大数据应用场景无比广阔,展示了AI和大数据,即将和已经带来的奇迹。我们就将其中对医疗领域的影响这部分摘录出来,供大家借鉴。 《数学之美》该怎样读? 在进入详细内容之前,先和大家分享三点心得: 1、关于跨学科的益处:作者吴军的博士生导师贾里尼克Jelinek教授,曾经师从信息论鼻祖香农Shannon,所以Jelinek是最早利用信息论(通信数学模型)解决自然语言处理NLP问题的科学家之一,并取得了非凡的成就; 2、关于“道”和“术”的平衡:书中在谈论各种技术难题时,吴博士都在强调,要多关注“道”(数学统计模型),而不是反复在“术”(繁琐的规则)上修修补补。大家可以看到,吴博士强调的通信数学模型贯穿全书; 3、关于大数据和人工智能:根据书中披露,Google大脑的算法就是人工神经网络,之所以在语音识别,图像识别、机器翻译等领域取得了优异的成绩,核心的竞争力还是Google作为搜索引擎所聚集的海量大数据。 「数学之美」第二版共有31章,为了更容易理解,我们将其分成5个部分。 1 用通信研究自然语言 根本上,就是让自然语言的研究,从模式识别的传统思路(图1)转变到通信模型(图2)上。
图1 早期对自然语言处理的理解
图2 通信模型 事实上,前者思路主要适用在严谨的程序语言设计上,不是很适合发散的自然语言处理。记得我在刚工作的时候,智能设备的计算和存储能力还非常有限,需要设计一个mini版XML Parser,技术上,就是按照编译原理中的BNF范式,完成对XML程序语言的句法分析和语义分析。 但是这个传统方法对于自然语言处理NLP,就遇到了瓶颈,这就是为什么书中提到NLP研究从规则转变到了统计模型。 按照图2所示,NLP的主要问题可以用数学语言描述为:已知o1,o2,o3,...,求出令P(s1,s2,s3,...|o1,o2,o3,...)达到最大值的信息串s1,s2,s3,...。按照近似算法的原则,根据马尔可夫假设,我们的任务就是求图3公式的最大值了。
图3 马尔可夫假设 具体怎么做呢?这个任务基本可以分为三步走: 首先要分词,我们曾经做过机器学习自动分诊项目,根据病例分析匹配医患,首当其冲的就是要把特定医疗领域的分词整理好,也就是找到那些o和s在特定领域的词典。 然后,该「隐含马尔可夫模型的训练」出场了,多年前,我在研究生课程随机过程中学到过。实践中,主要是要训练出模型的各种概率参数,如P(o|s)、P(s2|s1)等。训练方式通常分为两种,有需要人工标记的有监督训练,还有基于鲍姆韦尔奇算法的无监督训练。 最后,根据维特比算法把图3公式中的P(s1,s2,s3,...|o1,o2,o3,...)最大值算出来,进而找出要识别的句子s1,s2,s3,...。 (责任编辑:本港台直播) |