从数学层面来讲,贝叶斯网络(第24章)是一个加权有向图,是马尔可夫链的扩展;条件随机场(第25章)是无向图,是隐含马尔可夫模型的扩展。 书中一个例子,心血管疾病和成因之间关系可以表述为一个贝叶斯网络,可以用来估算预测一个人患心血管疾病的可能性。和第一部分中的隐含马尔可夫模型训练相比,贝叶斯网络训练除了要做参数训练,还要做结构训练,因为它是网状的,而前者是链状的。 另一个例子,洛杉矶警察局委托加州大学预测,在活动、天气、失业率等因素条件下,时间、地点和犯罪类型的分布情况,这是个典型的条件随机场问题。事实上,通过预测,该地区犯罪率降低了13%。 对于不是通信专业的读者,说起维特比算法(第26章),你可能不太熟悉,如果说维特比算法是一个应用最广的动态规划算法,就容易理解了。如果说维特比就是大名鼎鼎的高通创始人,估计基本上就是无人不知了。 移动互联网的迅速发展,让这位发明移动通信CDMA的科学家赚的盆满钵满。到这儿,维特比还得要感谢我们封面上的美丽科学家Hedy Lamarr,这位演员在演奏钢琴时,想到用不同键所发出的频率对信号加密,发明了伪随机数序列加密算法。后来,维特比把这个想法应用到了CDMA技术中,这项扩频调频技术使得通信带宽效率得到了极大的提升,再一次让我们看到了跨界的威力。 最后,说一下期望最大化算法EM(第27章),书中提及的两个常用训练算法都是EM:训练隐含马尔可夫模型的鲍姆韦尔奇算法、训练最大熵模型的GIS算法。 数学工具: 贝叶斯网络 条件随机场 蒙特卡罗算法 维特比算法 期望最大化算法 逻辑回归模型 5 Google大脑和大数据 用一句话说,Google大脑就是使用人工神经网络,通过深度学习,来解决在多维空间进行模式分类的问题。人工神经网络的训练,简单讲,就是准备好训练数据,定义一个成本函数,然后采用梯度下降法,找到让成本达到最小值的那组参数。 书末,吴博士在谈论大数据的意义时,尤其强调了Google公司和他本人都热衷于大数据在医疗行业的应用。 例如要搞清楚基因和疾病的关系,第一种方法是医学界比较传统的:实验搞清楚某一段基因的机理,以及它的缺陷可能带来的生理变化,然后再搞清楚这种变化是否会导致或诱发疾病。这通常是一个漫长的过程。 第二种方法是利用数据进行统计。科学家从数据出发,找到基因缺陷和疾病在统计上的相关性,然后再分析这种相关性的原因。书中分别列举了发生在Google和Microsoft的乳腺癌治疗和急诊随访的两个有效案例。 就因为数学统计方法某种程度上超越了传统方法,世界知名生物制药专家阿瑟李文森 Levinson博士到了Google,研究用IT解决医疗问题,比如治愈癌症、防止衰老,目前靠传统医学手段已经无法解决了,大数据相关的技术带来了希望。 数学工具: 梯度下降法 六元模型 至此,把书中的主要内容过了一遍。不管你是否愿意,人工智能都已经推到了我们面前,希望我们能用这些数学知识指导工程实践,解决实际问题。 大数据在医疗领域的重要性 by 吴军 23andMe(医疗创业公司)和同类公司(包估Google的保健研究部门)正在做的另一件事就是将基因的缺陷和疾病联系起来,这个数据必须到研究机构和医院去拿。过去,每一所医院这方面的数据其实是非常有限的,但是如果把成千上万个大小医院的数据收集起来,那么就能够估计出疾病和基因缺陷同现的概率P(AB)了,进而可以将有某种基因缺陷导致疾病的概率算出来。未来,大数据可以通过基因检测的方法准确地告诉我们每一个人今后的健康状况,做到有效预防疾病。 我之所以举医疗行业的例子,是因为除了IT行业,医疗保健是对大数据最热衷的行业。当然,另一个原因是Google和我本人对这个行业都比较热衷,比较容易举例子,但这并不表明大数据的应用只集中在这两个行业。 (责任编辑:本港台直播) |