今年 2 月, 运营M.D.安德森中心的德克萨斯大学宣布关闭与 IBM 的合作项目,为合同上最初价值 240 万美元的项目向 IBM 支付高达 3900 万美元的赔款。四年过去了,沃森并没有为那些苦苦期盼的患者带来任何帮助,M.D.安德森中心也没有对沃森作出具体评价,但问题似乎主要来自于项目管理和资金分配的内部斗争。 但这并不意味着 IBM 在沃森的技术开发上没有遇到困难。事实上,技术上的进展比表面上看起来要更加艰难。 要了解是什么阻碍了研发进程,你必须先理解沃森一类的机器学习系统是如何接受训练的。沃森能够通过不断调整其内部程序来“学习”,并对特定类型的问题给出最有可能是正确的答案(例如,哪张放射影像上显示了肿瘤)。正确的答案必须是已知的,这样给出答案后系统就能够得到正确的反馈。系统被“喂养”的训练问题越多,它的命中率就越高,机器学习能够轻松地通过X光影像判定恶性肿瘤。 但是,对于远远超出已知范围的、潜在的突破性谜题,比如检测基因排列和疾病之间的关系,沃森面临着一个“先有鸡还是先有蛋”的问题:它如何利用未经专家筛选的数据进行训练? 图丨IBM 于2015年宣布,沃森的诊断能力将因为从 Merge Healthcare 获得的数据而得以大幅提升。 纽约一家癌症中心 Memorial Sloan-Kettering的计算病理学家 Thomas Fuchs 说:“训练一辆自动驾驶的车,任何人都可以告诉它前面有一棵树或一面路牌,驾驶系统就学会了辨识路障。但是,在医学的专业领域,这种情况少之又少,只有培训了数十年的专家才能告诉系统什么是正确答案。” 在机器学习系统的每一个领域,都会出现这类绊脚石的翻版。为了训练沃森通过巨大的数据池,把少数重要的信息提取给某一个病人,需要先有人手动做一遍,而且要做成千上万份。为了识别与疾病相关的基因,沃森需要数千份特定疾病的患者记录,而且这些患者得有DNA分析报告。但两者很难同时获得。数据不存在、格式不统一是常见的绊脚石,也可能数据分散在几十个不同的医疗中心,很难收集利用。 所以,不妨我们先来考虑一下沃森的目标。例如,把准确的数据提供给临床医生来改善初级卫生保健。万一医生在常规检查中漏过了小问题,小问题就会演变成大问题,病人将被送到急诊室,或不得不挂个专家号,不但健康受到损害,医疗费用也将暴涨。“大约有三分之一的医疗费用很可能是不必要的,”IBM沃森健康的首席医疗官兼家庭医生 Anil Jain说。很多人认为,机器学习系统是解决这个问题的一个机会。 图丨IBM沃森健康的首席医疗官兼家庭医生 Anil Jain 然而,为了真正帮助医生取得更好的治疗效果,沃森需要找出病历记录和 “决定健康的社会因素”之间的关系。这些因素包括:患者是否吸毒,饮食是否安全,是否能呼吸到清新的空气等等。目前,几乎没有任何医疗机构能可靠地获取大部分患者的此类数据,部分原因是医院迟迟没有采用现代化的电子信息管理系统。 对此,Cleveland诊所的医疗信息学专家、内科医生Manish Kohli 说:“在使用电子信息技术方面,医疗行业一直是非常落后的。” 数据只要存在,IBM 就能购买。IBM已经收购了许多活跃在医护大数据处理前线的公司(例如Truven健康分析公司、Explorys以及 Phytel)。即使与 M.D. 安德森中心的合作终止了,IBM仍拥有一些关键的合作伙伴,得以进一步访问患者数据。Atrius健康就是IBM的合作伙伴之一,其网络覆盖了整个波士顿地区的近900个保健医生(大多数是家庭医生)。双方合作的目的是开发并测试一款基于沃森的系统,能从各类笔记、记录和文章中大海捞针般调取出对单个病人至关重要的信息。 (责任编辑:本港台直播) |