参加完 Lignelli-Dipple 与放射科学员的会议之后,我曾与通过 CT 扫描发现早期中风的年轻人 Steffen Haider 交流了一下。他是怎么发现病变的?是「知其然(know that)」还是「知其所以然(know how)」?他以习得规则作为谈话的开始。他知道中风往往发生在一面,组织会轻微「变灰」,且常常伴有略微肿胀,造成解剖边界丢失。他说:「大脑中有些地方的血液供应特别脆弱。」为了识别病变,他必须在大脑的一侧寻找没有出现在另一侧的迹象。 我提醒道,他忽视了图像中很多不对称的情况。这个 CT 扫描与大多数情况一样,在左侧存在其他灰色的波纹,但右侧却没有,它们可能是妇女中风前大脑中的异常运动或潜在变化。他是如何把重点缩小到这片区域的?他停了下来,头脑风暴却仍在继续。终于,他开口道:「我不知道,有一部分是潜意识的」。 Lignelli-Dipple 告诉我:「当你在学习中逐渐成长为放射学家时,这种情况就会出现,而问题在于机器能否以相同的方式『成长与学习』」。 三 2015 年 1 月,计算机科学家 Sebastian Thrun 开始痴迷于医学诊断的难题。这位在德国长大的科学家很瘦,剃着光头,周身充斥着漫画人物的气息;他看起来就像米歇尔·福柯(法国著名哲学家——译者注)和憨豆先生的奇异组合。Thrun 以前是斯坦福大学教授,领导者该校的人工智能实验室,后来离开创建 Google X,领导会自学的机器人和无人驾驶汽车的研发。但是,他发现自己对有着学习能力的医疗设备有了莫大的兴趣。49 岁时,他母亲因乳腺癌去世——正是他现在的年龄。Thrun 告诉我:「大多数癌症患者最初并没有症状,我母亲就没有,当她去看医生时,癌症已经转移了。我沉迷于找到一种能在癌症早期就将其侦测出来办法——那时,还能用手术刀将其切除。我也一直在想,机器学习算法能否有所帮助?」
早期在自动诊断方面的研究往往与教科书代表的显性知识(explicit knowledge)领域紧密相关。以心电图为例(心电图将心脏的电信号变化转变为纸张或屏幕上的线条),过去的二十年来,电脑解读的通常是这些系统的特征。执行这些工作的程序通常比较直接,特征波形与多种情况相关(如心房颤动或血管阻塞),以及识别这些特征波形并输入到应用中的规则。当机器识别到这些特征波形时,它会把这种心跳标记为「心房颤动(atrial fibrillation)」。 在早期胸部肿瘤 X 射线透视技术中也是这样,「计算机辅助诊断」已经屡见不鲜。图像识别软件会突出显示疑似病变的区域,而后放射科医师会复查结果。但这种识别软件通常也是使用基于规则的系统来识别可能病变的区域。这样的程序没有内置的自主学习机制,即一台已经检查过三千张 X 光图像的机器并不比仅检查过四张 X 光图像的机器更聪明。2007 年的研究对使用计算机辅助诊断设备前后胸部肿瘤 X 射线透视技术的准确性进行了比较,其中这些局限性变得异常明显。人们也许会预计在设备投入使用后,诊断的准确率会明显提高。但实际上设备产生的影响很复杂:在计算机辅助诊断组中,活体检查的准确率上升,但肿瘤学家最希望检测到的小型侵入性乳腺癌准确率却有所降低(甚至后续研究显示这种技术存在假正类(false positives)问题)。 Thrun 确信,他能通过从基于规则的算法转变为基于学习的算法来超越第一代诊断设备,从「知其然(know that)」变为「知其所以然(Know how)」来作出诊断。Thrun 使用的这类学习算法就涉及使用「神经网络」这种计算策略,因为该神经网络的灵感源于大脑运作的模型,所以其能完成这一学习过程。大脑中的神经突触通过反复激活而加强或减弱;这些数字系统旨在通过数学手段实现类似的目的,调整连接的「权重」来向预期输出靠拢。更强大系统会与神经元层级相似,每个系统会处理输入的数据并将结果发送到下一层。因此,出现了「深度学习」。 Thrun 将皮肤癌作为切入点,特别是角化细胞癌(美国最常见的一类癌症)和黑素瘤(最危险的皮肤癌)。能否训练机器通过扫描图片将皮肤癌与良性皮肤病(如痤疮、皮疹或痣)区分开呢?Thrun 推理道:「如果一名皮肤科医生做得到,那么机器应该也能够做到,并且可能会做得更好。」 一般而言,关于黑素瘤的皮肤病学教学会从基于规则的系统开始,就像医学生的学习一样,配有一套便捷的助记符:ABCD。黑色素瘤通常是不对称的(「A」——asymmetrical),其边缘(「B」——border)是不均匀的,而颜色(「C」——color)会变成斑块状且附有杂色,并且它们的直径(「D」——diameter)通常大于 6 毫米。但当 Thrun 在医学教科书和网络上查看黑素瘤标本时,却发现了不适用于这些规则的例外。 (责任编辑:本港台直播) |