匿名电子病例信息不全?深度学习能更好的判断出种族(代码开源) 2017-07-10 13:02来源:量子位 原标题:匿名电子病例信息不全?深度学习能更好的判断出种族(代码开源) 问耕 发自 凹非寺 量子位 报道 | 公众号 QbitAI 匿名电子病历(EMR)是越来越受欢迎的研究数据来源。然而,这些数据集通常缺少人种和种族信息。这给人类疾病的研究人员造成了困扰,因为人种和种族对许多健康风险和治疗结果有着重要的影响,另外也跟人口特异性遗传变异密切相关。 为此,来自普林斯顿大学的Ji-Sung Kim,以及来自芝加哥大学的Andrey Rzhetsky共同展开了一项新的研究,并把研究工具RIDDLE进行了开源。 RIDDLE是一个开源的Python2库,用于使用深度学习方式在匿名电子病历中估算人种和种族信息。 Kim和Rzhetsky使用了来自芝加哥和纽约的EMR数据集,总共描述了超过150万名患者,约有1.5万个特征,包括:性别、年龄、临床事件观察(编号为ICD9代码)。 在这个研究中,他们发现深度神经网络比其他方法(例如逻辑回归、随机森林)能更准确的补全缺失的人种和民族信息,在所有考察标准上都得到了更好的分类性能:精度、交叉熵损失(误差)等。 实验结果表明,RIDDLE的平均精度为0.671,最高的两个准确度为0.865,测试数据的交叉熵损失为0.849,这个结果显著优于逻辑回归和随机森林分类器。 他们用这些训练过的神经网络模型来识别、量化和可视化预测人种和种族的医学特征,并使用这些特征来进行人种和种族差异性疾病模式的系统比较。事实上,临床病史对人种和种族的估算信息可能反映出: 跨越种族和族裔的蓝领、白领职业的偏态分布 可能的生活习惯变化,例如饮食习惯 易患疾病的遗传背景和变异差异 RIDDLE通过运行并行化的TensorFlow/Theano后端来高效训练模型,以及使用预处理数据和分批训练的方式来避免内存溢出。 RIDDLE使用Keras来指定和训练潜在的深度神经网络,并用DeepLIFT来计算“特征到类别”的贡献值。 目前的RIDDLE Python模块与TensorFlow和Theano一起作为Keras的后端。默认架构是一个深度的多层感知器(深度MLP),使用二进制编码的特征和目标。当然,你可以自己编写model_module文件来指定任何神经网络架构和数据格式。 想要进一步了解RIDDLE,可以访问如下地址: https://github.com/jisungk/riddle 相关论文可以访问这个地址查看: https://arxiv.org/pdf/1707.01623.pdf 【完】 一则通知 量子位读者5群开放申请,对人工智能感兴趣的朋友,可以添加量子位小助手的微信qbitbot2,atv,申请入群,一起研讨人工智能。 另外,j2直播,量子位大咖云集的自动驾驶技术群,仅接纳研究自动驾驶相关领域的在校学生或一线工程师。申请方式:添加qbitbot2为好友,备注“自动驾驶”申请加入~ 招聘 量子位正在招募编辑/记者等岗位,工作地点在北京中关村。相关细节,请在公众号对话界面,回复:“招聘”。 追踪人工智能领域最劲内容 (责任编辑:本港台直播) |