本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】Kaggle百万美元大赛优胜者:如何用CNN识别CT图像检测肺癌?(3)

时间:2017-05-08 08:25来源:本港台现场报码 作者:118KJ 点击:
看着论坛的帖子,我发现所有的团队都在做类似的工作,我也在寻找一个能直接上手的方法。在观察CT扫描图像时,我发现了一些其他的事情。与LUNA16数据

  看着论坛的帖子,我发现所有的团队都在做类似的工作,我也在寻找一个能直接上手的方法。在观察CT扫描图像时,我发现了一些其他的事情。与LUNA16数据集一样,大部分的工作集中在识别肺结节上。然而,当癌症发展时,它们转变成肺肿块或更复杂的组织。并且我注意到,当扫描图像中有很多“奇怪组织”时,它发展为癌症的概率更大。此外,在很多CT图像中,我的结节探测器没有发现任何结节,这造成了一些很不好的假阴性现象。

  在训练集中有10例存在上述现象,其中的5例为癌症病例。为了解决这些严重的假阴性,在扫描时,需要检测获得奇怪组织的数量。很幸运,在LUNA16数据集上包含了很多这样的样本,所以我很快对数据集进行标记并训练了一个U-net网络。加入奇怪组织检测器后,效果不错,我因此提高了本地CV值和LB上的排名。因为它对于不同的模型提升不同,很难评定实际效果,atv,但我认为它大约提升了0.002-0.005。说实话,我认为这种改进是一个创新性的补充。以下是一些包含有奇怪组织的样本。

  

wzatv:【j2开奖】Kaggle百万美元大赛优胜者:如何用CNN识别CT图像检测肺癌?

  图3:带有奇怪组织的CT图像样本。

  肺气肿基本上是由吸烟导致的,我也试图建立一个肺气肿检测器。论坛上的医生都说,当肺气肿存在时,患有癌症的概率升高。有一些简单的算法公布了如何评估CT扫描中肺气肿区域的数量,设置hounsfield单位为950,来扫描CT图像。然而,我应用这种方法后,发现效果并不好。然后我标记了一些例子来训练一个U-net,发现效果不错,但是我的本地CV值没有丝毫提升。我的猜测是,因为肺部出现问题,进行扫描得到数据集中的许多病例,因此很多肺气肿样本没有看做是肺结节和癌症病例。我不能确定这个想法的正确性。

  最后一步:癌症预测

  训练好网络后,下一步是让神经网络检测结节并估计其恶化程度。我建立的CT结节观察器很容易查看网络结果。我觉得神经网络的效果很好:它检测到了许多我完全忽视的结节,而我只看到很少量的假阳性结节。但是还存在一个严重的问题:由于它错过了一些非常大的明显结节,所以影响了对于假阴性的得分,有时使LogLoss升高了3.00。作为尝试,我试图对CT图像进行了两次降采样,看看检测器是否会检测大结节。值得注意的是,它的效果非常好。因此,我调整了网络结构,让网络预测3个尺度,分别为1,1.5和2.0。我觉得值得花这么多的时候来改善这方面的性能。

  

wzatv:【j2开奖】Kaggle百万美元大赛优胜者:如何用CNN识别CT图像检测肺癌?

  图4:在缩放1x的左图中,没有很好地检测到大结节;但是在2x放大的右图时,效果较好。矩形的大小表示坚持到的恶性肿瘤。

  鉴于这些数据和一些其他特征,我想训练一个以梯度推进的分类器来预测一年内癌症的发病率,这是比较容易实现的。但是问题在于,排行榜的得分是基于给定的200名患者,这里面意外地包含了大量异常患者。经过一些调整后,我通过交叉验证得到了本地的平均值为0.39-0.40,而排行榜得分在0.44和0.47之间变化。此时很难将排行榜得分与本地CV值相关联。提高了本地CV值可能导致LB评分的降低,反之亦然。

  我花了很多时间来研究本地CV值和LB评分的关系。我没有成功,所以我只使用能同时改进CV值和LB排名的技巧和特征。这是一场两阶段的比赛,而且与实际的训练集相比,第二阶段的数据存在与LB数据集更相似的可能。在这个地方,很多队伍也只能碰运气,结果显示排行榜上的很多队伍模型处于过拟合状态。最后我只使用7个特征来训练梯度推进器,分别是3个尺度下的最大恶性结节及其Z轴的位置和样本中奇怪组织的数量。

  我也融合了两个模型来提高效果。第一个模型是在完整的LUNA16数据集上训练的。第二次,我试图从NDSB训练集中选择明显的阳性样本和假阳性样本,应用主动学习来训练。由于我不是放射科医师,所以我为了保险起见,只选择癌症病例的阳性例子和非癌症病例的阴性例子。我做错了,因为第二个模型比没有额外标注的LUNA16模型更糟糕。通过平均两个模型的输出,对LB排名有了很好的推动作用,并且显著提高了本地CV值。

  与Daniel合作

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容