本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:五个案例,三大心得,带你进阶深度学习实践应(3)

时间:2017-06-16 02:01来源:本港台现场报码 作者:118开奖 点击:
医学影像检测:把健康的人误诊为病人还不是最糟的情况,只要医生能对诊断结果进行复查,并把健康的这个人找出来就可以了。但反过来,未能诊断出真

医学影像检测:把健康的人误诊为病人还不是最糟的情况,只要医生能对诊断结果进行复查,并把健康的这个人找出来就可以了。但反过来,未能诊断出真正的病人而不提供给他任何治疗,则就非常危险了。

信用评分:拒绝向有能力偿还的客户发放贷款,意味着你只是损失一点利息。但如果向违约的客户发放贷款,你就要对全部的贷款损失负责了。

我们用下面的图表来说明问题:

wzatv:五个案例,三大心得,带你进阶深度学习实践应

wzatv:五个案例,三大心得,带你进阶深度学习实践应

现实应用中误分类的不均衡成本

如何解决这一问题?

意识到通常情况的类别与误分类成本的不均衡后,我们就必须想办法来解决问题。研究过这一课题的学术文献相当有限,但某些博客与Stack Overflow的社区问答往往能给我们一些启发。

注意,类别与误分类成本的不均衡是两个高度相关的问题,这就意味着,一部分样本几乎没有训练数据,从而使出错的几率更高、成本更昂贵。

我把有助于改进我们模型的稀有样本分类能力的方法分为四类:

1.更多数据:针对稀有类别,显而易见的办法是收集更多数据。

对于医学影像检测案例,这就意味着要着重于收集患有某种目标疾病的病人的图像。

如果这种方法因成本过高而无法实现,我们还可以借助其他办法来获取训练数据,如前所述。注意,调整训练标注的分配必须要小心,因为这将影响模型预测推断结果的方式:如果增加训练数据集的病人数量,模型预测患病的频率也会更高。

wzatv:五个案例,三大心得,带你进阶深度学习实践应

收集稀有类别的更多数据。当训练期间的标注分配与推断结果不匹配时要当心。

2.更改标注

如果无法获得稀有类别的更多数据,另一种方法是重新考虑分类方法。在实际应用中,可能并不需要区分疾病A与疾病B,只要能识别出是这两者一就够了。这样的话,你就可以合并这两个类别。这在训练期间能够简化程序,即便搞混疾病A和疾病B,也不会惩罚推断结果。

wzatv:五个案例,三大心得,带你进阶深度学习实践应

在训练获评价期间合并两个或更多类别能够简化问题

3.采样

如果既无法获得更多数据也不能更改标注,那你就必须从原始数据下手了。如何能使该模型特别善于处理稀有类别?你只需要改变算法在训练过程中观察样本的方式。通常,样本的采样十分均匀。这就意味着训练过程中算法对每个样本的观察频率是相同的。

以下是几种不同的采样方法,可有助于改进模型对某些稀有类别的标注能力。

忽略

忽略常见类别的部分样本可能是最简单的方法。当每个类别的样本数大体相近时,可使用这种方法。

wzatv:五个案例,三大心得,带你进阶深度学习实践应

过度采样或欠采样

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容