本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】文本型医疗大数据,拿来就可用?(2)

时间:2017-01-25 01:30来源:118图库 作者:118KJ 点击:
如果我们有了可计算的大量数据,也尽人力之所能地尝试逼近了真实数据分布,总可以做大数据分析来解决问题了吧?当然可以解决一部分问题,如很多相

如果我们有了可计算的大量数据,也尽人力之所能地尝试逼近了真实数据分布,总可以做大数据分析来解决问题了吧?当然可以解决一部分问题,如很多相关性分析工作,数据聚类工作,但对于很多现实的机器学习问题,尤其是有监督学习问题,我们再要区分一下真大数据伪大数据。什么是伪大数据?就是看起来很大,实际上很小的数据。沿用前边的例子,我们希望从门诊病历中根据患者信息,医生治疗方案以及治疗效果做疗效的预测模型,数据量可能很大;但当我们做模型训练时发现我们实际上需要有标注的样本才能做机器学习,这里的标注就是疗效。比如一种方案针对某患者A治疗后症状有所减轻,针对另一患者B治疗完全无效,而第三名患者C在治疗后完全康复等等。当我们看了很多数据,会发现尽管总体样本量很大,很多实际问题中有标注的样本量很小,甚至有可能这些有标注的样本量已经少到让整个问题退化成小数据问题或者偏到单纯的数据大问题了。这就是伪大数据,看起来很大,有用部分很小。很多人会说我们可以用半监督学习还有增强学习。当然可用,但当前大部分半监督学习方法的能力也就是从上图的小圈学到稍大一点的虚线圈,增强学习要看我们的应用场景是否允许在现实环境中不断尝试并获得反馈,毕竟医疗人命关天。那该怎么办?答案是主动学习。啥意思? 就是要有人的参与,让我们的大数据以尽可能大的 比例有用。换句话说,让机器不懂就问人呗。就操作层面,出现了两个问题:第一,人为什么要参与?第二,人要花多大成本参与?第一个问题需要应用场景支撑,让参与者在应用中获得好处。毕竟人是懒惰的,没有好处不能强求他人的参与,所以要有落地的项目才能驱动人的参与。这就部分解释了为什么医学大数据研究在没用应用场景情况下的纯研究会比较困难。针对第二个问题,如果要求每条数据都要有人的参与才有用,我们获取有用大数据的成本就会超出我们的想象了。所以要对人提关键问题,让人参与的结果可以泛化到尽可能多的数据中去。实际一点,至少做个聚类分析或者分类吧,把那些距离已知知识比较远但细节类似的情况通过人的一次参与尽可能多的标注解决。

wzatv:【j2开奖】文本型医疗大数据,拿来就可用?

  从大数据到大数据的价值

我们利用技术手段,人际关系和实际项目获得了可计算的、尽可能无偏的、尽可能有用的大数据了。这是真的大数据了?可以从数据中收获价值了吗?其实,这才刚开始,数据中会有各种各样的问题,如噪声的问题、不平衡的问题、特征缺失的问题等等,这些总有算法和实际的应用场景解决。好,假设都解决了,获取数据的价值还需要建立模型,也就是我们的统计分析、知识推理、机器学习,包括深度学习模型。但是针对医疗的大数据还有一些特殊性值得我们注意。举几个例子,有很多应用场景如诊断问题,需要结论的可解释性或部分可解释性,那么我们的很多黑箱算法,如深度学习就遇到挑战了。当然可以用知识推理,但问题又来了,知识图谱建立的各种挑战和知识图谱普遍碎片化的现状让我们的推理工作障碍重重。现实就是如此,但有什么办法尽量做得好一点?可以把符号推理与统计学习结合起来,让碎片化知识图谱的知识推理和深度学习的决策模型结合起来,我们称之为Local Knowledge Powered Global Learning。如何结合?方法很多,学术界也很关注,但不是现在的主题,暂时放放。最后,说明一下,开奖,大数据的类型很多,普遍认为有很多应用场景直接使用大量文本数据就可以用了:比如搜索,找相关的文章去读;比如自动问答,找到能回答问题的一段话就可以。但仔细想想,我们真的逃开了上面列出的技术问题吗?假设我们想要寻找一个罕见疾病的可能病因或方案,有大量的医疗文献可供查找,我们是否要从问题和文献中识别目标实体,是否要做语义的扩展用来匹配,是否要尽可能保证文献覆盖率,是否需要相关性的训练数据?仔细想想,在这些场景中其实就是把上边提到的一些功课放在另外一个流程中去做了,至少部分的做了,所以说到底还是做了。

  

wzatv:【j2开奖】文本型医疗大数据,拿来就可用?

  作者简介

  

wzatv:【j2开奖】文本型医疗大数据,拿来就可用?

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容