本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】文本型医疗大数据,拿来就可用?

时间:2017-01-25 01:30来源:118图库 作者:118KJ 点击:
编者按 本文作者是微软亚洲研究院数据挖掘与企业智能化组资深研究员闫峻。此前在微软研究院AI头条上我们也分享过他们组的研究,分别是和 闫峻博士在本文中解读了一些在对外合

  

wzatv:【j2开奖】文本型医疗大数据,拿来就可用?

编者按

本文作者是微软亚洲研究院数据挖掘与企业智能化组资深研究员闫峻。此前在微软研究院AI头条上我们也分享过他们组的研究,分别是和闫峻博士在本文中解读了一些在对外合作交流中经常被问起的关于医疗数据的问题。

文本型医疗大数据,拿来就可用

闫峻

数据挖掘与企业智能化

微软亚洲研究院

我们的很多研究工作都是基于大数据的,现在所做的健康医疗领域研究也要基于大规模医疗文本数据的处理。但是否有了大量的确定领域文本数据,就可以直接拿来进行挖掘,建模,并利用数据来创造价值了呢?如果发现问题没那么简单,我们要做些什么工作才能让这些大数据真正创造价值呢?为了尝试搞清楚这些问题,我们先来看看人们对文本型医疗大数据理解上的一些常见误区。

  大数据与可计算大数据

我们现在触手可及的文本型健康医疗数据很多,能够获取的数据规模也都很大,但这是否就意味着这些数据可以供研究机构或商业机构做大数据分析,让数据产生更大价值了呢?在使用这些数据之前,让我们先区分一下大数据可计算大数据的区别。很多大数据科学家口中所说的大数据,往往指的是可计算的大数据。举个例子,某科室门诊病历数量巨大,我们希望从患者主诉和医生诊断及最终的治疗效果中建模出更有效的治疗方案。然而,当我们看到真实数据后会发现,大部分数据是整段的文本描述,计算机根本无从下手进行预测分析,甚至连一些基本的统计工作都无法进行,那么这样的数据就是不可计算的。如果我们可以把文本数据转换为数据库表、关系图,甚至数值型向量,计算机就可以读懂数据,进行我们想要的分析。例如根据某项疾病统计患者的年龄分布,根据每一项症状和检查指标,推荐可能有效的药品等。要把自然语言的描述转换为计算机可以计算的数据,需要依赖自然语言处理中的很多基础技术,比如句子的分词实体识别实体的归一化和链接等。临床电子病历的后结构化就是基于这些技术手段将大量不可计算数据转换为可统计、可计算数据的一个实际应用场景。所以拿到一份数据,我们需要先看看是否可用于计算;如果不是,就要做些功课了。

wzatv:【j2开奖】文本型医疗大数据,拿来就可用?

  数据大与大数据

  大家都期望从大数据中挖掘出潜在的价值,但是否数据量大了就是大数据,就一定有巨大价值呢?在进行大数据计算之前,我们还要区分一下数据大大数据的区别。数据量大是我们谈及大数据的前提,atv,但如果数据是有偏的和局部的,其价值将大打折扣。尽管工程上讲数据量大了,问题就是大数据问题,但从应用角度看,光凭数据量已经不能从本质上定义是否是大数据问题。我们理想的大数据指的是能够代表现实世界真实数据分布的数据。换句话说,如果大量数据代表了现实世界的真实情况,我们从中学习到的任何结论和数学模型都将具有实际意义,就可以用来预测未来和指导实践。反之,如果数据本身很偏,无论量有多大,得到的结论和模型都会很局限,甚至不能推广运用,那么其价值的折扣率就会很高。举个例子:某科室积累了大量门诊病历,数据已经很好结构化可用于计算,但所有数据都是本科室医生在过去几年针对某些疾病的积累,治疗手段渐渐趋同,我们从中建模出能打破瓶颈的新诊疗方案的可能性就很低了。下图用直观的方式来解释这个问题:外边的大圈代表真实的数据分布,当然不得不承认这个大圈对于大部分实际应用都是未知的。假设我们获得了大量数据,以里边小圈表示,明显小圈在整体数据分布中是偏向于某个局部的,那么我们的各种大数据计算所得的结果就会或者被局限到小圈以内,或者通过机器学习算法扩展到用虚线表示的那个小圈,距离真实数据分布的结论和模型还差得远,这就导致了我们大数据分析得到的结论不能代表现实世界的真实情况。既然如此,如何保证数据量大就是真正大数据问题呢?现实一点说,对很多应用来说根本无法保证,但我们可以尽可能逼近。如何逼近?对这个具体领域就是获取尽可能多的多源同类数据,如针对同一病种获取采用不同治疗方案的不同医院的数据。这里边有很多现实的挑战,首先是数据共享的挑战,这个太难了,但我们已经看到在开放领域的诸多努力,如开放知识图谱项目(OpenKG);从技术的角度看,问题是不同数据来源对知识的表达方式暂时还没有大家都在执行的统一标准,于是数据的融合成了大问题。这里边的挑战很多,大家都知道不同医院的医生在写病历过程中对同一实体的描述方式很可能不同,即使在同一家医院,医生也不能保证用同一名称表达同一个症状。要实现数据的融合,最起的一个要解决的问题就是同一实体,同一短语,甚至同一句话的语义扩展表达以及最终归一化的问题,可以是符号的扩展,也可以是向量的表达,但一定要有办法才行。

  

wzatv:【j2开奖】文本型医疗大数据,拿来就可用?

  真大数据与伪大数据

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容