本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【j2开奖】打破深度学习检测视网膜病变世界纪录,IBM认知医疗总监谢国彤北大AI课精彩分享(11)

时间:2017-05-17 21:58来源:本港台直播 作者:118KJ 点击:
雷鸣 :看来正好是风口,我们接着去探讨这个事情,我这一块也做了一些研究,像医疗数据,整个来讲,它的整体的质量,相对比较差一点,说实话我看

  雷鸣:看来正好是风口,我们接着去探讨这个事情,我这一块也做了一些研究,像医疗数据,整个来讲,它的整体的质量,相对比较差一点,说实话我看过一些病例系统,它的记录、自然语言很不完善,有时候甚至找一些更高级的医生看,记录还发现有很多不一错误的地方,我们叫质量比较低的数据,就是说IBM在做的过程中,或者说您个人对这种情况,对往后的研究有什么样的建议?

  谢国彤:这一块关于医疗数据质量问题,我稍微多说两句,因为我打交道的医疗数据比较多,医疗数据中有质量好的,也有质量差的,影像数据相对来说是质量比较好的,因为国内一般用的都是国外的标准,影像数据的质量反而比较好。有一些数据像病例数据,像疾病登记库的数据,比如说中风或者高血压、糖尿病权威机构、国家什么中心,他花很大的力气经过三五年搜集的数据,这样的数据一般在三五万人,每个患者都在1500到2000个变量,这些数据质量也非常高。

  还有一类是医疗保险数据,医疗保险数据它的质量也很好,因为它很连续,不管在A医院看还是B医院看,最后通过医疗保险把所有的数据都关联起来了,这是它的优点。

  相对来说病例数据又再细分住院和门诊病例住院数据是质量比较高的,因为很多医生的科研是基于住院病例上面再加工,所以他会花很多力气,包括很多医学院的学生下午的时候在住院科录病例,这些数据质量都比较高,真正病例比较差的是门诊病人,每个病人不超过5分钟,医生没有时间录这个数据,医生也不觉得这个数据有价值。

  数据质量确实是良莠不齐的,一开始做这个方面要训练一个好的数据集和一个好的问题,如果一开始选了一个特难的问题,选了一个特烂的数据集,可以保证你不会有特别好的结果,可能是你的问题和数据集没有选对。

  回过头来再讲针对大量吸收的数据,其实目前也有一些技术上的探索,就像是做数据的萃取,传统在统计里面有数据补全的方法,对缺失的数据进行补全,医生觉得你补了之后不可信,现在有很多强调数据萃取的方法,怎么样给你一百万的数据,能不能提炼出10万人是连续性比较好的数据。这里面其实还和目前比较火的GAN网络有关系,现在有一些人在尝试,这个数据甚至是生成的数据,但是我用这个数据是从上百万、上千万数据中间学习出来的一个数据的分布,有了这个数据分布之后生成的数据,用这个数据去训练模型,甚至可以训练出来一个靠谱的模型,所以有很多人在做这方面的尝试,选择好的数据集,同时咱们国家自然的数据质量也在提高。

  另外一点,也有一些技术的手段,可以再弥补一些数据质量的缺失。

  雷鸣:好,刚才提到的就是我们现在超级火的对抗生成。再问一个问题,医疗这个事情,因为我们很多做技术的小伙伴,创业的时候经常说,有这么一个事情,几个人就去做了,包括拿几个数据集做做做,医疗的事情最后总要落地的,一落地就要到行业,一到行业突然就发现两眼一抹黑,你在这个领域做了很久,能不能大概讲一下一个医疗科技最后能真正的去服务大众造福百姓,这个路径大概是什么样子的?中间有哪一些挑战哪一些门槛,给想做探索的同学一些借鉴。

  谢国彤:其实医生是一个非常严谨的一个群体,他们每天面临的是生与死的抉择,让他们变得非常谨慎,任何一个新的技术想推进到医疗领域的话,一定要有一个非常严谨的过程,一步一步得到医生的信任。我之前听到他们讲一个故事,医生花了一百年时间才接受了听诊器作为医疗的设备。

  从目前来看,基本上这是有一个过程的,第一步你可以基于一些不管公开数据集还是通过跟医生合作,基于一些历史数据可以进行一些建模,不管你做什么,首先证明你这个模型在历史数据上是可以工作的,这是第一步。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容