真实世界证据就是真实世界中数据,包括病历数据、医疗保险数据、疾病数据,输入进来,产出各种模型,比如中风病人的再中风预测模型,atv,或心梗病人的死亡风险预测模型,或某种药物治疗有效性的模型。这样的模型是通过这样的pipeline得到的。我们发现,第一可以有一个通用的pipeline去解决真实世界数据分析的问题,因为过程重复,包括导入数据,数据清洗和整理,构建患者人群,抽取特征做建模。很多是通用的,比如疾病风险预测分析,患者的相似性分群分析,治疗有效性分析,患者依从性分析。这样的分析的话都可以变成一些可重用的模块,作为一插件在平台上来做模型生成。比如,咖啡机放入数据就会生成咖啡,里面有很多参数要调整,你是要喝美式还是拿铁还是摩卡。我说起来比较简单,但是就是这么一个过程,我给大家举两个例子。 第一个例子的话是我们做的疾病风险预测的一个例子。
这个数据库里有45000个心梗病人,有超过800个变量去描述病人的基本信息,包括它的治疗信息,临床信息等。医生想知道哪些因素会导致患者出现院内的死亡,每个患者院内死亡的可能性有多高,这就是一个典型的疾病风险预测的问题。那这个风险模型以前是有的,TIMI模型是目前医学界公认的最好的心脏病的风险预测模型,AUC大概是在0.76,利用我们的方法AUC可以做到0.87,同时我们发现了24个新的风险因素,有很多风险因素的话是非医疗性质的,比如说一些社会性的因素或者就诊医院的一些因素,比如说家庭幸福的人不容易死。 医生常常也做这类分析,他们一般会有自己的假设,从800个量里面挑出15个20个,然后从4400万个人里面挑出一千个人,用经典统计方法去做单变量多变量的回归,去看是不是有显著性,这是目前医学统计常用的方法。但是用这种人工智能方法去做时,我们就会用很多新的一些方法,比如做新的特征抽取。举个例子,我们会用共生的模式挖掘,去看这个患者既有高血压又有糖尿病共病,会不会是一个更加有意义的风险因素。这些因素以前医生不会考虑,是我们通过一些挖掘的方法得到的。包括一些共症共治,比如病人同时服用A药B药进行治疗,可能是一种很好的保护性因素,以前不会考虑A加B,或者A加B加C这样的问题。还有包括一些生理指标,比如血压。 医生首先有自己的家属,从800个量里面挑出15到20个,人群他不见得用4万个人,里面挑出一千个人做单变量多变量的回归去看统计是不是有显著性,这是目前医生使用统计常用的方法。 用人工智能方法来做的时候,比如说新的特征的抽取,举个例子我们会用一些共生的模式挖掘去看,这个患者可能既有高血压又有糖尿病,这样的一种共病可能是一个更加有意义的风险因素,这些因素以前医生不会考虑,这是我们通过一些挖掘的方法得到的,包括一些共治,比如说这个病人同时用了A药和B药进行治疗,以前医生可能用A或者B,并不会考虑A+B,还有像包括一些生理指标也是这样,比如说血压当前值是多少,如果这个病人血压高压是150,他是从90连续涨上来的还是一直持续到150,还是从180掉下来,医生不管,医生只通过一个时间来做判断,其实数据时间序列的信息没有很好的利用起来,这些都是用人工智能的方法,不管用RN建模或者其他分析的方法,可以很好的捕捉到数据之间时间序列的信息,利用这样的信息可以做更好的预测。 我们最后发现我们把所有的因素,我们不光发现哪一些因素有影响,同时每个因素的权重包括它的分类都列出来了,医生就会说这个病人因为病情太严重导致死亡的,还是治疗不给力导致死亡的,同时每个病人都会按照风险排一个序,横坐标是一个病人的患者号,所以高风险、中风险和低风险所有病人一目了然,这样可以帮助医生更好对病人进行管理。
第二个例子,我想介绍的是患者精准分群的分析,这个也是精准医疗里面非常重要的,就是什么叫精准?有两个极端,一个极端观点认为每个人都是不一样的,因为每个人的基因都是不一样的,每个人基因变异也是样的,作为个体化治疗要个性化到每个个体,这是一种很好的理想,但是现在做不好。 (责任编辑:本港台直播) |