本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】独家|机器学习先驱Michael Jordan清华演讲(4)

时间:2016-12-29 16:09来源:668论坛 作者:j2开奖直播 点击:
如果我是一个生物医学研究者,说我可以得到你的基因吗?我知道你拥有这些基因。他会问我:首先,你要用我的这些基因数据做什么?你会怎样保护我的

  如果我是一个生物医学研究者,说我可以得到你的基因吗?我知道你拥有这些基因。他会问我:首先,你要用我的这些基因数据做什么?你会怎样保护我的基因数据?

  如果我说这些数据是用于研究解决他的家族遗传疾病,他会非常乐意并给我他的基因。如果我说是用于计算并确定保险费率,他也会认为这是件好事情。他希望通过数据来保护自己。我可能会舍弃一些数据而仅使用其中一部分数据来做研究。

  如果我说我用这些数据来通过百度给你展示广告,他可能会拒绝,表示他不喜欢我这样使用他的数据。所以每个人都希望能够控制自己的数据,希望存在一种类似开关值参数的东西,来控制数据涉及隐私的程度。根据具体问题和有哪些保障来做出决定。所以为了把隐私考虑进去,这种事会成为数据堆的组建的一部分,而且这并不容易。

  下面我将通过一些图片来说明。我知道在坐诸位很多在研究大数据,那么让我们以大数据思维来进行下面的内容。假设现在数据库中是银行数据,我拥有一些人的年龄、身高、体重、地址,以及他们有多少存款,这是非常典型的银行数据。

  一个“询问”(query)可能是:谁的存款最多?或者存款平均值是多少?我会得到一个答案,我把它叫做带有波浪号的theta。如果你考虑到了数据库中的个人隐私问题,你可能就会想:如何在数据库中加入噪声来保护人们的隐私,这样就别人就不能掌握数据库中的原始数据,或者获得储蓄人的信息。

  于是你将它放入一个渠道(channel)或者一个随机的运算因子Q, 得到一个私有化数据库。在这个数据库中“询问”同样的问题时,你将会得到新的答案叫带有乘方号(^)的theta,并且有理论能够证明出来。

  带乘方号(^)的theta和带波浪号的theta是十分接近的,在Q上计算结果的概率很高,以及所有的“询问”和数据库,所以目前这个计算理论有许多不同的版本,其中最流行的是差分隐私(differential privacy),应用非常广泛。这会让数据库中有用的数据增多,即给出一个问题,通过一种算法来解决,同时也有了理论上的保证。

  这种方式有统计推理(inferential)的性质吗?当我第一次接触这个领域时,我问我做数据库研究的同事:“你在构建框架时进行统计推理么”?他们说那是当然,因为“询问”可以是统计性质的,比如可以计算平均值和标准差等等。但是我回答说 :“这并不是推理性统计(inferential statistics),这只是描述性统计(deive statistics)。”

  他问那推理性统计是什么意思?我说我们需要交流一下了。这里我举另外一个例子,一个来自医疗研究领域的案例。我有一些数据库中的人员信息,有他们的年龄、身高、体重、以及他们服用和不服用治疗药物的寿命,这是典型的医疗数据。好,现在,我想不想保护他们的隐私?当然想!这是他们的医疗数据!所以我会采用和前文讲的一样的保护数据隐私的方式。但是在银行数据库的例子里,我仅关注数据库中的人。他们是我数据库中的人,我希望知道他们的存款数额,他们的收入和支出情况,我仅仅对银行中的人进行研究(做询问)。

  然而在医疗案例中,我可能对数据库中的人丝毫不感兴趣,事实上数据库中的人可能已经死亡或者离开……我不关心这些人。我采集数据只是为了根据这些数据来为新的病人进行评估和治疗,所以我需要思考的是那些将来可能会纳入数据库但是现在还没有被纳入的病人的数据。这才是统计学的推理性思维——那些将来可能会纳入数据库但是现在还没有的,我想研究的是他们。

  这个思维不是从计算机科学里来的,而是从统计学推理思维来的。所以如果我是一个医生,病人走进我的办公室,我会根据他的年龄、身高、 体重来决定是否给他药物。但是我不能仅仅靠猜测,我需要根据从其他人处获得的旧数据做分析后进行判断,所以说我并不只对数据库里已经有的人感兴趣。

  这就是统计学家的思维:他们面对一个数据库时会思考“询问”,比如数据库样本涉及的人员数量。他们必须对人员数量非常清楚,不能随便说一个数,而且它们必须成为采样模型,可能是随机的、可能是线性的、可能是分层的……这是他们必须思考的问题。

  如果不这样做就得不到算法。你不能有个数据库就直接想用什么算法、怎么处理数据,这并不是统计学推理思维。你先得思考数据是怎么排布阵型的,然后思考过后你才能得到算法,所以统计学家会对人数(P)进行一个“询问”,询问那些将来可能会纳入数据库、但是现在还没有被纳入的病人的数据,接下来才能得到答案,我们把它叫做theta。统计学家证明了总体theta和样本的theta有很大概率在所有的采样(S)、所有的查询(query)和所有可能的分布下都很接近。这是统计学做的事情,是我们过去30年甚至更久一直在做的事情。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容