本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】独家|机器学习先驱Michael Jordan清华演讲(5)

时间:2016-12-29 16:09来源:668论坛 作者:j2开奖直播 点击:
新的问题在于要把两个概念结合起来,把推理性和计算性结合起来。假设我们采集了一堆数据,我想保护数据库里的人的隐私,即在收集数据时给他们一个

  新的问题在于要把两个概念结合起来,把推理性和计算性结合起来。假设我们采集了一堆数据,我想保护数据库里的人的隐私,即在收集数据时给他们一个保证。但是我也需要思考准备用数据来做推测的那一群应用人群,我需要证明总体theta和样本theta很接近,在S、Q等一系列方面有很高的重合概率。这就是这种新的挑战。而且这不只是在隐私这一领域里的事情,这种挑战存在于很多领域里,比如(数据)压缩,你可能想研究:如果把一群数据压缩至渠道Q来发展一个压缩了的数据库,因为我有太多的数据,即便在数据被压缩以后,我依然想对总体数据做出可靠的推测。

  我的一位学生Yuchen Zhang今天正好在场,他是做这方面研究的,在“关于数据推测和压缩方面”写了几篇很不错的文章。加州伯克利大学在这个隐私问题上做了不少研究。我今天只简单讲一下这个。这是一个典型的隐私问题引导图,这里是隐私化数据,穿过一个渠道后这是Z值,是你愿意公开给统计学家的,他们通过这个计算某种估量函数,数学方面就一张幻灯片,这里的细节我就不讲了,于是我们建立了一个有限制性的优化问题,这个问题有种鞍点的感觉,也有更进一步的下确界。

  这个只是给观众里的专家看看,从红色地方开始,损失量的期望值的极限,在统计学里叫做最大风险,蓝色部分是估计函数的下确界,叫做极小极大风险。然后我们新加的部分是所有渠道的下确界,在这个叫alpha的保护界限,隐私程度这叫在alpha级的微分隐私度。加上那个以后我们现在有了一个大型优化问题,一定空间 、一定复杂度、一定数学特性,我们做了数学演算来解决这个问题,最终得到了不少答案,不过我们算出了一个很简单的结果,得到了一个没有隐私度的统计率。

  观察数据点的数量n,然后把n替换成n乘以alpha的平方除以alpha是微分隐私参数,是数据的维度,这样就得到了一个新的式子。这个新的式子通过原式的小小转变就能得到,目前我们真正地把隐私和统计学结合在了一起。它们就真正的在一个式子里了,这个式子包含一些统计变量:数据点的数量、维度参数和一个计算变量alpha,即微分隐私参数,我们有几篇论文,如果你对这类问题感兴趣的话可以看看。

  以上只是结合隐私问题来做推测的一个例子,更难的问题在于把推测和计算和一些更广的东西结合在一起。

  计算就是万物是不是?图灵告诉我们它无所不能,机器学习也只不过是计算的一种例子。我们能够说:我可以在一定时间里和一定的内存限制下,达到一定精准度和一定的问题,一定的估计函数和机器学习算法,这些都是计算机科学家做的事情。像谈论时间和空间等等,我做的就是加入统计误差的分析和数据的风险和量等统计学上的东西,搞出一套理论把计算机和统计结合起来。但我想说这是不可能的,目前我们没有这个能力,而且我认为图灵复杂度(Turing Complexity)不是向前发展的,而且很显然这不是发展趋势。最优化领域的communication复杂度这些这些可能会有用,它们中的某一个可能是最终的解决方案。这个领域需要新的想法,我们需要一种新的计算的概念。

  图灵的计算概念太笼统了,什么都是,但是我们不需在一个机器里做所有的事情,尤其是对于我们很多的运作器来说,改了一点日期它们不会改变太多,它们有很好的稳定性或者说利普希茨性质(Lipschitz)。我们可以想到一些有利普希茨性质(Lipschitz)计算理论,这些理论不会变化太多,图灵复杂(Turing Complexity)就没有这种性质,一点点改变就能完全改变得到的答案。你在计算机领域会很担心这一点,但在我们统计学领域并不需要担心那么多!

  所以也许,我们可以发展一个更限制性的“计算”版本,也就是说更适合统计“推测”。这张ppt展示了在这个问题上近10年的探究,没有一个是解决方案,但是它们都是将计算和统计学以各种方式结合在一起的尝试。最早的一个方式是把计算和几何结合在一起,然后把几何和统计结合在一起,最后从结合到推测。这些是计算和几何之间凸松弛和运行时间已经存在的关系,关于它们是有研究的,这样我们发展了一套平行理论。将几何与统计结合在一起:简单讲,当你把一个问题“弛化”时,运行时间就减少了,这是已知的,然后我们证明了当你进一步“弛化”这个问题的时候,统计学风险就进一步提高,所以运行时间和统计风险程度是呈负相关的。我们也研究过并发控制这个对数据库的人员来说很熟悉的概念,他们用这个来控制统计风险和时间的权衡,我们在最优化Oracle的最低范围上做过很多研究,包括最优化率,也得到了很多令人兴奋的成果。我们也有很多在二次抽样上的研究,你取更小的数据集尝试对它们作影响,然后把它们重新定位到大数据集里。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容