本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > 要闻 >

码报:谷歌研究员质疑“看脸识罪犯” 交大教授回应(3)

时间:2017-05-17 18:48来源:澎湃新闻 作者:手机看新闻 点击:
即使标签中存在噪点,无论是随机的还是系统性的,也有科学办法能洗涤和恢复/提高结果的准确度。我们不能畏于民粹主义就在科学知识上让步。 过拟合

  即使标签中存在噪点,无论是随机的还是系统性的,也有科学办法能洗涤和恢复/提高结果的准确度。我们不能畏于民粹主义就在科学知识上让步。

  过拟合(overfitting)的风险

  批评者很快就指出了我们实验中所用的样本集较小,存在数据过拟合的风险。我们痛苦地意识到这个缺点,但鉴于某些显然的原因,我们难以拿到更多的中国男性罪犯身份证照片(这篇批评文章可能让我们丰富数据集的希望化为泡影)。然而,在如下所示的论文3.3章节,我们已尽全力验证我们的发现,这又被他们完全忽视了。

  “鉴于社会上对这个话题的敏感性和反响度,以及对面相术的质疑,我们在公布结果前异常谨慎。我们故意跟自己唱反调,设计实施了以下实验,以挑战分类器的正确性……”

  我们把训练集中的照片以五五开的概率随机标签为罪犯或非罪犯,看看四个分类器能否以超过50%的概率区别这两组照片。结果是四个分类器都失败了。一些类似的、更具挑战性的测试结果也是如此(详情参见论文)。这些实证结果,说明论文中分类器出色的表现并非由数据过拟合所致。否则,在样本集大小和类型一样的情况下,分类器也应能够区别两组随机标签的数据。

  “白领子”( white collar)

  批评文章也质疑道,罪犯组的身份证照片大多是不穿衬衫的,而非罪犯组的身份证照片大多穿了白领子的衬衫。在这点上,我们忘了说明,在实验中,我们训练和测试使用的图片全部是只抠出了脸部的。

  但不管怎样,这个“白领子”线索还牵出了另一个重要的细节,在这里我们需要向读者们道歉。这个细节是,我们无法控制那些实验对象的社会经济地位。我们不是不想控制,但基于保密协议,我们不能拿到元数据。考虑到这个微小差别,我们预期分类器的准确率在控制社会经济地位这一项后会下降。这是基于社会歧视的一个推论。事实上,也因此,我们认为这项研究结果对社会科学来说是有意义的。

  在论文中,我们还采取了一切措施,避免机器学习方法,特别是CNN,检测到图像间一些浅表的差距,比如压缩噪点或照相机的不同(参见论文3.3章节)。

  总之,我们感谢所有针对论文的问题和讨论,但坚决反对歪曲我们的初衷。比如James Weidmann说“武和张论文的意图正是如此”,这既不专业,也很傲慢。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容