我们认为论文中声称的准确度高得有些不切实际。一个技术问题是,少于 2000 个样本实际上是不足以训练和测试像 AlexNet 这样的 CNN 而不会过拟合的。论文采用较旧的非深度学习方法给出的较低的准确率(其实还是很高了)可能更为真实。 还应该注意,作者无法可靠地推断出他们从网络获取的身份证图像都是“非犯罪分子”的;如果我们假设这些人是一般人群中抽取的随机样本,根据统计学,其中一部分人也可能从事犯罪活动。 另一方面,论文中使用的数据集都是来自 18 只 55 岁的男性,这可能也有问题,因为法官在判决时可能会首先考虑排除年龄偏见。 同样,论文中所示的 3 个“非罪犯”图像(见下文)中都穿着白领衬衫,而另外 3 名被判别为“罪犯”的都没有。当然,只有 3 个例子,我们不知道这是否代表整个数据集。但是,我们知道,深度学习技术是强大的,并且能够学会所有接收到的线索,正如 ChronoNet 除了图像内容的不同之外,还提取了细节,如胶片颗粒度。 机器学习不会区分因果关系和偶然的相关性。 机器学习究竟学到了什么? 排除可能会影响论文所声称准确度的技术错误和混淆,图像中捕获的人脸外观与“罪犯”组中的成员之间可能确实存在相关性。这些被称为“罪犯”的人脸部有什么独特的特征吗? 吴和张使用了各种技巧对此作了详细的探讨。对于较为简单的机器学习方法,其中会测量标准面部标记(landmark)之间的关系,这是特别容易的。他们总结说, “……犯罪分子从两边嘴角到鼻尖的角度 θ 平均值比非犯罪者的平均值要小19.6%,差异较大(has a larger variance)。而且,犯罪分子的上唇曲率 ρ 平均比非罪犯大 23.4%。另一方面,犯罪分子内眼角之间的距离 d 比非犯罪分子略窄(5.6%)。”[7] 关于这一点,我们可以从论文中的配图得到直观的了解。下图是论文中的图1,上面一排是“罪犯”,下面一排则是“非犯罪分子”。
上排是“罪犯”,下排是“非犯罪分子”。上排的人脸表情皱着眉头(frowning),而下排没有。深度学习系统可能会“学会”这样表面的区别。 论文作者只公开了上面这 6 个例子,这也有可能是故意挑选的。我们也做了随机调查(包括中国和西方国家的同事),如果必须在二者中选择一组,很多人也认为下面一排的 3 个人是罪犯的可能性小一些。一方面,尽管作者声称对面部表情做了控制,但是底部 3 张图像似乎都是显得在微笑的,而上排的 3 个人则似乎是皱着眉头。 如果这 6 幅图像确实是典型的样本,那么我们怀疑让一名人类法官将图像从微笑到皱眉来排个序,也可以很好地将“非罪犯”与“犯罪分子”区别开来。后面我们会阐述这一点。 人类又从中发现了什么? 值得强调的是,在这种(或任何)机器学习应用中没有超人的魔力。虽然非专家只能大概估计一张照片的拍摄年代,但大多数人[8]在识别人脸方面都非常敏感。我们能一眼就从比较远的距离认出自己熟悉的人,而且这样的人可能有成百上千个,注意到别人的凝视和表情的细微差别,并且所有这些都在十分之一秒内完成。[9] 吴和张并没有声称他们的机器学习技术在识别人脸面部细微特点(cue)方面,比不需要计算机辅助的普通人要强。不过,他们将其工作与 2011 年在心理学期刊发表的一项研究(Valla 等人,基于面部外观推断犯罪分子的准确性[The Accuracy of Inferences About Criminality Based on Facial Appearance])联系在一起,那篇论文也使用人类的判断得出了类似的结论: “……研究人员给实验参与者展示了一组罪犯和非罪犯的头像,这些图片都控制了性别、种族、年龄、吸引力和情感表现之后,也消去了任何显示图片来源的线索,结果表明,实验参与者都能够可靠地区分这两个群体。” 虽然吴和张使用的身份证 ID 照片而不是犯罪嫌疑人照片(mugshot),我们应该注意,Valla 等人的论文(尽管他们声称已经对摄影条件做了控制),作者比较的是被定罪人的照片和在校园里拍摄的学生的照片。可以认为,被捕后身处威胁和侮辱性的环境中,那时所拍摄的照片看起来与在大学校园里拍摄的照片看上去不同,因而论文的结论也值得商榷。 (责任编辑:本港台直播) |