“为了验证我们的假设,即一个人面部的物理特征与其内在特质、社会行为间存在相关性,运用现代自动分类器去区别罪犯和非罪犯,测试其准确率是非常有说服力的。如果面部特征和社会属性真的相关,这两类人群应该是最容易区分的。这是因为,犯罪需要人格中存在很多不正常(离群值)。如果分类器的区别率很低,那么我们就能有把握地否定对面部进行社会性推定的做法。 令人震惊的是,来自谷歌的作者们将上述段落断章取义,凑成了下述臆断强加于我们。 “那些上唇更弯曲,两眼间距更窄的人在社会秩序上更低级,倾向于(用武和张的原话说)‘人格中存在很多不正常(离群值)’,最终导致在法律上更可能被判定犯罪。” 我们认同“犯罪性”(criminality)这个词有点尖锐,我们应该打上引号的。在使用这个词的字面意思,把它作为机器学习的参考标准(“ground truth”)的同时,我们没有警告读者,输入的数据存在噪点。这是我们的严重疏忽。然而,在论文中我们始终保持了一种严肃的中立性;在引言部分,我们声明道: “在本文中,我们无意也不够格去讨论社会偏见问题。我们只是好奇,全自动的犯罪性推定能有多高的准确率。一开始,我们的直觉是机器学习和计算机视觉会推翻面相学,但结果是相反的。” 我们清楚地声明了无意也不够格去解读,但却被来自谷歌的作者们过度解读了。这不是我们习惯的学术交流方式。此外,我们还后悔不该选择使用“physiognomy”这个词。它最接近的中文翻译是“面相学”。我们对这个词在英语国家里固有的负面涵义不够敏感。但是,仅仅在文章中用到这个词就足够贴一个科学种族主义的标签了吗? “基础概率谬误”(base rate fallacy) 来自谷歌的作者们是“为广大的受众,不只是为研究者”写这篇文章的,但他们随意地忽视了一些非技术流的博客和媒体报道里出现的“基础概率谬误”迹象。 人脑往往会被一个特定事件的高条件概率锁住,而忘记了该事件在大环境里发生的极低概率。我们文章中最强的基于深度学习的面相分类器有89%的识别率(注意:这是基于我们目前的训练数据,还有待用更大的数据核实),很多人就认为,这么高,这还不一试一个准!(国外就有文章报道我们时就惊呼“correct 9 out 10 times”)。有人在网上调侃 “教授,把你的脸放进去试试”。好吧,这倒是蛮好玩的。假设我的脸被测阳性(被认定为罪犯),直播,我有多高概率有犯罪倾向呢?计算这个概率需要用贝叶斯定理: P(罪|+) = P(+|罪)*P(罪) / [ P(+|罪)*P(罪) + P(+|非)*(1-P(罪)) ] 上式中P(+|罪)=0.89 是罪犯的脸被我们深度学习测试方法判阳性的概率,P(罪)=0.003是中国的犯罪率,P(+|非)=0.07是我们方法假阳性(把一个非罪犯判定为罪犯)的概率。将这些数值代入贝叶斯公式,结果是武筱林有3.68%的概率犯罪。我想,这一路从89%到3.68%走下来,原来不少骂我们的人就释怀了吧。那些叫着要纪委用我们的方法的网友也该歇歇了。不过,我这里再次郑重声明,我们坚决反对在执法司法中使用我们的方法,原因不仅仅是上面演算的结果。 基础概率谬误是媒体惯用的伎俩,夸张地描述某项大众所不熟悉的新技术或新研究,借此操纵大众,逐步灌输对人工智能研究的不理性恐惧。 无用输入(Garbage in)? 尽管我们对来自谷歌的作者们的精英主义论调感到不适,但我们认同他们提出的进步性的社会价值。他们实在没必要像编年史一样列出历史上那些臭名昭著的种族主义者,接着把我们列在后面。但起码在理论上,独立于主流社会观念的研究客观性是存在的。 我们都很了解“无用输入”和“无用输出”。然而,来自谷歌的作者们似乎在说,因为输入数据中人类的偏见是无法避免的,所以机器学习工具无法用于社会计算。就像大多数技术一样,机器学习是中性的。如果像他们说的,机器学习可以用来巩固社会计算问题中的人类偏见,但机器学习也可以用于发现并矫正人类偏见。他们担心反馈循环的问题,然而,反馈本身就既可以是负向的,也可以是正向的。就算“犯罪性”是个十分复杂的问题,受过良好训练的人类专家可以努力确保训练数据的客观性,也就是说,能使用独立于嫌犯外貌的正确判决。如果数据标签是不带人类偏见的,那机器学习在客观性上无疑是优于人类判断的。 (责任编辑:本港台直播) |