去年,Twitter 收购了创业公司 Madbits,根据《连线》的报道,这家公司开发了一种在鉴别危险内容(NSFW)上可以达到 99% 识别率的程序。而在 9 月底,雅虎也开源了。但人工智能真的能够消灭色情吗?(额外的福利:一个训练数据集既可以用来训练识别模型,也可以用来训练生成模型。加利福尼亚大学戴维斯分校的学生 Gabriel Goh 就利用雅虎开源的 open_nsfw 训练了一个色情图像生成模型。警告:此链接的内容可能会引起一些人的不适。)
「我今天不会尝试进一步定义我所理解的这种物质(赤裸的色情),也许我永远都不会成功。我敢说我一看到就知道它是不是,而关于本案的这部电影,则并非如此。」──美国最高法院法官 Potter Stewart 我们不能教会电脑我们自己都不明白的东西,但我们不会阻止雅虎对屏蔽色情信息的不断尝试。 在1964年,最高法院推翻了对 Nico Jacobellis 猥亵的定罪,他是一位克利夫兰的剧场经理,被指控传播淫秽作品。有问题的那部电影是 Louis Malle 导演的「The Lovers」,讲述了由 Jeanne Moreau 饰演一名家庭主妇,厌倦了她的丈夫和马球比赛,在一个炎热的夜晚和一个年轻人私奔的故事。而说到「热」,我的意思是其中表现了粗重的呼吸,还有乳头一闪而过──准确地说,没有什么你在有线电视上看不到的。 用几个简单的字,大法官Stewart 做到了几乎不可能的行为──创造了对于色情的定义:「我见即我知(I know it when I see it)」。 美国人对于性的看法自1964年以后出现了很大改变。在 Jacobellis 在最高法院出庭后不久,美国出现了性解放运动,20世纪70年代又出现了色情业爆炸性的发展,而说到最近几年,网络出现了。今天任何能连接网络的人都可以在几秒钟内同时搜出射精和珍珠项链的图片。时间过了很久,我们却面临着相同的问题:我们仍没有对于色情和淫秽的普遍定义。 Jean Moreau 和 Jean-Marc Bory 在「The Lovers」中的表演,其中没那么露骨的画面(图片:Getty Images) 在互联网上人们可以不受限制地访问猥亵,肮脏和疑似猥亵的内容,这种情况催生了各种形式的内容审查,技术上,人们开始使用算法和先进人工智能程序来鉴别和清理色情内容。去年,Twitter 收购了 Madbits,一家小型初创企业,根据《连线》的报道,直播,这家公司开发了一种在鉴别危险内容(NSFW)上可以达到99%识别率的程序。而在9月底,雅虎开源了其研发的深度学习人工智能色情内容过滤解决方案,其他公司也正在做着同样的事。 互联网巨头们近年来一直在投入巨资试图解决色情内容的问题。但他们面临的问题是,审查是一种封闭,淫秽本质上是主观的。如果我们无法对什么是色情达成一致,我们就不能有效地训练我们的计算机「我见即我知」。无论技术的复杂性或界定方式如何,色情识别程序仍需要依靠人类的判断来告诉它们什么是 NSFW。 「有时一个裸体儿童不止是裸体。」 在互联网早期时代,美国的图书馆和学校基于搜索关键字过滤色情内容,以使内容满足儿童互联网保护法案(Child Internet Protection Act)的规定。顾名思义,这项条例旨在保护儿童远离互联网上的阴暗内容,特别是「那些在未成年人可以登录的电脑上出现的(a)淫秽;(b)儿童色情;(c)对儿童有害的图片。」 但事与愿违。 在2006年纽约大学 Brennan 法律中心的一项报告中,研究者们对早期关键字过滤和其人工智能的后继者有如此的定义:「强势,经常不合理,审查工具」。 「过滤器的复杂和无限增加的关键词让人类的表达方式越来越受限制,」报告中说。「它们孤立了单词和短语,让人类的表达价值减退。一个不可避免的结果将是这种方式会让医疗,司法,艺术和很多其他行业的研究遇到限制和阻碍。」 这份报告发现目前流行的过滤器令人难以理解地屏蔽了 Boing Boing ,GLAAD,罗伯特·梅普尔索普和第三十届超级碗,同时经常反映了其创作者的政治和社会偏见。雅虎和谷歌已开始使用基于复杂图像识别的人工智能过滤器代替了关键词搜索,然而这些算法仍然依赖人类去教育它们辨别什么是可以接受的信息。而 Facebook 最近也发现,图片过滤比关键词好不到哪儿去。 (图片:美联社) (责任编辑:本港台直播) |