去年10月2日,西甲赛场,皇家马德里在主场被实力一般的埃瓦尔逼平,比赛结束后,主场球迷嘘声四起,夹杂谩骂,这惹恼了步入球员通道的当家球星C罗,他被媒体拍到小声嘟囔着什么,就当C罗默认只有他自己知道在抱怨什么的时候,《阿斯报》请来的唇语专家告诉大家,C罗在说:“Qué poca calma!”,大致可以解释为:“能不能安静点!” 这并非“读唇术”首次揭穿名人的唇语。另一个更著名的案例是,早在当年英国查尔斯王子迎娶卡米拉时,唇读者就成功破解了伊丽莎白二世与儿子的低语,也让女王糟糕的婆媳关系浮现在大众眼前。所以公众人物大概并不喜欢那些唇语专家(何况他们许多时候充斥着臆测成分)——但令C罗们遗憾的是,当人工智能在各领域渐次开放,在唇语识别上,机器也已经做的比人类好了。 从技术路径上,唇语识别是一项集机器视觉与自然语言处理于一体的复合型技术:系统通过机器视觉从图像中连续识别出人脸,提取口型的连续变化特征,随即将连续变化的特征输入到识别模型中,识别出讲话人口型对应的发音,从而计算出可能性最大的表达语句。 人类费尽心力开发AI,当然不是为了满足自身的窥私欲。事实上,让机器习得“读唇术”,在公共安全,军事情报,身份识别和社会公益等领域,都藏匿着颇为重要的应用场景。 嗯,在人工智能即将大范围落地的前夜,国内从业者扎堆涌入的,大多为语音识别,图像识别,人脸识别,机器翻译,无人驾驶,虚拟助手和个性化内容推荐等领域,相较这些聚光灯之下的落地场景,唇语识别相对冷僻。但常识是:人工智能未来将会出现一个数万亿美元的巨大市场,在面对具体乃至细碎的应用场景时,人工智能的细分程度,势必如百年前的电力那般触角庞杂。而广袤的嫁接空间也意味着,从真实应用场景出发,人工智能领域会出现不少蓝海市场,被国内巨头忽视的唇语识别就是其中之一。 唇语识别在国外早有先例(譬如谷歌,后面会谈到),但成熟的唇语识别系统需要建立在大量人脸特征样本的基础上,鉴于人种的生物特征以及语言特征区别,不能完全照搬国外系统。据悉目前这一技术在国内的领跑者是长期深耕于公安,交通,航空和军工等领域的海云数据——他们训练了超过1万小时新闻类节目,用来判断嘴型的准确度和语言的准确性。 那么问题是:相较于大众更熟悉的其他生物特征识别,教会人工智能“读唇术”,究竟意味着什么? 机器“读唇术” 事实上,与人类天生拥有超强的面部识别能力不同(“脸盲”甚至被当做一种病),人类体内并无任何“唇读”基因,任何人都需要枯燥的后天训练,且很大程度上取决于对语境和语言本身的了若指掌。而如今,机器可以比唇语专家更精确地识别这个无声的世界。 如你所知,更便宜的计算,更好的算法,以及更大的数据量,让六十年来不断幻灭又重燃希望的人工智能时代近在咫尺。其中最关键的变量就是数据量的井喷(许多深度学习基本模型在上世纪八九十年代就已出现,但数据的稀缺令这种伟大的基础框架偃旗息鼓),海量数据是“喂养”多层神经网络的饲料,也得以让深度学习以一种非常精炼的算法模型解决了过去复杂的输出模式。 唇语“语料”也一样,为识别系统输入海量优质数据显得尤为重要。这里必须提及谷歌的人工智能公司DeepMind——要知道,去年在AlphaGo击败人类之后,DeepMind就把与人类的下一个竞赛场切换至读唇术上:他们与牛津大学的研究者使用总长超过5000小时(2010 年 1 月至 2015 年 12 月间的电视节目素材,如BBC 各类节目,总语句超过118000的新闻视频)完成了对人工智能的训练,然后使用 2016 年 3 月至9 月间播出的节目进行测试——结果发现,给予相同的视频素材,专业唇语识别专家能达到12.4%的正确率,而AI系统识别正确率则是46.8%,高出了大概3倍。 再看国内这边,截至目前海云数据训练新闻类节目时长是1万小时(为什么是新闻类节目?当然是因为播音员的唇语最标准……)。据媒体报道,目前他们在英文方面可以达到80%的准确度,中文方面则是71%。当然,考虑到语音识别和人脸识别的准确率几乎都达到95%以上,唇语识别真正投入实战还尚需时日。 (责任编辑:本港台直播) |