值得一提的是,中文自身的发音特性或许可以缩短唇语识别投入实战的时间。拿普通话来说,一共有1270个发音,不考虑声调差别,有近400个不同的发音,每个发音都有对应口型,中文发音较英文为少,一字一音,规律清晰,只要使用正确方法,中文唇语识别其实更易获得高准确率。 事实上,唇语识别并非这家曾被比尔盖茨造访,行事却颇为低调的数据运营商首次触及AI领域,作为中国大数据可视化的领跑者,海云数据去年就已经通过“图易大脑”触及到了AI领域——要知道,大数据与AI本就是“鱼水之欢”,可视分析底层就是计算机视觉,而计算机视觉在AI领域应用之一就是唇语识别。将AI与可视分析进行强捆绑,未来通过成熟的产品为客户提供服务,势必成为这家公司变现的催化器。另一方面,海云在可视分析领域长期的积淀,以及在公安等领域的数据积累和服务体验,对于其研发唇语识别也提供了重要的助力。 唇语识别可以用来干什么 相比于唇语识别的技术路径,人们更关心,它将用于何处。 不妨先说回那位让女王糟糕的婆媳关系浮出水面的读唇人,她叫杰西卡·里斯,是英国知名的“读唇女王”,自幼失聪的她却对唇语颇为敏感,就像侦探电影经常上演的那样,杰西卡的“奇异功能”被官方所看重,英国皇家检察院曾雇佣她成为英国唯一的“官方读唇证人”,试图通过她去解读警方用监控摄像机拍下来的嫌犯录像,从而提供关键证据。只可惜,杰西卡却在后来遭遇了信誉危机,英国专家对其读唇能力测试之后,证明她的读唇其实经常出错。 而如前所述,在唇语识别上,机器已远超人类——并向95%以上的精准度狂奔而去,这意味着,杰西卡没能做到的事,人们完全可以更加放心地交给机器。这也正是海云数据正在布局的。要知道,公安系统中视频信息量颇为庞大,且在安全态势和案情分析中发挥巨大作用,但它们很多都以“默片”方式存在(毕竟人物活动地点离摄像头都有一定距离),只看得清嘴型,却不知说些什么。针对于此,海云数据通过在人的嘴巴上部署诸多识别位点,通过位点判断嘴型,判断视频中人所讲出来的关键性内容,这无疑能巨大释放视频图像里面的信息——换句话说,在人工智能的加持之下,海云的可视分析系统能够从声音,atv直播,图象,视频,空间和地理信息等多重纬度,进行综合态势的判断,可以大幅度丰富其现有的公共安全大数据一站式解决方案。 除了公共安全,在“私人”安全上,唇语识别技术也大有可为。你知道,atv,当万物互联时代即将来临,身份识别的下一篇章势必由指纹,人脸,虹膜等生物识别技术替代,从而将人们与机器的信任关系提升一个安全系数。最直接的例子当然是安防。如今在上述常见的生物认证之外,“唇语密码”也可作为重要方式:识别系统从嘴唇图像列序中提取形状,质地和动作等特征,通过训练建立模型并确定临界值,最终决定接受或拒绝密码。毕竟,唇语拥有非常高的不可复制性(两个人说同一句话,嘴唇动作特征完全不一样),且不同于指纹和人脸这些静态生物特征被盗取后无法重置,人们可以随意改变唇语密码。 除此之外,唇语识别在很多领域都可以带来巨大福祉,诚如牛津大学研究员Yannis Assael所言:“我们相信AI唇读是一种非常实用的辅助性技术,比如更智能的助听器,不便出声的公共场合,以及在嘈杂环境下精准的语音识别等。” 嗯,就拿海云数据来说,当其可视分析能力配之以人工智能,无疑会大幅提高在公共安全,军事情报和残障教育等领域的竞争力。举例而言:通过唇语识别,让无法开口说话的残障人士“开口说话”;让听力障碍者和不少老年人更清晰地听懂他人;而在军事情报领域,唇语识别让远距离获取情报成为可能。 可以预见,在未来,当古老的读唇术被人工智能发挥到极致,希望世界会变得更好。 李北辰/文(知名科技自媒体,致力于用文字优雅的文章,为您提供谈资与见识) (责任编辑:本港台直播) |