柯洁与Alphago的人机大战刚刚落下帷幕,计算机围棋顶级专家、阿尔伯塔大学Martin Müller教授出席了机器之心于5月27日-28日主办的2017全球智能机器峰会(GMIS2017)。出席大会的有众多来自美国、欧洲、加拿大及国内的顶级专家学者,兼顾学界与产业、科技巨头与创业公司,以专业化、全球化的视角带来了一场智能盛宴。 智能语音是GMIS2017全球智能机器峰会的一个重点论题,近些年来在深度学习的推动下,直播,语音识别的准确度在一些评测标准上已经超过了人类水平。国际语音学术领域的顶级学者及业界领军人物悉数出席大会,如LSTM之父Jürgen Schmidhuber、腾讯AI Lab副主任俞栋、Citadel首席人工智能官邓力、加拿大麦吉尔大学语言学副教授&科幻电影《降临》的科学顾问 Jessica Coon、搜狗 CEO 王小川、科大讯飞执行总裁胡郁、思必驰首席科学家俞凯等,从技术研究及产业应用的角度,剖析人工智能语音技术的应用及发展。 腾讯AI Lab俞栋:语音识别领域的前沿研究 俞栋是腾讯AI Lab副主任,语音识别和深度学习领域的著名专家,此前任微软研究院首席研究员,atv,兼任浙江大学兼职教授和中科大客座教授,IEEE语音语言处理专业委员会委员。现场,俞栋发表了《语音识别领域的前沿研究》主题演讲,探讨语音识别领域的4个前沿问题。 图2 腾讯AI Lab副主任俞栋 第一个前沿问题是如何构建更有效的序列到序列(Sequence-to-Sequence)直接转换的模型,目前最佳的解决方案是把 CTC 与 Attention 结合起来,CTC有持续信息,可根据后面的语音信号生成词,这有助于 Attention生成更好的表达,两者结合比CTC、Attention各自训练效果更好,所以是一个1+1大于2的结果。 第二个前沿问题是鸡尾酒会问题,指在嘈杂环境中,屏蔽周围说话声或噪音,将注意力集中在某一个人的声音上,听懂要关注的那个人的说话声音,这是较难解决的一个问题,目前利用麦克风阵列、选择更好的分离模型等办法都在尝试解决此问题。 第三个研究方向是建造一个持续预测与适应的模型;第四个研究前沿则有关远场识别以及如何做前端和后端更好的联合优化问题,通过做一个自动的系统,较好地分配信息的信号处理,使前端可以比较少地丢失信息,从而在后端把这些信息更好地利用起来。 科大讯飞胡郁:人工智能如何改变世界 图3 科大讯飞执行总裁、消费者事业群总裁胡郁 科大讯飞执行总裁、消费者事业群总裁胡郁则从人工智能的技术的应用与价值角度进行了分析,表示,在深度神经网络的进展方面,利用深度神经网络和大数据,特别是涟漪效应,使讯飞在语言识别、自然语言理解取得进展。在人工智能技术的应用价值上,一方面,改变人机交互的方式,从而改变消费者领域产品的形态,从最初的键盘、鼠标,到触摸,再到现在人机交互、语音交互的产品正成为一个新的方式;另一方面,人工智能可以通过从专家这样的稀缺资源学习,构建专家系统。 胡郁指出,人工智能的发展,随着运算智能、感知智能、运动智能和认知智能的发展,将对人类生活产生巨大改变,但是人工智能不会替代人类的职业,它会改变人类的职业,帮人类节省时间,让人类的时间使用更加有效。 思必驰俞凯:人机对话系统“智能的感知+认知的进化” 俞凯是上海交通大学教授、思必驰联合创始人/首席科学家,曾为英国知名语音公司VocallQ(现已被苹果收购)的创始人之一。28日上午,俞凯发表了主题为《迈向智能认知型对话交互》的演讲。 图4 上海交大教授、思必驰联合创始人/首席科学家俞凯 俞凯指出,目前,从语音识别精准度、搜索速度等感知角度来看,机器系统已逼近人类水平,例如思必驰上海交大实验室推出的VDCNN抗噪算法模型、PSD新型解码框架等,均在语音识别领域取得了成绩。但目前,仍有很多问题存在,如声源定位及追踪、远场、低功耗、非配合式语音交互、主题或应用领域的演变等等,其中“非配合”几乎是最难解决的问题,这种“非配合”往往体现在语音信号、语言范围等方面。 (责任编辑:本港台直播) |