新智元启动新一轮大招聘:COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。 简历投递:j[email protected] HR 微信:13552313024 新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。 加盟新智元,与人工智能业界领袖携手改变世界。 【新智元导读】2016年1月13日晚,百度人工智能代表“小度”与最强大脑选手孙亦廷在声纹识别上展开人机大战,最终双方战平。本文带来百度首席科学家吴恩达对百度声纹识别技术的全面解读,本次比赛百度使用了两个不同的算法模型:DNN-ivector 和基于端到端深度学习的说话人信息提取。另外,吴恩达还对深度学习当下的发展态势以及对抗生成网络进行了评论。 2016年1月13日晚,百度人工智能代表“小度”与最强大脑选手孙亦廷在声纹识别上展开人机大战,最终双方战平。在总比分上,这场人机大战依然留有悬念,双方将在下周迎来终极决战。 本周比赛的项目是凭借既有声音片段识别发声者身份,也就是所谓的声纹识别(Speaker Recognition)。比赛的设置是,最强大脑“听音神童”孙亦廷和小度需要凭借3位目标对象残缺的声音资料,在性别相同、年龄相仿、声线极为相似的专业合唱团中将她们分别找出,找出多者获胜。 从现场的情况来看,这一任务难度颇高,人和机器都只正确地找出了一位目标对象,正确率只有33.33%。 2个模型,2万人数据,5千小时训练 1月13日的媒体见面会上,百度首席科学家吴恩达(Andrew Ng)介绍了百度在此次比赛中所使用的人工智能技术:包含两个模型,一个是DNN-ivector,另一个是基于端到端深度学习的说话人信息提取。 DNN-ivector是目前被广泛采用的声纹识别系统。其主要特点就是将之前提取的声学特征按照一定的发声单元对齐后投影到一个较低的线性空间中,然后进行说话人信息的挖掘。直观地说,就是在挖掘“不同的人在发同一个音时的区别是什么”。 百度提供的资料显示,他们首先会用大量的数据训练一个能够将声学特征很好的对应到某一发声单元的神经网络,如下图所示。这样,每一帧特征通过神经网络后,就会被分配到某一发声单元上去。然后,会对每一句话在所有的发声单元进行逐个统计,按照每个发声单元统计得到相应的信息。这样,对于每一句话就会得到一个高维的特征矢量。
在得到高维的特征矢量后,会采用一种称之为Total variability的建模方法对高维特征进行建模, M=m+Tw 其中m是所有训练数据得到的均值超矢量,M则是每一句话的超矢量,T是奇通过大量数据训练得到的载荷空间矩阵,w则是降维后得到的ivector特征矢量,根据任务情况而言,一般取几百维。最后,对这个 ivector采用概率线性判别分析PLDA建模,从而挖掘出说话人的信息。 在实际中,百度训练了一个高精度的深度神经网络来进行发声单元的对齐,然后依托海量数据训练得到了载荷矩阵空间T,最后创造性地采用了自适应方法来进行调整T空间和PLDA空间,大大增强了模型在唱歌和说话跨方式以及短时上的声纹识别鲁棒性。 吴恩达介绍说,百度参加本轮次比赛的声纹识别模型一共包含了20000个人的声音数据,模型训练时间超过5000个小时。 第二个模型,基于端到端深度学习的说话人信息提取算法。这是一种纯粹的数据驱动的方式。通过海量数据样本以及非常深的卷积神经网络来让机器自动的去发掘声学特征中的说话人信息差异,从而提取出声学特征中的说话人信息表示。第一期的人脸识别也使用类似算法。
这一模型的训练,使用了数万个ID。 最终,小度的识别结果出自两套系统最后在得分域上进行的加权融合。 吴恩达:深度学习短期内还会更热 (责任编辑:本港台直播) |