wzatv:为什么现在的机器人交流起来像“智障”？因为(4)_本港台直播_J2开奖直播

说话人识别也就是声纹识别，简单介绍一下现有的I-vector的系统以及如何将DNN应用到对应的I-vector系统，同时我们也跟踪了最近end to end的一种方法。基于Ivector的系统，通过UBM模型来训练数据，然后训练得到混合高斯模型，通过统计量的提取，比如零阶一阶二阶我们来训练它的差异空间T，从而提取出它的Ivector，最后考虑到不同的补偿方式进行信道补偿，使性能更加完善，同时我们在合成端、最后识别端也可以考虑不同系统的融合提高最终的准确率。

wzatv:为什么现在的机器人交流起来像“智障”？因为

将DNN用到说话人识别，主要是针对Ivector的系统，UBM训练是一个无监督的训练方式，不考虑音速相关的信息，因此就不考虑每个人说话音速在声学空间上法人不同，我们可以将这部分信息运用到说话人识别中，将前面提到的Ivector需要提到的临界统计量，通过DNN模型的输出把临界统计量来进行替换，在训练Ivector的过程中，考虑了每个人音速，发音音速相关的不同特征，这样会更好的对说话人进行识别。

wzatv:为什么现在的机器人交流起来像“智障”？因为

DNN还有一种应用形式，采用bottleneck特征替换掉原来的MFCC，PLP相关的特征，这也是从音速区分性，每个人发音音速不一样来考虑的。

wzatv:为什么现在的机器人交流起来像“智障”？因为

百度前段时间提到的一个Deep Speaker，这部分最主要的优点是采用了Triple Loss这种方法，能很好的用于训练中。原来如果要训练一个说话人可能是输出是一个one-hot，但是speaker的训练语并不是很多，所以训练效果并不是很好，如果我们采用这种训练误差的，可以构建很多对训练参数来进行训练，这样模型会更加棒。

wzatv:为什么现在的机器人交流起来像“智障”？因为

以一个简单的智能客服平台技术原理说明它采用了基于状态转移图的结构来控制对话的进行，在这个状态转移图中，表示了所有对话片断与用户意图之间的关系，系统根据用户的意图和当前知识库中的对话片断转到下一个对话片断，并根据每个状态的定义对用户做出应答，整个对话的过程是在状态转移中实现的。

wzatv:为什么现在的机器人交流起来像“智障”？因为

智能客服平台训练阶段主要针对本身已有的系统进行简单的数，包括两个虚拟人，在运行过程中对虚拟人的提问，通过关键词抽取对关键词进行匹配，然后找到对应的它的状态相关的信息，得到最优问题解答再进行返回。

wzatv:为什么现在的机器人交流起来像“智障”？因为

POMDP是一个六元组，包括状态集合、观察集合、行动集合、回报函数、转移函数和观测函数，根据用户输入语句来得到意图分类，然后根据意图分类得到观测值，再通过对立面POMDP里面的训练分布进行更新，训练分布与POMDP结合得到动作，分析各个子动作得到反馈后再接收新的数据。比如我要去上海，它会问你从哪里出发，用什么交通工具，对应一些信息，比如说查天气，因为查天气的时候你需要反馈到是上海的天气还是北京的天气，这些都会根据上面的语句进行提问。

人机交互未来的研究方向

wzatv:为什么现在的机器人交流起来像“智障”？因为

除了前面提到语音作为主要接口的一种对话形式，我们也会考虑一些多模态相关的信息，比如对于用户和机器人，当中有一个人机交换属于人机协同，但是需要处理的信息会比较多，比如机器人会根据用户输出个性化声音，同时融合多元情感融合的处理，机器人会根据你输入的信息进行自主学习以及智能生长，这些都是将来人机交互这块需要考虑的问题。

wzatv:为什么现在的机器人交流起来像“智障”？因为

基于交互学习的知识问答和智能生长，目前最主要基于短时工作记忆，未来主要工作可能转换到长时记忆的转换，同时我们也能对新知识进行快速的学习和更新。

wzatv:为什么现在的机器人交流起来像“智障”？因为

(责任编辑：本港台直播)