猫哥在蜻蜓FM上的一档黑科技连线节目《未来科技局》终于上!线!啦! 第一期节目花了整整一周的时间筹备,我和我的小伙伴用音频连线采访到了双十一晚会上你看到的那个会变魔术的“ET先生”,它是阿里云的AI人工智能产品,本来希望它用马云的声音来接受采访,结果它还有点不好意思,所以就用原声了。想听的来找猫哥(猫眼科技:maoyantc)回复关键词“阿里云ET” 可以听到ET模仿马云的声音 阿里云AI专家连线内容(独家!) 猫:先请我们的科学家自我介绍一下吧? 陈:大家好,我是阿里云负责ET智能语音对外服务的陈一宁。 猫:你好,陈工。我们看到et能言善辩还可以模仿马云的声音。这个是怎么实现的呢? 陈:模仿马云的声音,这个是我们的语音合成技术。我们的语音合成技术原理是说它会根据一些已有的录音库生成一个与人的声音类似的模拟声音。那这个马云的声音实际上是因为我们收集了一些马老师在大会上的讲话之类或者是一些演讲的材料,根据这个我们做了一个音库。根据这个模型生成的一个对应的马老师的语音合成的声音。 猫:语音识别在ET的各项能力中处于一个什么样的地位?我看它有很多种能力啊? 陈:我认为语音识别首先是一个我们叫做听觉或者听觉中枢的一个作用!它实际上是在ET的这种人机交互的过程中是一个必不可少的很重要的作用。也是相对来说一个比较成熟和比较接近产品化的一种能力。它很多时候在我们需要跟ET交互或者ET需要理性的处理一些非结构化数据的时候,语音时识别都可以帮助我们能够进入到这些数据中,能够让我们的交互可以开始发声。人机交互嘛!所以需要人说一些事情让机器去理解它。语音识别是这些理解的第一步,先把它变成文字,然后才能开始做进一步的理解和进一步的交互。 猫:从现在全球的情况来看,语音识别的应用情况是怎么样的?从专家的角度如何看这个事情? 陈:全球来看的话,语音识别应用还是比较火热的吧!现在有很多种应用领域,我们一个一个来说吧,比如说从这个人机交互的角度来说其实现在有很多这种助手类的产品,比如苹果的siri,比如微软的小娜,比如亚马逊的echo等等这样的产品。实际上都是在做这种比如手机特别是IOT设备上的语音交互产品。他们都需要语音识别的技术。那么再往下一点,开奖,比如在做车载系统,如果你想跟车载做一些交互,基本上智能汽车对于语音识别技术都是不可或缺的部分。同时如果对于商用的系统,对于这种全球的客服,比如我们民航的这种退票和改签服务应用,还有比如说在医疗领域一些医生处方或者医疗记录中发挥作用。 猫:现在语音技术,还有没有面临挑战的地方?阿里云是如何应对这种挑战的? 陈:语音识别这个方向上我们觉得现在遇到的挑战有几种吧,一个是比如说想噪声的这种挑战,那么现在碰到的情况就是在干净的情况下或者说噪声很小的情况下语音识别的效果还是不错的,但是在这个噪声比较大的时候,这个识别率就会相对有所下降。还包括说话有一定口音的情况下。标准普通话标准语音会好一些,但是有口音的情况下,识别率也会有下降,然后还包括说话的年龄过小或者过老也会有一些影响,会打一些折扣。那么阿里云我们认为在这里面最主要的都是数据的问题。包括我们刚才讲到说抗噪声的理由,识别率低实际上都是因为我们没有足够的噪声语音在里面。那么我们阿里云会采用一些技术,通过人工的方式记录或者采集的方式获得大量的这种含噪声的,含口音的等等的这些语料,通过我们大规模的大数据方式做一些计算,把这些海量的数据结合在一起就能够做出很多在各种情况下应用会比较好的语音识别的效果。还有提到比如中英文混杂的效果,atv直播,这是一个很头疼的问题,那么我们也会通过各种识别材料增加的方式来达到最终的满意度。 (责任编辑:本港台直播) |