本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】智能语音行业应用的机会,看这篇近万字文就解了(5)

时间:2016-11-16 10:07来源:香港现场开奖 作者:开奖直播现场 点击:
王砚峰:这几个指标其实最终统一到一个描述,就是“计算力”。在当前深度学习的背景下,网络结构的复杂和参数的增加带来的就是精度的提升和实时性

  王砚峰:这几个指标其实最终统一到一个描述,就是“计算力”。在当前深度学习的背景下,网络结构的复杂和参数的增加带来的就是精度的提升和实时性的下降。想要解决这个问题,只能是计算能力更强的硬件。

  具体而言就是CPU已经不够了,你要用高性能GPU或者FPGA作为线上服务器的计算模块。而如果是离线端,想要保证达到和在线接近的效果,也只能是利用嵌入式GPU以及FPGA的方式去做。这方面随着模型复杂度的提升,专用芯片可能是个趋势。比如在线服务下并发量很高的情况下,可以用并行化的算法跑在GPU上面。但是离线端都是本地处理,谈不上高并发,所以可能FPGA就会更经济更合适。当然,具体情况具体讨论了,没有一个完全统一的准则。

  提问8

  黄力 博汇科技 BD

  目前哪种框架开发的算法,在语音识别上实时性最好?比如Tensorfollow或Caffe 等,哪个更适合语音实时性的算法开发?

  王砚峰:目前开源软件普遍重训练,这部分对实时性要求不高,实时性更多体现在解或者inference上,这部分想实用化还需深度优化,而且解码的过程也一定要结合识别本身的任务还有计算平台来深度定制,实时性(时间复杂度)和模型复杂度要做综合考虑,目前我们团队快速训练小规模数据时会考虑tensorflow,inference阶段我们是自己开发的解码器,但是tensorflow的inference在跨平台上的工作还是很不错,适合快速验证能力模型。但是一旦到了训练几万小时的线上模型的时候,并行训练平台也都是我们自己的,也并不采用tensorflow。

  提问9

  韩云飞 e道伴侣 语音交互设计师

  1、抛开语音技术程度,语音目前的智能程度大概在几岁,在国内未来会有哪些行业

  2、我觉得语音是趋势,但也只局限在某些行业,哪些行业将受益,我们这些技术、交互能坐在哪个位置?

  王砚峰:我想你提的问题是抛开语音识别准确程度,如果只看文本,智能程度大概在几岁。负责任的回答,这个没有可比性。你问一个十岁的小孩知不知道天为什么是蓝色的,可能他完全不知道。但是对于一个一岁的小孩儿,你教他衣服上的一个商标,他以后看到的衣服或者鞋子上的商标他都可以指出来,但是机器不行。所以机器智能和人工智能,一个是靠大数据去堆,一个是靠抽象和推理能力,是根本不同的两条路。

  至于行业问题,我在之前的分享中已经多次提到了。车载、智能家居和可穿戴。坐在什么位置,取决于你在产品中带来的价值。比如对于车载导航,那就是非常关键的位置,是入口,在你手和眼睛被占用的时候,就是你的唯一解决方案。但如果是抽油烟机,语音只负责控制开启和停止,那价值就很小,我随便一抬手就可以替代掉,而且我既不会在客厅里面喊抽油烟机让它开关,也不会无聊到让抽油烟机跟我唱歌或者说话。所以本质上抽油烟机是不需要对话上的智能性的,所以语音在其中的价值最大程度上也只能是噱头,只能利用市场的不理性时机打一个时间差。

  提问10

  于小利 缤特力 声学工程师

  相对于其他语音服务,搜狗语音服务有哪些优势和劣势?

  王砚峰:搜狗语音服务的优势主要有三个:

  第一借助于搜狗输入法垄断的市场地位,我们每天能收集到的用户真实语音数据有十几万小时,里面包含了各种用户真实场景下的噪音,口音等,这帮助我们极大的优化了我们的鲁棒性,因此我们的语音在真实环境下表现非常出色;

  第二我们背后有搜索服务的支持,这也是早年间我们为什么能快速推出语音助手的原因。我们拥有各个垂直搜索以及对应的知识图谱,这对我们语义理解和对话的帮助极大。

  第三我们有丰富的产品经验,会想办法通过产品设计,对话的设计来提升语音交互的体验,就像之前给大家看到的语音修改。这里我再举一个智能导航的例子,如果我们更清楚的了解用户在导航时候的习惯以及问路的方式,就有机会让导航的交互体验更好。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容