第二点,百度在语义理解技术上优势明显。语义理解不只是要求机器听得到,还要听得明白,甚至可以基于上下文对话。这需要自然语言处理技术的配合,去理解识别到的语音中的语义。百度是搜索引擎起家,在自然语言处理尤其是中文处理上优势明显,再结合任何智能技术,在语音交互上有度秘表现比Siri、Google Allo更好,甚至支持多轮交互,在语音应用上有自然语言翻译,这些都体现出百度在语义理解上的优势,百度语音开放平台也支持50多个垂直领域的语义理解,支持人机多轮对话。 第三点,则是非常独特的一点,百度不只是有语音开放技术,开发者往往会需要使用多种技术能力,一个App不能只有语音,可能还需要LBS位置能力,百度地图是最大的开发者平台;还有在人工智能上,百度提供语音合成技术、图像识别技术、自然语言处理技术、用户画像技术以及机器学习技术的开放,这些可能也是开发者所看中的,这也是百度相对于只提供语音技术能力的平台的优势。 第四点,百度所开放的不只是技术,还有用户、数据和计算资源。许多开放平台开放的是API,即技术能力,但开发者需要的不只是技术能力,互联网巨头都有自己的生态,它们可以吸引开发者的原因就在于用户、数据和计算资源,百度产品矩阵拥有数亿用户,其中不少用户有语音习惯,还有就是用户行为大数据以及云计算资源,这些都是开发者看重的。 语音大战新的主战场是什么? 不过,语音技术进入爆发期,还有许多应用空间,开发者有复杂多样的需求,百度语音开放平台将切下一块蛋糕,但不会吃掉所有的。接下来,语音技术还有许多重点领域要克服,除了抗噪、口音两大问题之外,语音接下来的关键竞争点在于: 1、语音唤醒技术。 我们通过“Hey Siri”“Ok Google”唤醒语音助手,这让语音助手随时待命,不过对移动设备来说有较高的功耗压力(Google Home和Amazon Echo音箱一直插电,不用考虑功耗问题),还有就是唤醒准确率存在问题,要么手机听不到,要么误判。还有就是唤醒的语句固定、不能区分用户身份,体验不够好。百度语音开放平台三周年时选择开放唤醒二期技术,功耗是友商的三分之一,唤醒准确率达95%,支持“茄子”启动拍照这样的自定义唤醒词,相信之后还会引入声纹识别技术区别身份。 2、远场语音交互。 现在语音交互技术对人与设备之间的距离有要求,要“对着手机说”,这其实是很傻的,我们在生活中与人对话,可不会距离这么近。在家里我们要控制电视机,还得对着遥控板说。远场语音交互技术解决的就是这个问题,它让机器可以听到几米外的人说的话,挑战也很大,有回音,有噪音,有衰减,百度已经自主研发了支持3-5米的远场语音技术,这意味着之后我们可以睡觉时让热水器启动,或者坐在沙发上直接对着电视发号施令了。 3、语音合成技术。 现在机器说话都很死板,我们很容易听出来一段话是人还是机器说的。接下来语音合成技术的关键是,让机器说话声音更像真人,不只是“音色”接近真人,而是更有情感,直播,抑扬顿挫、饱含深情。百度语音开放平台基于大数据和深度学习建模方式,在情感合成上有较好的表现,语音开放平台增加的一个新能力就是语音合成技术。 4、长语音识别。 输入一大段话的识别,过去对机器来说很有难度,涉及到断句等诸多方面,现在输入法,包括大会上演讲者的声音识别都有不错的表现,这表明长语音识别技术正趋于成熟。不过,要实现同声传译、用语音发邮件、写文章,甚至进行会议纪要,短期内还是很困难的,李彦宏、王小川等大佬们的说法也是“未来会取代同声传译”。当然,随着长语音识别技术的成熟,接下来语音还有更多应用场景,比如智能客服、内容纪要等等,取代同声传译不会这么快,但是最终一定会。 5、语义理解技术。 (责任编辑:本港台直播) |