语音识别作为一种一维时域信号,在实际操作中主要有两个难点。首先是数据的获取、清洗。语音识别需要大量细分领域的标准化语料数据作为支撑,尤其是各地方言的多样性更是加大了语料搜集的工作量。据媒体消息,苹果iOS 10.3版本中Siri已支持上海话。 第二个难点是语音特征的提取,目前主要通过具备多层神经网络的深度学习来解决,多层的神经网络相当于一个特征提取器,可对信号进行逐层深化的特征描述,最终从部分到整体,从笼统到具象,做到最大程度地还原信号原始特征。 语音识别虽市场庞大但已出现领航者,留给创业公司的机会不多 据Research andMarkets研究报告显示,全球智能语音市场将持续显著增长,预计到2020年,全球语音市场规模预计将达191.7亿美元。根据Capvision报告显示,从语音行业市场份额角度来看,全球范围内,由Nuance领跑,国内则是科大讯飞占据主导地位。 语义识别:解决“听得懂”的语义识别领域中,新进入者仍具有一定机会 语义识别是人工智能的重要分支之一,解决的是“听得懂”的问题。其最大的作用是改变人机交互模式,将人机交互由最原始的鼠标、键盘交互转变为语音对话的方式。此外,我们认为目前的语义识别行业还未出现绝对垄断者,j2直播,新进入的创业公司仍具备一定机会。 语义识别是自然语言处理(NLP)技术的重要组成部分。NLP在实际应用中最大的困难还是语义的复杂性,此外,深度学习算法也不是语义识别领域的最优算法。但随着整个AI行业发展进程加速,将为NLP带来长足的进步。 语义识别技术拥有多样性的应用领域以及行业参与者 我们认为,基于语音识别和语义识别的智能语音交互技术在车载场景中存在刚需,也会成为最先爆发的领域之一。并且,随着车联网的纵深化发展,相关硬件趋于免费,依靠语音交互天然流量入口,做个性化增值服务将是未来车载领域的主要盈利点。 从1996年至今,国内至今仍在运营的人工智能公司接近400家。从下图可看出,自然语言处理(NLP)无论在创业热度、获投数量还是获投金额都处于细分领域的前三。据 Global Market Insights数据,预计到2024年市场规模达到110亿美元。 人工智能技术支撑层 计算机视觉:计算机视觉主要研究如何使机器具备“看”的能力 计算机视觉(computer vision,简称CV)是指用计算机来模拟人的视觉系统,实现人的视觉功能,以适应、理解外界环境和控制自身运动。主要解决的是物体识别、物体形状和方位确认以及物体运动判断这三个问题。计算机视觉识别系统通常需要三个过程:目标检测、目标识别、行为识别,分别解决了“去背景”、“是什么”、“干什么”的问题。 计算机视觉在技术流程上,首先要得到实时数据,此步骤可通过一系列传感器获取,少部分数据可直接在具备MEMS功能的传感器端完成处理,大部分数据会继续传输至大脑平台,大脑由运算单元和算法构成,在此处进行运算并给出决策支持。 动态人脸识别是最热领域,金融和安防是最热场景 计算机视觉应用场景可分为两大类:图像识别和人脸识别,每类又可继续划分为动、静共四个类别,基本覆盖了目前计算机视觉的各项应用场景。其中动态人脸识别技术是目前创业热度最高的细分领域,尤其是金融和安防场景,是其重点布局场景。 国内,计算机视觉领域的企业最早出现在1997年,2014年出现创业高潮,企业平均年龄在3.9岁。下表格为该领域目前存续的具备代表性的创业公司。 人工智能的应用场景层 AI+医疗:融合目前主要体现在智能设备和识别诊断两方面 (责任编辑:本港台直播) |