10月15日的YunOS智慧专场探讨了物联网很重要的一个环节——感知,这里的感知定义的范围十分宽泛,时空感知,语音感知、图像感知等,一系列“感”和“知”的过程最终实现机器无限趋近于智能化,从而更好的理解世界。比如机器人通过图像感知实现图像内容理解,让语音感知自然语言,从而作出正确反馈;汽车通过感知交通标志作出安全驾驶动作,保障用户驾驶安全。这些感知计算需要技术革命推动,更需要YunOS这个平台构建完整的协同系统,从“感”到“知”,YunOS在智慧专场中向我们展示了它的多项技术能力。 图像感知:让机器理解世界 万物互联时代,手机等智能设备所携带的图像传感器感知的内容会呈现几何级增长,对海量图像内容的理解成为一种挑战。阿里将对图像的理解作为YunOS的一项基础能力,为此搭建了YunOS Vision平台,围绕手机、互联网汽车、机器人以及其他IoT终端产生的图像开发出图像增强、场景识别、检测定位、视觉建模等引擎,通过机器学习将图像转化为人脸识别、文字识别以及内容理解能力,最终通过YunOS Cloud API服务于购物场景(淘宝)、支付场景(支付宝)等。 阿里希望通过YunOS Vision实现从简单识别任务到图像内容理解,比如一开始你可以识别出图片中的物体(照片分类),atv,接下来做到目标物体识别(人像分组),继续深化到细粒度物体识别(视觉识别),最终实现图片的自动描述(智能问答)。现阶段YunOS正在通过利用来自互联网的大规模图片进行数据训练,并通过海量用户的参与让图像理解能力不断提升。 图像识别终极目标 图像感知能力所运用的场景十分广泛,并且已经有部分能力被运用到生活当中,我们来看一看: 1、自动拍照增强 YunOS Vision可实现10+种以上场景的自动识别以及全姿态人脸检测,通过150+的面部特征捕捉实现人像增强,做到头部3D姿态估计和跟踪和个性化人像处理,比如美颜、3D美妆,甚至做到虚拟试戴,为淘宝商家提供全新的商品虚拟体验服务。 2、视觉识别 视觉识别服务中融入了二维码、封面、明星脸、文字/地标识别、拍立淘商品识别等识图服务,你可以通过手机扫码的形式,快速获取图片内容。 3、人脸解锁 通过图像识别能力,YunOS已经可以做到手机的人脸解锁,捕捉人脸的特征点实现智能设备的生物安全防护。 4、互联网汽车避障 YunOS将目标检测识别技术应用于道路标识、车道线以及人与车的检测,辅助高精定位,比如互联网汽车通过感知系统来识别交通标志、交叉车流、行人等,作出防撞、偏离警示,实现自适应续航控制。 5、三维地图的创建 在AR/VR以及机器人的使用场景中,YunOS Vision还能够做到自动的三维地图创建,通过实时的跟踪定位+高效的重定位为我们构建实时地图。 现在YunOS面向生态伙伴推出了很多图像智能服务,比如自动场景识别、图片的自动聚合、全局照片的搜索以及高性能的视觉识别,这些都是未来万物互联服务重要的能力。 时空感知:驱动位置智能化 对于位置的感知,阿里的理解更向前一步,它认为当下的互联网更需要基于场景和位置触发的应用和内容,场景化服务对时空的感知能力尤为重要,这会影响到App的交互方式,例如当你在外地旅游时,地图呈现出来的内容和搜索的排序会有不同,阿里把这些定义为位置的智能化。 但是传统基于位置的服务(LBS)有以下两个缺陷: 1、没有时间轴和空间上的上下文关联,目前主流的操作系统或LBS平台只能提供孤立的经纬度坐标,不足以判断场景。 2、智能设备的时间和空间都是不连续的,设备无法做到人为中心,将内容和服务串联在一起。 YunOS的时空感知会怎么做呢?举一个最简单的例子,晚上开车快到家时,自动打开家里的热水器,j2直播,这里涉及到两个位置(家和当前位置)、两个设备(汽车和热水器),实现这一场景YunOS做了一个云端一体化的场景围栏,在云上或端上都可以设定围栏规则,当围栏被触发时,云或端都可以接收到相应的事件。这里汽车在快到家的时候触发了围栏,服务端接收到这个事件会把打开指令发送给热水气,并将结果通知给汽车。 实现以上跨设备跨时空感知场景要面临很多挑战: 1、数据层面,要理解空间对于人或某个服务场景的潜在意义,而不是用传统的GIS思维返回一堆冰冷的地址。 2、位置变化的及时性:要持续观察设备时空变化,对功耗和流量都是巨大的挑战,当前的技术条件下只能在有限的资源内做权衡。 3、定位的准确性和可用性:当下的定位精度还不能让我们清楚的识别出用户究竟在那个门店,其次还有盲区的问题,比如隧道或地下车库等场景。 4、算法:时空算法模型的准确度。 (责任编辑:本港台直播) |