手势交互是非常适合VR/AR的输入。很多人会问:既然手势这么好,那为什么手势还没有普及呢?为什么还没有在VR/AR上面获得很普遍的使用?那我们接下来就来探讨这个问题。 现在手势输入,主要是走两个方面的技术:一个是手套的穿戴,一般来说,手套上会有很多电子设备,很多电路,可能还有些电池,然后使用者戴上这些手套,去做手势交互;另外一个手势输入方法,是我们凌感科技在研发的技术——电脑视觉。是在VR头盔上面放了两个摄像头,摄像头通过inside-out的方式捕捉画面,就很像你的眼睛在往外看。如果你的手伸出来,摄像头看到了你的手,捕捉这些画面,然后把画面传回电脑上的软件来做计算,看这个画面里面有没有手,如果有手的话,这个手势是在做什么样的动作。 下图中,大家可以看到,凌感的技术是有两个红外摄像头,捕捉到你手的画面,这画面是黑白的。捕捉完画面后,我们的软件就会去计算,你是有一只手还是两只手在画面里面,然后我们会做3D骨骼建造。所以我们会说,我们的技术是识别手部22个关节点,26个自由度,并且可以在移动平台上快速计算 。
刚才说到手势输入目前是两个方法,一个是使用手套,另外一个是偏向电脑视觉。现在说一下这两个技术方面目前遇到了一些什么样的问题,导致没有办法快速地取代目前的手柄方案。 手套方案实现的困难 我们先来看一下手套,因为它本身会有很多电路嵌入在里面,所以成本是偏高的。如果使用者在每次使用VR/AR的时候,都要把手套戴上的话,那也比较麻烦。因为有电路,所以需要有供电的方法。我目前可以想到的供电的方法主要有两个:第一个是装电池在上面,如果你装电池在上面的话,可能电力不持久,而且电池本身有重量,这个体验也不是最理想的。那如果不直接用电池,就是要接线路到VR头盔整个设备,用设备去供电给手套,这个体验也不会非常好,因为手套会有一条线接出来,从手到头盔上有一条线,这样会影响运动。 再说每个人的手的大小不一样,如果做商品的话,手套要做大中小号,手套可能用脏了还要洗,手套可能不是太利于普及跟大众化的一个手势输入方法。 电脑视觉实现手势交互的方式 那讲完了手套我们来看一下电脑视觉的硬件是怎么样的配置。我刚刚有提到,电脑视觉主要是靠摄像头来捕捉画面,然后用电脑软件再去算手在做什么姿势。说到电脑摄像头,目前分成两种,一种是TOF(time of flight) 跟 structured light,这是比较高端的摄像头,比较贵。它们的原理是:发射很多道光束出去,看光束是怎么弹回来的,由此可以做周围环境的3D建模。如果光发出去了,遇到手弹回来,它也可以识别空间里面有手在哪个方位,这个是比较昂贵的硬件方案。 像TOF 跟 structured light,我认为硬件其实不是太成熟,因为光要打得很密集,然后弹回来,才有一个比较准确高精度的3D建模的画面。但如果你光打得很密集的话,你的FOV可能也会受限,因为在VR最理想的状态,你可能需要有110度的FOV,但是目前这种硬件只可以做到70到90度,它的FOV是偏小的,这个主要是受限于硬件技术的方面。 电脑视觉除了这种高端的摄像头,我们凌感是走另一个方向。我们是用成本比较低的红外摄像头,这种低像素的摄像头,需要传输的资料量也少很多,但每秒可以到捕捉很高的帧率,像60帧或者是90帧,再由USB2.0、3.0传去电脑端或者是移动端的CPU上面去做计算,这点对于移动端VR来说还蛮重要的。 目前来看,如果是电脑视觉的话,像TOF 、structured light他们主要是受限于硬件,我们凌感目前认为传统摄像头的硬件比较成熟了。传统摄像头捕捉到画面之后,我们用软件去计算手在哪里,手在做什么样的动作,这个困难点在哪呢?困难点就是我们这个技术主要依赖软件技术,它对硬件的要求是非常低的。这个技术其实在开发方面有非常大的困难度。如果有人给你一张图片,跟你说手是什么姿势,你可能讲得出来,但你让电脑去看,这个照片里面手在做什么姿势,其实是非常难的。 (责任编辑:本港台直播) |