智东西(公众号:zhidxcom) 文 | 四月 导语:两年前,阿里里巴的两位员工先后离职,一位转入IDG做投资,一位白手起家创业。基于此前的认同与信任,转入IDG的同事为说服董事会投资后者,甚至愿意以个人名义投资。 两年后,二者的决意和一意孤行在今天初见成果——Rokid(中文名为“若琪”)蛋形机器人终于落地。而前文里提到的故事主角,分别是IDG现任副总裁楼军,以及Rokid创始人兼CEOMisa。近日,智东西与Rokid的主创团队、背后的重要投资者进行对话,共同梳理了近两年团队与产品的重要进展,其间的一些有趣故事也得以展现。 从阿里离职,如何拿到前同事的投资和持续信赖。自诩“流浪汉”的Misa在投资人眼中有着怎样的靠谱和不靠谱?沉寂两年打磨的这款“蛋形灯”凭什么能成为机器人,体验和设计有何独到之处?此前颇为低调的Misa和Rokid将在下面的故事中更加具体。 一、Rokid和智能音箱不一样 先见其产品,再谈团队。 从外形结构上看,很难对Rokid进行准确定义。她基本由三部分构成,一扇DLP(Digital Light Processing,数字光处理技术)投影曲面屏,前置摄像头,一套设有麦克风和音响的底座。蛋形的主体配以托盘底座的结构很新颖。 在功能方面,Rokid最初具备声纹、面部和动作识别等智能化功能。据现场工作人员介绍,最后落地产品中,摄像头并没有加入面部、动作识别的功能,仅作为视频对话或拍照使用。但保留有声纹识别功能。 此外,Rokid可实时感知外界声音和灯光,可语音控制家中的智能电器。具备远场语音识别功能,最大范围为8-10米。基于深度学习技术,Rokid可针对用户定制音乐、电台等音频内容进行智能化推送,与用户进行多轮对话和个性化内容交流。 Rokid团队在近两年的工作,“主要就是产品的边界和技术融合进行打磨”,Misa说道。据他介绍,因为结构和设计的创新衍生出许多新兴的技术问题,很难找到成熟的技术能够直接解决,需要团队一个一个攻破。比较典型的包括,底座大面积的音箱震动如何不干扰麦克风工作,针对家庭使用场景的语音内容优化,远场识别的噪音与信号处理等。 Rokid底座上分布有八个高灵敏度的麦克风阵列,负责寻声采集和声纹识别。记者现场体验,2-3米内可清晰识别命令。据工作人员介绍,最远识别距离可达到8-10米。 之所以称Rokid的造型优雅,主要在于其独特的投影曲面设计,在暗环境下效果很出众。Rokid采用的DLP技术与微型投影基本相同,但与曲面屏结合后形成了独有的美感,很适合摆放家中。对此,Misa颇为自豪地介绍,“Rokid采用的DLP显示方案已经被TI列为经典案例,听说模仿者已经不少”。 底座采用音箱和麦克风相连的设计,据Misa介绍,原有设计中,atv,音箱工作时将产生剧烈的震动会影响麦克风等零部件的工作。最终的解决方案是通过调整机械设计,将震动尽量控制在水平方向,保证垂直方向的震动很小。 此外,据Misa介绍,要实现语音的远场识别,团队在识别算法和噪音信号处理进行了诸多优化。在实际使用场景中,Rokid还需要将语音、语义的理解与用户习惯结合理解。Misa将其定义为“技术边界的打磨”。 比如,用户下达播放《Let It Go》的命令,机器可能识别到中文曲库里的《癞皮狗》。“两者在声学相似度的打分很接近”,Misa介绍,这时就需要结合对用户使用习惯的深度学习进行判断。 在技术层面上,Misa表示并不是全权包揽,“比如,视频通讯、自由聊天采用的就是外包技术。但在麦克风阵列、识音技术、语义识别等,比较关键的技术是自己做”,其主要原因在于,要实现技术的融合,单纯依靠第三方,合作深度和节奏上都无法保证。 在与Misa针对技术的交流中,他多次强调“边界融合”二字。他认为,各类技术间的边界融合是与同类产品拉开距离的最好方式。“在单点的技术上实现突破,离准确率可能只差1—2%;但产品中的技术如果没有做好融合,误差叠加后被放大可能是10%以上的误差率”。 二、两年打磨 产品满意度达到85% (责任编辑:本港台直播) |