这种思路下,就会通过深度学习来做降噪等信号层面的工作,用算法挑战各种物理层面的问题。如果走上这条路,那估计短期也不会有下次演示了,因为他碰到的问题并非单纯的降噪问题,回声抵消、Beamforming、降噪、声源定向这些东西是关联在一起的,指望深度学习短期突破这些问题更像科研上的一种设想而非工程上的一种实践。“设想”是说可以成为一种探索的思路,但结果完全没谱,高度不确定,相当于把不确定性引入产品开发之中。 一种可能是扎克伯格走下一步的时候想的很清楚,知道自己这类公司的能力边界,因此把这部分开放出去,让专业的人做专业的事。物理的事情归物理,算法的事情归算法,这样的话就会满世界找声学和远场语音识别供货商,但这反倒是最快的一种方式。 不知道扎克伯格具体会走那条路,如果是最后一种,我们声智科技这样的公司应该会很快收到消息。 打破原子与比特的边界 扎克伯格这件事情事实上也提供了一个跳出来看AI的机会。 下图是Jarvish的系统架构图:
一般来讲,从产品体验上可以看出技术水平,从架构图则可以看出来认知上的差异。 根据上图,显然的在扎克伯格这里Jarvish被理解成了一个命令控制型的系统,但感知这环节被忽略了,尽管扎克伯格自己在文章里也提到感知上下文是非常关键的一个环节(Understanding context is important for any AI.) 这种理解在互联网企业那里很可能非常有代表性,但问题就在于感知恰恰是打造一个初级的Jarvis这样的系统时最难的环节。因为感知总是要打穿原子和比特的边界。Language Processing、Speech Recognition、Face Recognition总是立刻可用的,只受限于算法的发展程度和数据,但感知部分不是这样,不单要算法行,器件、生产都要行才能有好的结果。比如说麦克风阵列,你算法再好但MEMS麦克风不给力,那你一样抓瞎。如果要说的短板的话,在深度学习突破后,感知这一环节才是真的短板。 这就涉及到这次AI突破的一个深层次问题:这次的AI起于深度学习的突破,但真要想创造价值并不能停步在深度学习本身。关键原因就在于其AI创造价值的链条比较长,开奖,必须打破软硬的边界,补全整个链条,价值才会体现出来。 几乎我们所有能想到的大机会都是这样,语音交互(需要打穿声学和识别边界),自动驾驶(打穿计算机视觉、雷达、机械控制的边界)等。这部分难度通常是被忽略了,似乎是有几个深度学习专家问题就可以搞定一切问题。后者不是不行,但要限定在特定类别的事情上,比如图普科技做的鉴黄等。 正是同时做好软硬这部分在拉长投资-回报的周期。投资和创业如果对此没有自己的判断,那准备的耐心可能就不够。 小结 近来和AI各方面的人(创业者、投资人、科学家、媒体)接触下来,发现大家基本都在思考这样两个问题: 第一,本次AI浪潮会不会和前两次一样很快冷下来? 第二,落地点到底在那里,究竟还要多久? 对于第一个问题到现在为止还没碰到任何一个人认为这次AI浪潮会冷到前两次那样。对于第二个问题,大的落地点上大家基本也已经达成了共识(语音交互、AR、自动驾驶等),争议最大的就是启动期究竟还要持续多久这一点。 从两个维度来判断,这个时间更可能是在3年左右,一是产品经过两个周期的优化会更加成熟;一个是计算能力、基础设施到那个时候也会变的足够强大和便利(过去3年Training速度提高了60倍,比摩尔定律还快。Intel则正在推出集成度更高的服务器)。 订阅号:zuomoshi(琢磨事) *文章为作者独立观点,不代表虎嗅网立场
(责任编辑:本港台直播) |