林德康:大公司虽然拥有大量数据,但数据也不够精准。我在Google想做助手的时候,就很难找到助手最需要的数据。 再比如Siri,用户使用的主要场景是闲聊,那么企业拿到的数据就是闲聊的,这种情境下企业看不到用户真实的需求,从这个意义上讲,小公司跟大公司还是在同一个起跑线上的。 另一方面,大公司做语音助手也会有困难。大公司最容易做的事情是把现有的事情集成起来。就像现在的GoogleAssistant,就是把已有的各种服务和功能集中放在助手里。但是我们觉得做助手应该换一个思路重新开始,不被过去的东西所束缚。小公司没有这方面的包袱,可以走得更快。 3 现场互动 提问1:我认为数据是有不同类型的,不是一类数据,解决方案就应该不一样。比如AlphaGo知道怎么下棋是赢,因为它有标准,但智慧医疗什么叫“好”是没有具体标准的。那么针对不同数据类型做解决方案,使用的方法是否应该不同?比如AlphaGo的算法,能不能用在医学上? 雷欣:可以说,在深度学习出来之前,大家一般都是对相应的数据进行不同的建模,选取不同的模型,来适配这样的数据。 但是在深度学习之后,用端到端的模型,深度神经网络会自己从相应的原始数据中学出相应的数据。 拿语音识别来做例子,早期大家都是用相应的频谱参数,特征非常好才能获得好的效果。后来大家甚至用原始的声学测量点的数据,也能获得不错的效果。所以,从深度学习的角度来讲,对数据并不是那么的严格。 但是这可能也是一个阶段,等到再过一个阶段,我们还是希望有更加深入的了解,因为现在深度神经网络学出来的就是一堆数,也不知道每个数代表的是什么值。但是我相信,以后我们会在这方面有更好的认识。 模型实际上都是分开的,在有些任务上可以用不同的衡量标准,否则没法优化它。例如,AlphaGo知道赢还是输,它会去最大化这样的概率。 但是在有些情况下,这个数据模型都不是特别确定的。NLP为什么难做?没有一个很确定性的说法什么NLP叫好、什么叫差。语音识别相对来说简单点,我知道这句话识别对了多少字,准确率是多少。但对于很多任务,我们要自己抽象出这样的数学问题,更好地解决。 提问2:在这次人工智能的浪潮中,作为传统从业人员,如何搭上这辆车而不至于被落下? 胡一川:我给一些简单的建议:先看看你这个业务是否能够变成数据驱动的业务。如果你是一个传统的行业,首先看你能否在企业的运营、整体的运作过程中,把足够多的数据积累下来。今天我们谈到所有人工智能的技术,最后都是数据驱动的技术。通过这些数据去做预测、分析、挖掘。对于任何传统行业,我觉得第一步是先让自己的业务变成数据驱动,这里面需要做的事情就是尽可能把整个企业运营过程中能够留下来的数据点都积累下来,然后再看这些数据能够在哪些方面提升企业的竞争力,提高企业的效率。 转载合作:pengyoumen321 (责任编辑:本港台直播) |