陈孝良:我之前提过小样本学习,其理论基础就是贝叶斯概率,它和深度学习是相对的。深度学习相当于归纳,给出足够数据,通过分析可以得出一些结论;小样本学习相当于演绎,给出先验概率,直接推断可以得出一些结论。 大数据一直存在,j2直播,我们确实能从里面总结出一些规律来,但是我们人类不是仅靠这种方法学习的。小孩子学习新事物靠的是类似于小样本学习这种方法,比如看到猫,你告诉他什么样的是猫,它下次看到同样的东西就知道是猫,而不是需要看很多只猫才知道是猫。另外对于人类来说,更有意思的是即便没有数据积累,没有相应的专业知识,实际上人类也能“照猫画虎”。 可以把深度学习类比与知识经验,知识经验事实上就有两面性,有好有坏,偶尔就会造成严重的错误,因此人类需要不定期遗忘一些知识数据。但是深度学习当前还做不到自动筛选数据,这也是其中的弊端——我们无法保证数据训练出的模型是绝对正确的,因为它本身就是一个黑盒子,而且我们还无法保证所有数据都是正确的,若想做到这点就会形成一个悖论。 另外深度学习强烈依赖于数据,不仅需要保证数据的完整性和精确性,而且所有的数据当前还都需要准确标注,标注又需要耗费大量人工成本,所以它并不是一个很完美的方法。 爱分析:贝叶斯学习现在成熟度如何?在业界有哪些应用? 陈孝良:贝叶斯学习其实一直停留在科研界,尤其用在军工领域,雷达、声纳、遥感等都是大量使用贝叶斯模型进行工作。其实贝叶斯学习已经很成熟了,只是没有大规模拿到民用领域来用,当然业界也有一些应用,比如垃圾邮件的处理等,只是在PR方面没有声音。另外我们声智科技主要是把贝叶斯学习应用在前端数据收集,实现半自动化的数据标注,以降低数据标注的工作量并且保证其标注质量。 算法难成门槛,数据和场景壁垒更重要
爱分析:AI领域算法是否存在门槛? 陈孝良:深度学习本身是个工具,算法只是一些体现技术思路的代码,这些代码不可能形成壁垒,但是有相当高的技术门槛,这也是人工智能公司基本都以博士为主的原因。 由于算法很难直接形成有商业价值的专利和标准,所以发展到一定阶段就会开源,atv,开源的结果就是训练一段时间,大家都可以训练一个还可以用的模型出来,核心问题只是怎么把这个模型优化得更好,更能落地到实际产业之中。 爱分析:对于AI技术公司来说,哪些东西可以形成壁垒? 陈孝良:算法本身不可能形成壁垒,所以技术公司要把算法做到场景里面,场景是可以形成壁垒的。比如你医疗领域做到No.1,肯定就比通用的有优势,这里面不管你是通过资源支持,还是BD,都是你的优势。 另外场景和数据密切相关,因为收集数据是需要周期的,处理数据是需要投入巨资的,所以在特定场景下积累到一定规模的数据也是可以形成壁垒的。 最后知识产权也是可以形成壁垒的,但是只有一些涉及到物理形态的技术才能更好的获得知识产权保护,所以软件技术公司很难通过知识产权构建核心壁垒,硬件技术相对会更容易一些,比如芯片、激光雷达、麦克风阵列等等。事实上,标准是最重要的,但是创业公司显然无法推动标准,这是国家和整个大产业需要联合做的事情,特别是面对国外竞争的时候。 一些起步较早的AI公司其实都不是技术驱动型公司,而是在数据上领先,数据积累到一定程度,还是要靠人工去搞定客户。所以越往前端走,技术壁垒越高,越往后端走,内容壁垒越高,中间层其实不存在太高的技术或数据门槛。AI公司很怕架在中间,难以落地,所以很多通用技术公司都开始做软硬一体解决方案,解决方案就是要搞定客户,要拼BD能力。 爱分析:您认为AI技术公司在垂直领域市场集中度高还是分散? 陈孝良:其实现在同质化还是比较严重,所以最后大家的出路,要么被收购,要么上市。上市现在看来难度比较大,因为需要连续营收和盈利。虽然现在各家技术差距可能没那么大,但是在每个领域还是会出现垄断,当然还是要看公司在产业链里面的定位。 爱分析:既然技术难成壁垒,那AI创业公司是否更应重视BD和商业化落地,而不是提升技术? (责任编辑:本港台直播) |