极客公园微信号:geekpark
杨强,香港科技大学计算机科学与工程学系系主任,人工智能领域学术界的领军人物,华人界唯一的国际人工智能协会 (AAAI)councilor,IEEE 大数据期刊主编,ACM 杰出科学家。两次获得国际数据挖掘领域最高级别竞赛 KDD Cup 世界冠军。杨强教授发表论文 400 多篇,被引用超过 20000 次。 但同时,除了扎根科研界,杨强教授还是人工智能领域深入商业应用领域的顶级专家之一。目前,杨强教授担任人工智能技术与服务提供商第四范式的首席科学家,带领这家被广泛看好的人工智能公司不断取得科技突破,近期第四范式在乌镇世界互联网大会上发布了可供大部分互联网公司使用的人工智能公有云产品,也是基于杨强教授与团队「AI for everyone」的共同价值观。日前,极客公园对杨强教授进行了专访。其中,杨强教授不仅向我们介绍了第四范式这家公司的研发方向,还就人工智能领域的很多动向及发展状况做了解答,其中颇有很多值得琢磨的地方。 同时,杨强教授本周也出席了腾讯网媒体高峰论坛,他在现场也就人工智能和媒体行业的关系与发展发表了精彩的演讲。我们将他的演讲实录附在文后,希望能对你有所裨益。
采访实录: 极客公园:作为「迁移学习」这个领域的专家,您觉得它对人工智能产业的影响和作用是什么?能给我们举两个例子吗? 杨强:首先,现在人工智能过多依赖大数据,这是很危险的。危险来自几个方面,首先收集大数据需要很多时间资源,有了数据以后还得去处理数据,之后机器才能学习,在这个处理过程中需要有人参与,而凡是有人工干预的,要求就特别高。迁移学习的思想是,通过发现大数据的模型和小数据问题之间的关联,然后把模型迁移过去,这样一来如果在大数据领域先得到了机器学习模型,在研究下一个相关领域时,只用一部分数据或者小数据就可以完成。利用迁移学习这一特征,我们就不用花大力气去收集资源了,这对人工智能的发展非常关键。比方说新开一个网店卖一种新的糕点,因为没有任何的数据与模型,我们没有办法对用户进行推荐,此外,当我们看到用户购买一种糕点后,也无法预测用户还会买其它哪种糕点;但如果我们知道用户在另外一个领域已经有了很多的数据,例如是用户购买饮品的历史数据,那么利用这些数据建立模型后,根据用户饮品习惯和糕点习惯间的关联性,我们就可以把饮料的推荐模型给成功迁移到糕点领域,成功的推荐给每个用户他们喜欢的糕点。 其次,人的思维是在一个形象的符号空间的思维,而不是深度学习那样的特别细粒度的机器学习思维。符号空间的思维能够归纳、抽象知识,并且在不同领域做关联和联想,能够很自然地进行迁移学习,这是人的思维特点;如果想要机器做到这一点,同样也要做到归纳和迁移,这就是迁移学习的基础理论。此外,还要从大量数据升华到符号空间的逻辑,再通过迁移学习技术做类比,真正做到举一反三,并可以基于此去预测、概述未来发生的事情。迁移学习是人工智能的下一发展阶段——机器不再是就事论事,而是拥有了像人一样的举一反三的能力。 极客公园:有评论认为「作为人工智能实现的核心,算法将成为未来国内人工智能行业最大的竞争门槛。」你觉得就国内的情况来说,算法方面的发展情况怎么样? 杨强:国内的算法现在和国外的差距不大。因为大家已经可以获得大量标注数据,深度学习在语言和图像方面取得很大成功。但除了语音和图像,其他领域公共的数据其实非常有限,所以更商业方面的研究只集中在几个公司,电商数据集中在 BAT,银行业务数据集中在金融机构,在这样较为封闭的环境中,发展就会受到一定影响。 另外,国内机器学习方面的创新还没有国外多,开放的系统也没有国外多。在国内,我们有必要鼓励开放数据、开源系统。第四范式刚刚发布的「先知公有云版」就是面向互联网企业,可部署在公有云上的机器学习平台。它打破了数据、人才和技术的壁垒,让各个阶段的互联网企业都能掌握并受益于人工智能。 (责任编辑:本港台直播) |