记者:您之前认为大数据过热,目前有很多大数据的数学和工程的问题需要解决,会发生一场大数据的冬天。但现在有非常多的公司进入这一领域,您还认为冬天会到来吗? 迈克尔·乔丹:大数据明显过热。很重要的科学问题是怎样让大数据在大尺度、大规模的深度学习中解决实际问题。但有个很重要的问题是,大数据分析必须建立正确的数据模型,但是目前没有办法从根本上杜绝错误的数据模型。不过大数据的冬天还不至于到来,因为目前还是有很多好的想法,可能会有段冷却时间,但可能不是冬天。不过大家对大数据的期望值实在太高了。 看好人机对话、自然语言处理的突破 记者:人工智能最先获得突破的是哪一块? 迈克尔·乔丹:计算机视觉领域已经有很好的突破,但我比较看好人机对话、自然语言处理的突破,这些是正在改变或即将发生的改变,譬如谷歌的翻译系统最近有非常不错的成果,下一个领域的突破就是在家用机器人方面,小机器人在日常生活中与人的人机互动,这是多方面应用的人机交互,既有计算机视觉,还有人机对话,以及综合场景处理。家用机器人了解你日常生活的模式,并对此进行学习,然后进行下一步的服务,这是正在进行中的突破。 还有一个就是精准医疗,我非常看好,虽然前景并不非常明确,因为需要了解病人的历史数据,再对可能要到来的疾病进行诊断、预测和治疗。谷歌现在在各个领域都能帮助人,不是谷歌什么都知道,是谷歌可以搜索,或了解这些知识。人工智能的下一步就可以帮助人们做决断,帮人做出决定,这是更深层次的逻辑运算。 记者:掌握最多数据的公司认为他们更有优势做好深度学习,现实如此吗,其他公司的机会在哪里? 迈克尔·乔丹:首先是数据量的问题,深度学习十分依赖于公司处理的是什么样的数据,譬如精准医疗、电子商务,专业的公司有大量的数据,但私人对这些数据并不是十分感兴趣;另外是数据质量的问题,很可能大公司有更好的数据质量,譬如美国的推特、中国的微博,虽然每天产生大量的数据,但这些数据之间的关系可能比较微弱,atv,普通人不感兴趣,可能只有大公司才有兴趣;还有信用卡以及金融数据,可以分析出大家的购买习惯,这对私人来说就是非常有用的东西。这也是数据量多的公司才能做的事。另外,数据收集方面有很大的挑战,因为有人为或者不可避免的失误,会对数据产生人为的损害和污染,如何保证数据的高质量是非常重要的问题。 记者:在人工智能方面最先获得突破的是谷歌、亚马逊这些大公司吗? 迈克尔·乔丹:这是很重要的问题,但就2016年来说,研究机构还是最有可能获得突破的,未来如何不好说,但过去30年的经验,人工智能的研究,研究机构一直领先。 以下为迈克尔·乔丹于第二届“复旦科技创新论坛”暨第一届“复旦-中植科学奖”上的演讲,由复旦大学大数据学院张楠整理。以飨读者。 大数据的世纪难题 ——缺少理论化的科学体系 在建造一个大数据系统时,设计者通常都要面对精准性和计算速度的取舍,目前并没有一个科学化的体系来指导我们。这个指导系统的重要性,就像是几千年来,人们修建房屋和桥梁,不断实践、试错改错、最后理论化提炼出土木工程这门科学,可以指导人们应对建筑工程中遇到的所有问题。在大数据时代来临之前,我们在相关领域取得了很多成果,比如计算机科学、统计学、机器学习等。但当我们面对大数据的新问题,我们并没有一套科学的解决方案,这是世纪挑战。 因此我们不能简单地将已有方法拿过来套用,而是要从科学的角度认真思考和尝试找到科学方法,其中非常重要的一点就是将计算思维和推断思维结合起来。 几十年来,研究者一直致力于用机器代替人来进行特定的活动。有些方面已经取得了巨大的成功,比如Google搜索引擎,我们在一个空白框内输入关键词,很快就可以得到我们想要的答案。就这个搜索框而言,其背后的技术在几十年中不断发展,通过数据的日积月累和算法的不断改善,形成了如今的非常个性化的服务系统。 (责任编辑:本港台直播) |