刚才说到我们战略来讲,我内心有一个东西,今天随着深度学习的发展,语音和图像得到了跨越性的发展,语音图像在深度学习时很快就达到一个新的高度。文字难度大一点,深度学习对文字解决非常有限。语言背后承载的抽象的东西,有知识和推理,语言的内涵更丰富。我们语音识别做了很多,用户量最大,但我始终认为我们专注点在语言上。我们之前做搜索、输入法都是以语言为核心的。翻译在语言里面最简单,之后还有对话问题、问答问题。所以我们说翻译切入,我们背后做的是对话的机器和问答的机器,这是我们在AI里面所干的活。 张宏江:我非常同意王小川说的,我们今天看AI的话,在识别人脸、识别人的行为、识别图像接近人的精度,但在语言这块差的很远。翻译这件事已经让我们觉得很头疼了,真正理解文本、理解对话,从简单的几句对话中间推演整体上下文的意义,这需要有更多的研究、更多公司来做的,这也是今日头条一个重点,大家认为今日头条是一个内容推荐引擎,其实更重要的是创作的平台。今天你写了一篇文章可以通过今日头条来给你审一下,有没有语法错误、前后归置,如果都没有问题的话,给你建议哪个题目比较合适,帮你找一下哪个图文比较合适。这中间涉及到很深层语言理解,我们也希望跟同行一起,不光是把产品做好,而是AI上的研究。 蒋涛:挑战赛针对全球的策略是什么? 李开复:我们一开始希望针对全球,因为我们要让它快速启动,是对全球开放的,很多里面大部分参与者是来自中国,我们在美国没有看到类似的活动,如果我们能够作为抛砖引玉第一期活动,第二期希望有更多公司贡献更多数据,我们大家拿出更多资源、金钱和标注,让它成为真正改变全世界的数据库。 在美国很多的领域,因为之后就没有然后,语音、语料方面也就是到了一个极限,很多自然语言都说英文。我觉得有中国的元素让大家知道世界最重要语言之一是中文,真正愿意让资源拿出来让全世界参与,这是我们的目标。 蒋涛:会有更好的数据集发布是吗? 李开复:我们已经在收集更多更有意思的数据。 王小川:我觉得之前是非常落后的,在科研精神、论文、数据分享上远远走在美国的后面,所以这个事情是需要改变的。国家提倡,企业不仅要响应,也要非常踊跃地做出自己的贡献。真正让数据分享走在前面之后,中国科研才能有一个超越。现在研究语音拿英语做实验,研究语言也拿英语做实验,我们国内写论文,优先他们转。现在我们要用自己的数据做贡献,把研究能力提上去。 张宏江:开源这件事情已经做了很多年了,开源社区,各个公司、非盈利机构、盈利机构、大学、个人贡献,大家已经形成一套规律,我们希望通过我们这次数据分享也能够引领更多中国企业、中国的个人、中国学校参与进来,把开源的想法能够真正变成我们的实践,投入到我们日常工作中去。 (责任编辑:本港台直播) |