编者按:本文转载自转载自微信公众号 WeChat TechPower(wechattechpower),转载时已获得作者授权。 还记得 WHAT Lab 吗?对,就是一年前微信和香港科技大学成立的人工智能实验室。 一年过去了,WHAT Lab 在自然语言处理、数据挖掘、语音识别和机器人方向均取得阶段性的进展及成果,今天就拿出 WHAT Lab 的部分研究成果,给各位微信迷开开 AI 的脑洞。
让机器帮你读书 不知不觉间,我们的微信中已经关注了许多公众号,每天都有小红点提示更新,但想必很多人都忙着工作生活而来不及点开。 在信息爆炸的互联网时代,碎片化阅读让我们已经渐渐失去了主动阅读的能力。
用什么来拯救我们的阅读?如果有人主动跟我们说 Hi,我们大多数时间会给出回应。而在阅读中,谁来担当这个主动打招呼的人呢? 也许 AI 就可以。让机器阅读帮助人类阅读,正是 WHAT Lab 教授们正在努力的方向。
让机器读取各种文章并不难,但问题是,要怎么让机器读懂,并以人类能理解的语言表达出来? 这就涉及到了自然语言的处理。对此,WHAT Lab 的研究人员采用了 “强化迁移学习” 的模型,让机器表达更符合我们人类习惯。 我们所说的 “强化学习”,实际上是一种激励机制,当 AI 判断正确时,给予肯定的回馈,这就使得 AI 的这一行为得到了加强。而 “强化迁移学习”,简单来说,就是让 AI 在强化学习的基础上,学会举一反三。 然而,怎样才知道 AI 是否读懂了文章? 为了让 AI 能够真正理解上下文,研究人员采用了注意力机制进行文档和问题的语义表示,atv,简而言之,就是让 AI 将注意力集中于某些关键词语和段落,直播,从而学会找到问题的答案。
当 AI 阅读技能点满后,就能为我们做很多事了,比如告诉我们一篇文章、一本书到底讲了些什么,甚至可以回答关于书本的各种问题。 至于 AI “代读” 让我们丧失了体会原著语言魅力的问题,那就是另一个需要探讨的话题了。 关于 AI 概括文章内容的能力,目前一个较为实际的应用就是体育战报了。通过提取文字直播的主要内容,AI 能快速生成比赛战报,这显然比人工写要快多了。 想你所想 如果你正在减肥,你可能会对涉及 “健身”、“减脂”、“节食” 这类话题的文章感兴趣;如果你是个皇马球迷,吸引你注意力的除了皇马的文章,肯定还有 C 罗、佩佩甚至是其他西甲球队的新闻……
然而,无论你是查找资料还是浏览新闻,你都只能一个一个地输入关键词去查找,或者是通过相关推荐进入其他话题。 有没有可能让机器人自动为相关文章建立索引?这就是 “公众号数据层次话题分析” 技术要做的事。 首先我们要了解一个概念 “多维划分”,也就是说,同一个事物,按不同的属性可以归入不同的类别,比如微信,本质是一个 app,细分下来又属于“社交媒体” 或者“通讯工具”,但同时又具有支付功能,也可以归入“支付工具”。
那么,怎样让 AI 掌握多维划分的技能?WHAT Lab 的研究人员使用了一种叫 “隐树分析” 的算法——一种包含多个隐变量的树状的概率图模型。 所谓隐变量,就是无法直接观测到数据,例如小明数学 100 分,我们可以得出小明数学能力很强的结论,而这又能进一步推论出其分析能力出色,进而了解到他智力应该不错。这里的 “分析能力”、“智力” 就属于隐变量。 通过对各种隐变量的划分,赋予其权重,再辅以各种复杂的算法处理,我们就能从多个维度对话题进行划分。 层次话题的分析,除了我们前面所提到的建立文章索引外,在未来还可以有多种应用场景,例如根据用户的常用话题,进行用户画像,从而实现广告的精准投放;将用户的反馈、bug 提交归类,方便工程师们填坑;而通过层次话题的分析,我们甚至还能了解到一个热点的演变历程,进行舆情监测等。 数据也要美美哒 “不转不是中国人!” 这种老梗,究竟从何而来?一篇文章又是如何成为 10W+ 的爆款文? (责任编辑:本港台直播) |