本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

为了让计算机听懂人话,微软又推出了两项技术

时间:2016-11-04 06:20来源:668论坛 作者:本港台直播 点击:
近日,微软发布了两个工具:微软知识图谱(MicrosoftConceptGraph)和微软概念标签模型(MicrosoftConceptTagging)。这两个听上去很学术的东西,到底是干嘛的?与我们有什么关系? 让计算

为了让计算机听懂人话,微软又推出了两项技术

近日,微软发布了两个工具:微软知识图谱(Microsoft Concept Graph)和微软概念标签模型(Microsoft Concept Tagging)。这两个听上去很学术的东西,到底是干嘛的?与我们有什么关系?

计算机理解人类

当我们看到“1881 年 10 月 25 日”这个词条时,虽然不是知道它有何含义,但我们会认出这是一个日期。

如果有更多的提示,比如“1881 年 10 月 25 日,毕加索”,大多数人基本就能推测出这可能是毕加索的生日,因为这几乎是每个人最重要的日期。这一切都是基于常识和概念所作出的判断。

为了让计算机听懂人话,<a href=atv,微软又推出了两项技术" src="http://www.wzatv.cc/atv/uploads/allimg/161104/0623012349_0.png" />

问题是,如何将人类的概念传递给机器?如何实现机器概念化?这就是微软正在做的事。

现负责这两个项目的微软亚洲研究院资深研究经理闫峻博士说:

“我们想做的,是让计算机能够更好地理解人类。理解是万事万物的基础,我们用计算机抓取过去这些不成文的开放领域的常识,能够帮助计算机更具象地了解这个世界。”

微软知识图谱(Microsoft Concept Graph)

为了让计算机听懂人话,微软又推出了两项技术

“是一个大型的概念知识图谱系统。其包含的知识来自于数以亿计的网页和数年积累的搜索日志,可以为机器提供文本理解的常识性知识。”

这是微软官方给出的解释。你可以将它理解为一个标签化的维基百科,其核心知识库包含了超过 540 万条概念。

除了常规的“城市”、“音乐家”、“计算机”、“智能手机”外,这个知识图谱还包含了大量的长尾概念,也就是比较小众的概念,atv,例如“抗帕金森治疗”、“名人婚纱设计师”、“基础的水彩技巧”等,而这些在普通数据库中几乎是找不到的。

此外,每条知识概念都包含一系列的实体或子概念,比如在“太阳系”的概念下,就会包括地球、火星、水星等。

微软概念标签模型(Microsoft Concept Tagging)

为了让计算机听懂人话,微软又推出了两项技术

概念标签模型也是基于与知识图谱同样的理念而建立的,微软对其定义是:

“将文本词条实体映射到不同的语义概念,并根据实体文本内容标记上相应的概率标签。”

翻译成人话就是让计算机根据上下文理解词条的含义,比如我们说“苹果是甜的”,这里的“苹果”,显然是指水果而不是苹果公司。

现在概念标签模型所做的就是让计算机用不同的概念去描述一个词,并给出对应的概率,使得机器能够更好地理解文本。

应用

以搜索引擎为例,我们大多数人在搜索时,只会输入少量关键词,而普通搜索引擎要做的就是将短的文本映射到大量的数据库中,再返回包含有关键词的搜索结果。计算机做的只是机械的匹配,谈不上“理解”。

为了让计算机听懂人话,微软又推出了两项技术

但概念标签模型能够“理解”你所输入的文本,并对已有的概念进行延展,从而找到其他相关性很大的信息。

微软举了一个很接地气的例子:在社交网络中,工程师在设置关键词屏蔽不当言论时,可能不是每个敏感词都能考虑到,比如屏蔽了“希特勒”、“纳粹”,却忽略了“法西斯”,但概念标签模型就能根据这些概念意识到“法西斯”也是一个需要屏蔽的词。

微软亚洲研究院表示,知识图谱和概念标签模型可以用于不同的文本处理,包括搜索引擎、自动问答系统、在线广告系统、推荐引擎、聊天机器人、以及人工智能系统等,目前已在微软多个产品和服务中得到应用。

目前微软上线了一个 Demo 版的知识图谱,不过目前暂不支持中文,对于词组的判断也不是很准确(经常会被拆分成两个独立的单词),而且,竟然没收录自家的 Surface Studio……

为了让计算机听懂人话,微软又推出了两项技术

未来的版本将会包含基于上下文的独立概念,以及对更多语种的支持。闫峻博士透露,微软将与国内的高校合作完成中文知识库的构建。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容