上周,微软亚洲研究院知识计算组与我们分享了的,不知道大家是否有所启发呢?接下来让我们一起来看看人工智能是怎么用数据说话的吧。此前,我们在微信上分享了,今天我们主要聊的是基于结构化数据的文本生成。 什么是基于结构化数据的文本生成 美联社机器人撰写财经报道,微软机器人自动生成对联,谷歌机器人自动写诗,一时间,机器人自动写作成为学术界和产业界关注和讨论的热门话题【1,2】。 机器人写作又称文本生成。从广义上讲,一些传统的自然语言处理任务,例如机器翻译、文本摘要、对联生成、诗词生成等都属于文本生成的范畴。这些任务的共同点是用户输入非结构化的文本,机器根据任务目标输出相应的文本。 不同于这些任务,本文主要与大家分享的是基于结构化数据的文本生成,即用户输入结构化的数据,机器输出描述和解释结构化数据的文本。(注:为了简便,下文中的文本生成均指基于结构化数据的文本生成。)该任务的特点是基于数据和事实说话。文本生成的典型商业应用包括财经和体育类新闻报道的生成、产品描述的生成、商业数据的分析和解释、物联网(Internet of Things)数据的分析和解释。图1给出了天气预报自动生成的例子。其中,图1a是各种感知器采集到的结构化的天气数据,机器将图1a中的数据作为输入,输出图1b中的天气预报。
图 1天气预报的自动生成(此例来源于论文【3】) 接下来,本文尝试从商业应用和技术发展两个方面来总结文本生成的领域现状。 文本生成的商业前景 近些年,随着文本生成技术的发展,工业界也诞生了一些专注于文本生成的明星创业公司,例如Narrative Science(前5轮共融资2950万美元),Automated Insights(前3轮共融资1080万美金,并于2015年被美国私募股权基金 Vista Equity Partners以8000万美金的价格收购),Arria NLG(第一轮获得了4027万美金融资)等。这几家明星初创企业的产品也涵盖了文本生成在不同商业领域的应用。 Narrative Science的主要产品是Quill,该产品可以帮助第三方公司分析和解释商业数据。其客户多为金融服务和咨询公司。此外,Narrative Science还特别开发了Quill for Google Analytics,该工具可以实时的将Google Analytics所统计的各种复杂的用户访问数据转化成简单的文字说明,帮助Google Analytics的用户免去阅读各种复杂图表的痛苦,让用户能够快速理解其站点的流量数据,为优化站点提供建议。 Automated Insights的主要产品是WordSmith,该产品已经在美国联合通讯社(The Associated Press)和雅虎得到成功应用,用于撰写财新和体育类报道。让人惊叹的是,美联社在采用Automated Insights的文本生成技术后,每季度可以撰写的财报新闻数量从300篇增加到了4300篇,生产力得到了极大的提高【2】。 Arria NLG则主要与英国国家气象服务局Met Office合作,自动生成天气预报。这是文本生成技术在物联网领域的一个典型应用。如图1所示,各种感知器每天可以采集到大量的结构化数据。但解读这些数据的困难在于:一方面感知器采集的数据量非常大,另一方面数据的解读需要专业知识。基于结构化数据的文本生成技术首先需要从大量的数据中筛选出重要信息,然后生成易于阅读和理解的天气预报文本内容。 文本生成的技术发展 >>>> 挑战 基于结构化数据的文本生成任务主要包括两个挑战【4】: 第一,说什么(What to say) 第二,怎么说(How to say) 如图1所示,机器首先需要决定说什么,这就意味着机器需要从输入的若干数据记录中选择要描述的记录(图1a中被高亮的数据记录);然后决定怎么说。简单的来说就是机器需对选定的数据记录,用自然语言描述出来(图1b)。 >>>> 评测 (责任编辑:本港台直播) |