wzatv:【j2开奖】如何让人工智能学会用数据说话(2)_本港台直播_J2开奖直播

Dimitra Gkatzia等人【5】对文本生成任务的评测方法进行了总结。不一样的是Dimitra Gkatzia等人【5】分析了近10年发表在自然语言处理领域相关会议和期刊（ACL、EMNLP、NAACL等）上关于文本生成的论文，并将相关工作所采用的评测方法归为两大类：内在（Intrinsic）评测和外在（Extrinsic）评测。

内在评测关注系统生成文本的正确性、流畅性和可理解性等。内在评测方法又可分为两类：（1）通过采用自动化的评测方法（如BLEU, NIST和ROUGE等）对比系统生成的文本和人工写作的文本之间的相似度，以此来衡量系统生成文本的质量；（2）通过调查问卷等方式，由人们从正确性、流畅性等角度出发直接对系统生成的文本进行打分，来评价系统生成文本的质量。

外在评测关注于评价系统生成文本的可用性，即评价系统生成的文本对于用户完成特定任务是否有帮助。

wzatv:【j2开奖】如何让人工智能学会用数据说话

Dimitra Gkatzia等人【5】的分析表明，atv，现阶段文本生成的相关工作多采用自动化的内在评测方法——即利用计算机对比系统生成文本和人工写作文本之间的相似度，原因是此类评价方法更加便捷、成本较低。而外在的评测方法成本较高，采用此类评测方法的论文较少，但是此类评测方法能更好的标示出系统的可用性。

　　>>>>

　　方法

早期的文本生成系统多是基于规则的，Reiter等对规则系统进行了归纳总结【4】，认为文本生成系统可以分为三个较为独立的模块：（1）内容规划（Content planning），即选择描述哪些数据记录或数据域；（2）句子规划（Sentence planning），即决定所选择的数据记录或数据域在句子中的顺序；（3）句子实现（Surface realization），即基于句子规划的结果生成实际的文本。可以认为，内容规划主要是解决“说什么”，而句子规划和句子实现主要是解决“怎么说”。

在该框架下，针对不同模块，若干基于统计的模型被提出。Barzilay等提出先将数据记录和句子进行对齐，然后学习模型解决内容选择【6】。Percy Liang等提出了一个概率图模型同时解决内容规划和句子实现【7】。具体来说就是该生成模型首先选择生成哪些数据记录，然后选择生成数据记录中的哪些数据域，最后生成描述数据域的文本。

近几年，随着深度学习方法在自然语言处理领域取得突破，研究人员也尝试将神经网络的方法应用于文本生成。基于神经网络的方法又分为基于神经语言模型（Neural Language Model）的方法和基于神经机器翻译（Neural Machine Translation）的方法。

其中，Wen等提出了Semantic Controlled LSTM（Long Short-term Memory）模型用于对话系统中的文本生成【8】。该模型在标准LSTM的基础上引入了一个控制门读取结构化数据信息，并控制结构化数据信息在语言模型中的输出。该论文获得了2015年EMNLP会议的最佳论文。Kiddon等提出了神经清单模型（Neural Checklist Model），用于解决RNN（Recurrent neural networks）模型对结构化数据中的信息重复生成的问题【9】。Kiddon等将该模型应用于菜谱的生成，即输入菜名以及食材清单，机器输出相应的菜谱。基于结构化数据的文本生成存在数据稀疏的问题，即结构化数据中的许多数据值（实体名、数值等）出现次数非常少，使得模型的学习变的困难。Lebret等将拷贝动作（copy-action）引入神经语言模型，用于解决数据稀疏的问题【10】。Lebret等将该模型应用于维基百科的人物传记生成，即输入人物的信息框（Infobox），机器根据信息框中的人物信息，输出人物的文本描述。

wzatv:【j2开奖】如何让人工智能学会用数据说话

(责任编辑：本港台直播)