本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【组图】什么是 AI 领域人机对话系统?该如何评估好坏?(4)

时间:2017-04-17 22:32来源:本港台直播 作者:j2开奖直播 点击:
上述 ROC 曲线相关指标采取了两种 ROC 计算方式。第一种方式计算 CA 的比例时分母是所有状态的总数。这种方式综合考虑了准确率和可区分度。第二种方式

  上述 ROC 曲线相关指标采取了两种 ROC 计算方式。第一种方式计算 CA 的比例时分母是所有状态的总数。这种方式综合考虑了准确率和可区分度。第二种方式计算 CA 的比例时分母是所有正确分类的状态数。这种计算方式单纯考虑可区分度而排出准确率的因素。

  

wzatv:【j2开奖】什么是 AI 领域人机对话系统?该如何评估好坏?

  图3:DSTC 2013 提交的系统根据上述11种评估指标,排序结果的不同程度[3] 圆圈的半径越小表示结果越相似

  上述评估标准从不同角度衡量了置信状态的质量,但从 DSTC 2013提交的系统结果分析可以看出一些标准之间有很强的相关性,如图3所示。所以在后续的 DSTC 2014评测中选取了上述11中指标的一个子集作为主要评估指标。

  DSTC 2013 还提出了三种评测的时机,分别为:

Schedule 1:每轮对话都做评估;

Schedule 2:对于一个概念(slot-value pair),只有在这个概念被提及时才评估;

Schedule 3:在每个对话结束时评估。

  可以看出上述三种评估时机中,schedule 2 更能体现在真实应用中的价值。而 schedule 1是有偏执的,因为当一个概念被提及后,如果用户或系统没有对其修改的操作,多数情况下其置信状态的估计不会改变,这个结果会一直保持多个对话轮次,这样无论这个估计的质量优劣,都会被计算多次,对评估指标的均值产生影响。Schedule 3 的问题在于忽略了置信状态质量在对话过程中的影响,即一个概念如果在对话过程中被多次提及或澄清过,那么在对话过程中这个概念对应的置信概率的变化被忽略了。其实 schedule 2 也有一定的局限性,如果概念之间有冲突或相互影响,即当用户或系统提及一个概念时会潜在的影响其他在当前轮未被提及的概念的置信概率时,schedule 2 就无法衡量这个影响造成的状态变化。

  次年,剑桥大学组织了两次 DSTC 评测(DSTC 2 & 3 (3) ),分别提出了两项新的挑战。

  在 DSTC2 中,对话的场景选为在剑桥找餐厅的问题。与 DSTC 2013 不同,此次评测假定用户的目标在对话过程中是可以改变的;随后在 DSTC 3 中,对话场景从找餐厅扩展到找餐厅或酒店。但 DSTC 3 除了极少量供调试用的种子数据外并不提供额外的训练数据,参评团队需要只用 DSTC 2 的训练数据训练模型,并迁移至DSTC3的测试集上。这两次评测的主要评估指标均为基于 schedule 2 的 accuracy,L2 norm 和 ROC CA 5。

  之后的两年中,新加坡的 I2R A*STAR 研究所组织了 DSTC 4 (4) 和 DSTC 5 (5) 的评测 。主要评测目标是对在旅游场景下人和人对话中的对话状态建模。其中,DSTC 5 在 DSTC 4 的基础上提出通过机器翻译实现跨语言对话建模的挑战。由于这两次评测的数据来自人工标注,并没有引入 ASR 和 SLU,所以选用的评估指标是基于 schedule1 和 schedule 2 的 accuracy ,外加参评系统输出的 slot-value pairs 的准确率、召回率和 F-score。

  现有的对话状态跟踪的评测标准有一定的局限性。主要问题在于,上述评估机制完全基于结构化的语义和对话状态表示。而在真实的商业应用对话系统中,为了更大程度的满足用户的需求,往往会采用结构化表示和非结构表示相结合的方法。例如,在第四代小米电视的对话系统中,三角兽科技就提供了模糊语义理解技术,在用户搜索视频的目的无法完全结构化表示时能够更精准的满足用户的需求。但是这种非结构化的表示则不适于用上述的评测标准进行评估,而应通过评估整体的对话效果来评测。

  

wzatv:【j2开奖】什么是 AI 领域人机对话系统?该如何评估好坏?

  2017小米4A电视发布会中对三角兽科技表示感谢

  

  首先,我们再次说明,因为对话策略是一个决策过程,无法评估单轮决策结果的优劣。所以对话策略的评估通常是通过评估整体对话系统的效果来实现的。

  一个任务驱动的多轮对话系统的核心目的是最有效的帮助用户完成信息或服务获取的任务。那么,评估一个任务驱动的对话系统的好坏最直接的两个指标就是任务完成率和平均对话轮数。其中,任务完成率越高越好,而在同等对话完成率的基础上,平均对话轮数越少越好。理想的情况下,统计上述指标需要有真人参与对话。(虽然早期的对话系统研究中也有通过对话模拟器进行自动评估的先例[4],但是对话模拟器自身的质量引入了另一个维度的问题。)获得上述的统计结果,我们既可以离线标注真实用户与对话系统交互的 log[5],也可以预先(随机)产生用户目的,再让真人实验员按照指定的目的进行对话[6]。后者,可以通过 Amazon Mechanical Turk 类的众测平台完成[6]。

  此外,如果进行众测类实验,还应注意两个问题:

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容