图1是以因子图形式表示的模型。由圆圈表示的变量和由方块表示的因子,定义了涉及其所连接的变量的势函数。
假设1最直接,通过φ(X, Z) 和φ(Y, Z)因子表示。这一假设可以在数学上表示为:
其中f (x, z)是度量x和z联合出现概率的函数。 关于假设2,如果有一些属性非常常见,能用于描述几乎所有事物(比如新、免费、好),那么它们导出的句子很可能是糟糕的笑话。属性Z越不寻常,就越可能引起惊奇,这是笑话幽默的来源。 我们在因子φ1(Z)中表达了这一假设:
假设3是基于这一观察,即一个属性,在一种语义下描述了名词X,描述名词Y却是另一种语义。 我们用in φ2(Z)表示:
假设4表达了两个名词间的不相似性会引出更多的幽默,因为一个属性对二者的同时描写会超出听者的期待。我们用φ(X, Y ) 来鼓励两个名词间的不相似性:
关于数据和实验 为了估算f(x,y)和f(z),我们使用Google n-gram数据(Michel et al.,2010),特别是Google 2-gram数据。我们使用Wordnet (Fellbaum, 1998)中与该词相关联的最常见的词性标签(POS)来标记2-gram中的每个词。在我们有了POS标记的Google 2-gram数据后,我们提取所有的(名词,形容词)对,并使用他们的计数来估算f(x,z) 和f(y,z)。 需要特别指出,尽管我们在论文中使用了Wordnet,我们的方法并不特别依赖它。我们仅仅使用它来取得一些浅层信息。 我们分两阶段评估了我们的模型。首先,自动评估从推特上搜集来的笑话;然后,拿人类生成的笑话和用我们方式生成的笑话做比较。 关于模型、数据和实验的更多内容,请点击论文链接阅读。 原文地址: 「招聘」 全职记者、编译和活动运营 欢迎实习生 以及人工智能翻译社志愿者 详细信息请进入公众号点击「招聘」 或发邮件至 [email protected] (责任编辑:本港台直播) |