【新智元导读】作者研发了第一个完全无人监督的笑话生成系统,使用的只是大量未标注的数据。这表明生成笑话并不像一般认为的那样,总是需要深度的语义理解。 摘要 幽默的生成是一个非常复杂的问题。很难准确地说出是什么使一个笑话变得可笑。一般认为解决这个问题要深入的语义理解,以及文化和其他语境线索。这一领域之前的工作是尝试使用人工特别创建的数据库和标注的训练实例来为这种知识建模。我们没有这样做,而是提出了一个模型,使用大量的未标注数据来生成诸如我喜欢我的X就像我喜欢我的Y一样,Z笑话(I like my X like I like my Y, Z jokes)这样的模式,其中X、Y和Z是要填充的变量。这是,据我们所知,第一个完全无人监督的幽默生成系统。我们的模型显著优于竞争基线,并在16%的时间生成了有趣的笑话,人类则是33%的时间里生成笑话。 概述 生成笑话通常被认为是一个非常困难的自然语言问题,因为它意味着对文本深刻语义的理解,同时经常伴有对文化的理解。我们生成了一个特定类型的笑话——-我喜欢我的X就像我喜欢我的Y一样,Z(I like my X like I like my Y,Z)-其中X和Y是名词,Z通常描述的是X和Y的属性。这类笑话的一个例子是“我喜欢我的队员就像我喜欢我的茶一样,是热的,而且是英式的) - 这些笑话在网上很流行。 尽管从单纯地生成角度来看(句法系统是固定的),这类笑话不是很有趣,但其内容选择仍非常具有挑战性。的确,大多数用于这一笑话中的X、Y和Z,不会被认为是可笑的。因此,本项工作的主要挑战,atv,是要在这个笑话模板中填空,并使整个句子显得可笑。 与之前所做的幽默生成的工作不同,我们不依赖于标注过的训练数据或人工编码规则,而是依赖于大量未注释的数据。我们提出了一个机器学习模型,atv,来表达我们关于什么能使这类笑话变得可笑的假设。我们也证明了,通过使用这一相当简单的模型和大量的数据,我们在16%的时间里,生成在人类评判者看来可笑的笑话。 本文的主要贡献在于,这是就我们所知第一个完全无人监督的笑话生成系统。我们使用的只是大量未标注的数据,这表明生成笑话并不像一般认为的那样,总是需要深度的语义理解。 我们提出了一个完全无人监督的笑话生成系统,来生成以下这一类笑话 我喜欢我的人际交往关系就像我喜欢我的资源一样,很开放。 I like myrelationships like I like my source 我喜欢我的咖啡就像我喜欢我的战争一样,冰冷。 I like mycoffee like I like my war, cold “我喜欢我的X就像我喜欢我的Y一样,Z”(I like my X like I like my Y, Z)是需要填充的模板。就我们所知,这是第一个不要求任何标注数据或是人工编码规则的笑话生成系统。我们把我们认为的关于什么使得一个笑话变得好笑的假设表达成为一个机器学习模型,并证明了通过在大量无标注数据上评估参数,我们可以生成人类觉得好笑的笑话。尽管我们的实验表明人类生成的笑话在更多时间里更好笑,我们仍然相信我们的系统能在16%的时间里产生人类觉得好笑的笑话,这件事本身就是鼓舞人心的。 笑话的数学模型 在“我喜欢我的X就像我喜欢我的Y一样,Z”(I like my X like I like my Y, Z,)模板中,我们假设X和Y是名词,Z是一个形容词。 关于这个笑话,我们的模型编码了四个主要假设,: 1.属性越经常用于形容全部两个名词,笑话越有趣; 2.属性越不常见,笑话越有趣; 3.属性表达得越模糊,笑话越有趣; 4.两个名词越不相似,笑话越有趣。 (责任编辑:本港台直播) |