【j2开奖】文本分析流浪汉乞讨标语牌后发现的套路(附代码)(2)_本港台直播_J2开奖直播

　　在文本挖掘中，像“and”或 “the”一类的常见词经常会被去掉，因为他们会稀释整个高频词汇表。有趣的是，在这个样本中这些词并没有被去掉，但竟也没有排到我们词频表的最前面。这说明两个问题：首先，无家可归者不太可能会去使用这些如此容易被预测到的词，可能是为了节省空间和提高浏览速度；其次，这也表明无家可归者使用“help” 和 “homeless”这些词的频率非常高，正如一般的文本使用“the”（4%）这类普遍的术语一样。

　　你可能会把上图的y轴看作是独立的一些单词，但是也可以把他们看作是一元语法（unigrams，比如大数据的unigram形式为：大/数/据），或者是N元语法（n-gram，语言学专业术语，表示n个单词组成的序列）的最简单形式。我们可以对二元词（bigram，两个单词组成的短语）的频率进行排序，如下：

【j2开奖】文本分析流浪汉乞讨标语牌后发现的套路(附代码)

　　【由于我们不能使用bigrams（双单词）的频率除以单词数量得到相对频率，所以x轴向左对齐表示绝对频率】

　　可以看到，第一个图表中一些单词的搭配在了上图中聚集到了一起。比如，“Please” 和“help”使用很频繁，它们联合在一起使用也很频繁，类似的还有“God” 和 “bless”。

　　需要注意到是，这种创建二元词（bigrams）、三元词（trigrams）和其他多元词的方式是根据原有文本来模拟产生新文本的基础。我们也可以尝试随机选择一些词来伪造一个自然的句子，通过这种方式得到的句子读起来跛脚可笑。但是如果你知道哪些序列是合理的，你就可以拼凑出短语和句子，就像拼火车一样。

　　一个简单的例子，假如你使用“please”作为开头，二元词（bigrams）频率表能预测下一个单词“help”，然后你可以连接到“thank,” “you,” “God,” 和 “bless”，即马尔可夫文本生成链，它是网络机器模仿人类写作的原理。

　　多元词（n-gram）的单词数越多，模拟的写作看起来就越接近于人类，因为你使用的基于真实文本的片段单元更长。下图是在无家可归者标语样本上使用trigrams生成短句的示例。其中一些结果看起来毫无意义，但其他的你能想象到或许是来自某个真实的标语：

【j2开奖】文本分析流浪汉乞讨标语牌后发现的套路(附代码)

　　上图：无家可归者标语模拟结果的截图

　　呃，这里我们使用这些标语生成假文本似乎玩笑开得有点过了，毕竟现在纽约及其他城市无家可归还是一个很严重的问题。我们的分析就到这里了。如果你对文本挖掘很感兴趣，并且想要进一步了解Andrey Kotov的这个项目或者其中使用的R语言知识，两者都提到了本文。你也可以查看博客使用的分析数据和程序，atv，链接在文章的最后。

　　最后，如果你想要帮助这些无家可归的人，可以捐款给Bowery Mission，它为纽约的流浪者提供住所、食物和衣服。

　　所有的分析数据和程序详见：https://github.com/PerplexCity/Sign_From_Below

　　原文链接：https://perplex.city/a-sign-from-below-2d4f12c243f3

关于转载

　　如需转载，请在开篇显著位置注明作者和出处（转自：大数据文摘 |bigdatadigest），并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑，可直接转载，转载后请将转载链接发送给我们；有原创标识文章，atv，请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者，我们将依法追究其法律责任。联系邮箱：[email protected]。

　　志愿者介绍

回复“志愿者”了解如何加入我们

【j2开奖】文本分析流浪汉乞讨标语牌后发现的套路(附代码)

　　往期精彩文章

　　一位缺觉的父亲记录了他双胞胎宝宝的睡眠数据并交给机器学习，结果……

【j2开奖】文本分析流浪汉乞讨标语牌后发现的套路(附代码)

(责任编辑：本港台直播)