报码:【j2开奖】【贝叶斯系列】在研究机构如何应用贝叶方法论进行量化投资(5)_本港台直播_J2开奖直播

多元分布模型以单词为粒度，不仅仅计算特征词出现/不出现，还要计算出现的次数。另外多元分布模型实际中分别还可用 tf-idf ,Bool(Bool 表示某个单词是否在某个文档中出现，如果出现则记为 1，否定则记为 0)。BOOL 型特征下的向量空间模型更适合做情绪分类。以下公式以单词出现次数为例。

　　类条件概率:

P(A1|B[0]) = (Na+1)/(n+N)

　　其中: Na 为类 B[0]下单词 A1 出现在所有文档中的次数之和

n 为类 B[0]下特征词总数

　　N 为训练样本中不重复的特征词总数

先验概率:

P(B[0]) = 类 B[0]下单词总数 /训练样本中的特征词总数

2) 伯努利模型

　　伯努利模型以文件为粒度。

　　类条件概率:

P(A1 | B[0]) = (类 B[0]下出现 A1 的文件总数 + 1) / (类 B[0]下的文件总数 + 2)

先验概率:

P(B[0]) = (类 B[0]下的文件总数) / (整个训练样本文件总数)

以上两种模型的类条件概率分子中加 1，原因是待分类文本中的属性可能样本中没有，会导致条件概率为 0 的情况. 贝叶斯公式推导前提各个特征不能为 0。因此实现上通常要做一些小的处理，例如把所有计数进行+1(加法平滑(additive smoothing，又叫拉普拉斯平滑(Laplace smothing))。而如果通过增加一个大于 0 的可调参数 alpha进行平滑，就叫 Lidstone 平滑。

　　朴素贝叶斯应用

在新闻分类中，目标集由 B[0],B[1]组成。其中，B[0]为负面，B[1]为正面。属性值(A1,A2...An)即为新闻文本经过分词后的结果。比如:

(A1,A2...An)=(开盘，万科，再，出现，大涨，态势，涨幅，一度，超，股价，最高，达元，创出，多年，新高，有所，回落，发稿，时，成交量，接近)共 21 个属性值。

根据前面需要得出 Vnb = arg maxP(B[j])* ∏P(Ai | B[j])。需要依次求出 P(Ai | B[j])及 P(B[j])，然后相乘，最大值取为该文本的分类结果。

比如“负面”先验概率 P(B[0]) = 类“负面”下特征词总数 /训练样本中的特征词总数

比如，“开盘”在为类“负面”的条件概率为:

类条件概率 P(A1 | B[0])=p(开盘|负面) = (类“负面”下单词“开盘”出现在所有文档中的次数之和+1)/( 类 “负面”下特征词总数 +训练样本中不重复的特征词总数)。

同样可以求出剩下的属性特征词，(万科，再，出现，大涨，态势，涨幅，一度，超，股价，最高，达元，创出，多年，新高，有所，回落，发稿，时，成交量，接近)

　　得出由这些属性值组成的新闻文本归类为“负面”的概率为:

　　V0 = P(B[0])* P(A1 | B[0])* P(A2 | B[0])*...* P(A21 | B[0])

同样的方法，求出由这些属性值组成的新闻文本归类为“正面”的概率为:

V1 = P(B[1])* P(A1 | B[1])* P(A2 | B[1])*...* P(A21 | B[1])

最后，比较 V0 与 V1 的大小,若 V0>V1,则该新闻文本应该归类为负面。否则为正面。

(责任编辑：本港台直播)