本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】机器理解大数据的秘密:聚类算法深度详解(5)

时间:2017-04-02 21:16来源:本港台直播 作者:j2开奖直播 点击:
当我们将括号中的项与克罗内克 δ 函数相乘时,我们发现对于嵌套求和 Σ,当有大量「意外的(unexpected)」连接顶点的边被分配给同一个聚类时,其结果

当我们将括号中的项与克罗内克 δ 函数相乘时,我们发现对于嵌套求和 Σ,当有大量「意外的(unexpected)」连接顶点的边被分配给同一个聚类时,其结果是最高的。因此,模块性是一种用于衡量将图聚类成不同的团体的程度的方法。

除以 2L 将模块性的上限值设置成了 1。模块性接近或小于 0 表示该网络的当前聚类没有用处。模块性越高,该网络聚类成不同团体的程度就越好。通过是模块性最大化,我们可以找到聚类该网络的最佳方法。

注意我们必须预定义图的聚类方式,才能找到评估一个聚类有多好的方法。不幸的是,使用暴力计算的方式来尝试各种可能以寻找最高模块性分数的聚类方式需要大量计算,即使在一个有限大小的样本上也是不可能的。

组合学(combinatorics)告诉我们对于一个仅有 8 个顶点的网络,直播,就存在 4140 种不同的聚类方式。16 个顶点的网络的聚类方式将超过 100 亿种。32 个顶点的网络的可能聚类方式更是将超过 128 septillion(10^21)种;如果你的网络有 80 个顶点,那么其可聚类的方式的数量就已经超过了可观测宇宙中的原子数量。

因此,我们必须求助于一种启发式的方法,该方法在评估可以产生最高模块性分数的聚类上效果良好,而且并不需要尝试每一种可能性。这是一种被称为 Fast-Greedy Modularity-Maximization(快速贪婪模块性最大化)的算法,这种算法在一定程度上类似于上面描述的 agglomerative hierarchical clustering algorithm(集聚层次聚类算法)。只是 Mod-Max 并不根据距离(distance)来融合团体,而是根据模块性的改变来对团体进行融合。

下面是其工作方式:

首先初始分配每个顶点到其自己的团体,然后计算整个网络的模块性 M。

第 1 步要求每个团体对(community pair)至少被一条单边链接,如果有两个团体融合到了一起,该算法就计算由此造成的模块性改变 ΔM。

第 2 步是取 ΔM 出现了最大增长的团体对,然后融合。然后为这个聚类计算新的模块性 M,并记录下来。

重复第 1 步和 第 2 步——每一次都融合团体对,这样最后得到 ΔM 的最大增益,然后记录新的聚类模式及其相应的模块性分数 M。

当所有的顶点都被分组成了一个巨型聚类时,就可以停止了。然后该算法会检查这个过程中的记录,然后找到其中返回了最高 M 值的聚类模式。这就是返回的团体结构。

更多细节:

哇!这个过程真是有太多计算了,至少对我们人类而言是这样。图论中存在很多计算难题,常常是 NP-hard 问题——但其也在为复杂系统和数据集提供有价值的见解上具有出色的潜力。Larry Page 就知道这一点,其著名的 PageRank 算法就是完全基于图论的——该算法在帮助谷歌在不到十年之内从创业公司成长为近乎世界主宰的过程中立下了汗马功劳。

团体检测(community detection)是现在图论中一个热门的研究领域,也存在很多可替代 Modularity-Maximization(尽管很有用,但也有缺点)的方法。

首先,它的聚集方式从指定尺寸的小团体开始,逐渐转向越来越大的。这被称为分辨率极限(resolution limit)——该算法不会搜索特定尺寸以下的团体。另一个挑战则是超越一个显著波峰的表现,Mod-Max 方法趋向于制造一个由很多高模块化分数组成的「高原」,这有时会导致难以确定最大分数。

其他算法使用不同的方式来确定团体。Edge-Betweenness 是一个分裂算法,把所有顶点聚合到一个大集群中。它会持续迭代去除网络中「最不重要」的边缘数据,直到所有顶点都被分开为止。这一过程产生了层级结构,其中类似的顶点在结构中互相靠近。

另一种算法是 Clique Percolation,它考虑了图团体之间可能的重叠。而另外一些算法基于图中的随机游动,还有谱聚类(spectral clustering)算法:从邻接矩阵及派生矩阵的特征分解开始。这些方法被应用于特征提取任务,如计算机视觉。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容