本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】机器理解大数据的秘密:聚类算法深度详解(2)

时间:2017-04-02 21:16来源:本港台直播 作者:j2开奖直播 点击:
不断重复第二步,直到每一组的均值不再变化。对于这个简单的任务,下一次迭代就能达到我们的目标。现在就完成了,你已经从原数据集得到了 3 个聚类

不断重复第二步,直到每一组的均值不再变化。对于这个简单的任务,下一次迭代就能达到我们的目标。现在就完成了,你已经从原数据集得到了 3 个聚类!

  第 1 组(原来的均值=10)

  运动员 C(11 个球)、运动员 E(9 个球)、运动员 I(15 个球)

  最终平均=11.3

  第 2 组(原来的均值=4.33)

  运动员 A(5 个球)、运动员 D(5 个球)、运动员 H(3 个球)

  最终平均=4.33

  第 3 组(原来的均值=21)

  运动员 B(20 个球)、运动员 F(19 个球)、运动员 G(30 个球)、

  最终平均=23

通过这个例子,该聚类可能能够对应这些运动员在球场上的位置——比如防守、中场和进攻。K-均值在这里有效,是因为我们可以合理地预测这些数据会自然地落到这三个分组中。

以这种方式,当给定一系列表现统计的数据时,机器就能很好地估计任何足球队的队员的位置——可用于体育分析,也能用于任何将数据集分类为预定义分组的其它目的的分类任务。

更加细微的细节:

上面所描述的算法还有一些变体。最初的「种子」聚类可以通过多种方式完成。这里,我们随机将每位运动员分成了一组,然后计算该组的均值。这会导致最初的均值可能会彼此接近,这会增加后面的步骤。

另一种选择种子聚类的方法是每组仅一位运动员,atv,然后开始将其他运动员分配到与其最接近的组。这样返回的聚类是更敏感的初始种子,从而减少了高度变化的数据集中的重复性。但是,这种方法有可能减少完成该算法所需的迭代次数,因为这些分组实现收敛的时间会变得更少。

K-均值聚类的一个明显限制是你必须事先提供预期聚类数量的假设。目前也存在一些用于评估特定聚类的拟合的方法。比如说,聚类内平方和(Within-Cluster Sum-of-Squares)可以测量每个聚类内的方差。聚类越好,整体 WCSS 就越低。

层次聚类(Hierarchical clustering)

何时使用?

当我们希望进一步挖掘观测数据的潜在关系,可以使用层次聚类算法。

工作方式

首先我们会计算距离矩阵(distance matrix),其中矩阵的元素(i,j)代表观测值 i 和 j 之间的距离度量。然后将最接近的两个观察值组为一对,并计算它们的平均值。通过将成对观察值合并成一个对象,我们生成一个新的距离矩阵。具体合并的过程即计算每一对最近观察值的均值,并填入新距离矩阵,直到所有观测值都已合并。

有效案例:

以下是关于鲸鱼或海豚物种分类的超简单数据集。作为受过专业教育的生物学家,我可以保证通常我们会使用更加详尽的数据集构建系统。现在我们可以看看这六个物种的典型体长。本案例中我们将使用 2 次重复步骤。

报码:【j2开奖】机器理解大数据的秘密:聚类算法深度详解

步骤一:计算每个物种之间的距离矩阵,在本案例中使用的是欧氏距离(Euclidean distance),即数据点(data point)间的距离。你可以像在道路地图上查看距离图一样计算出距离。我们可以通过查看相关行和列的交叉点值来查阅任一两物种间的长度差。

报码:【j2开奖】机器理解大数据的秘密:聚类算法深度详解

步骤二:将两个距离最近的物种挑选出来,在本案例中是宽吻海豚和灰海豚,他们平均体长达到了 3.3m。重复第一步,并再一次计算距离矩阵,但这一次将宽吻海豚和灰海豚的数据使用其均值长度 3.3m 代替。

报码:【j2开奖】机器理解大数据的秘密:聚类算法深度详解

接下来,使用新的距离矩阵重复步骤二。现在,最近的距离成了领航鲸与逆戟鲸,所以我们计算其平均长度(7.0m),并合并成新的一项。

随后我们再重复步骤一,再一次计算距离矩阵,只不过现在将领航鲸与逆戟鲸合并成一项且设定长度为 7.0m。

报码:【j2开奖】机器理解大数据的秘密:聚类算法深度详解

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容