本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】机器理解大数据的秘密:聚类算法深度详解

时间:2017-04-02 21:16来源:本港台直播 作者:j2开奖直播 点击:
参与:吴攀、蒋思源、李泽南、李亚洲 在理解大数据方面,聚类是一种很常用的基本方法。近日,数据科学家兼程序员 Peter Gleeson 在 freeCodeCamp 发布了一篇深度讲解文章,对一些聚类

参与:吴攀、蒋思源、李泽南、李亚洲

理解数据方面,聚类是一种很常用的基本方法。近日,数据科学家兼程序员 Peter Gleeson 在 freeCodeCamp 发布了一篇深度讲解文章,对一些聚类算法进行了基础介绍,并通过简单而详细的例证对其工作过程进行了解释说明。

看看下面这张图,有各种各样的虫子和蜗牛,你试试将它们分成不同的组别?

不是很难吧,先从找出其中的蜘蛛开始吧!

报码:【j2开奖】机器理解大数据的秘密:聚类算法深度详解

完成了吗?尽管这里并不一定有所谓的「正确答案」,但一般来说我们可以将这些虫子分成四组:蜘蛛、蜗牛、蝴蝶/飞蛾、蜜蜂/黄蜂。

很简单吧?即使虫子数量再多一倍你也能把它们分清楚,对吗?你只需要一点时间以及对昆虫学的热情就够了——其实就算有成千上万只虫子你也能将它们分开。

  但对于一台机器而言,将这 10 个对象分类成几个有意义的分组却并不简单——在一门叫做组合学(combinatorics)的数学分支的帮助下,我们知道对于这 10 只虫子,我们可以有 115,975 种不同的分组方式。如果虫子数量增加到 20,那它们可能的分组方法将超过 50 万亿种。要是虫子数量达到 100,那可能的方案数量将超过已知宇宙中的粒子的数量。超过多少呢?据我计算,大约多 500,000,000,000,000,000,000,000,000,000,000,000 倍,已是难以想象的超天文数字!

但其中大多数分组方案都是无意义的,在那些浩如烟海的分组选择中,你只能找到少量有用的虫子分组的方法。

而我们人类可以做得很快,我们往往会把自己快速分组和理解大量数据的能力看作是理所当然。不管那是一段文本,还是屏幕上图像,或是对象序列,人类通常都能有效地理解自己所面对的数据。

鉴于人工智能和机器学习的关键就是快速理解大量输入数据,那在开发这些技术方面有什么捷径呢?在本文中,你将阅读到三种聚类算法——机器可以用其来快速理解大型数据集。当然,除此之外还有其它的算法,但希望这里的介绍能给你一个良好的开始!

在本文中,我将给出每种聚类算法的概述、工作方式的简单介绍和一个更细节的逐步实现的案例。我相信这能帮助你理解这些算法。

报码:【j2开奖】机器理解大数据的秘密:聚类算法深度详解

  3 个齐整的聚类,K=3

K-均值聚类(K-means clustering)

何时使用?

当你事先知道你将找到多少个分组的时候?

工作方式

该算法可以随机将每个观察(observation)分配到 k 类中的一类,然后计算每个类的平均。接下来,它重新将每个观察分配到与其最接近的均值的类别,然后再重新计算其均值。这一步不断重复,直到不再需要新的分配为止。

有效案例

假设有一组 9 位足球运动员,他们中每个人都在这一赛季进了一定数量的球(假设在 3-30 之间)。然后我们要将他们分成几组——比如 3 组。

第一步:需要我们将这些运动员随机分成 3 组并计算每一组的均值。

  第 1 组

  运动员 A(5 个球)、运动员 B(20 个球)、运动员 C(11 个球)

  该组平均=(5 + 20 + 11) / 3 = 12

  第 2 组

  运动员 D(5 个球)、运动员 E(9 个球)、运动员 F(19 个球)

  该组平均=11

  第 3 组

  运动员 G(30 个球)、运动员 H(3 个球)、运动员 I(15 个球)

  该组平均=16

第二步:对于每一位运动员,将他们重新分配到与他们的分数最接近的均值的那一组;比如,运动员 A(5 个球)被重新分配到第 2 组(均值=11)。然后再计算新的均值。

  第 1 组(原来的均值=12)

  运动员 C(11 个球)、运动员 E(9 个球)

  新的平均=(11 + 9) / 2 = 10

  第 2 组(原来的均值=11)

  运动员 A(5 个球)、运动员 D(5 个球)、运动员 H(3 个球)

  新的平均=4.33

  第 3 组(原来的均值=16)

  运动员 B(20 个球)、运动员 F(19 个球)、运动员 G(30 个球)、运动员 I(15 个球)

  新的平均=21

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容