:COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。 简历投递:j[email protected] HR 微信:13552313024 新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。 加盟新智元,开奖,与人工智能业界领袖携手改变世界。 【新智元导读】机器学习应用统计学习技术,自动识别数据集内的模式。这些技术可以用来作出准确性很高的预测。决策树是机器学习作预测的常见方法之一,本文以一个房屋资料数据集为示例,用可视化图阐释了如何建一个能够区分房屋地理位置的决策树模型。虽然原文发布已有一段时间,然而每次看来仍然震撼,强烈推荐: 机器学习中,计算机常应用统计学习技术自动识别数据集内的模式。这些技术可以用来作出高度准确的预测。本文以一个房屋资料的数据集为示例,图解如何建一个能够区分纽约市和旧金山的房子的机器学习模型。 一些直观特征
假设我们需要凭数据预测一栋房屋是位于旧金山还是纽约市,应该怎样做呢?在机器学习学科里,这是一种分类任务(classification task)。 如果你到过旧金山,你可能会知道其地貌是高低不平的丘陵地带。那么房屋的海拔数据或许能区分这两座城市的房屋。 上图表示两地房屋的海拔数据,你可能会认为海拔240英尺以上的房子看来应该是位于旧金山的。这是我们凭直觉所能作出的初步预测。 增加维度
增加一个维度(dimension)能让我们发现更多差别特征。例如,纽约市的房子每平方英尺价格显然要比旧金山的贵得多。 所以加上每平方英尺价格这个维度后,我们的图变成了散点图,从散点图可以看到,海拔较低的房屋中,单价相对高的房子应该是纽约市的。 从这些数据中我们可以作出这样的预测:在海拔低于或等于240英尺的房子中,如果每平方英尺价格高于1776美元,那么这栋房子应该位于纽约市。 机器学习中,数据集内的维度又称特征(features),预测器(predictors)或变数(variables)。 划分边界
我们可以把海拔(>242ft)和每平方英尺单价(>$1776)作为分界线上面的散点图上画出来。图上绿色的部分(海拔>242ft)可以归类为旧金山的房子,蓝色的部分(平方英尺单价>$1776,海拔≤242ft)归类为纽约的房子。 这种利用数据找出合理的分界线的方法是统计学习的基础。 但是,直播,左下角哪些海拔低,单价也低的房子该怎么分类呢?我们需要更多的特征数据。
我们用来建机器学习模型的房屋数据集里有七个维度。在机器学习中,建模的过程又称训练模型(training a model)。 如图,我们把每两个维度的关系都制成散点图,从图中可以看出数据的规律,但分界线不明显。 机器学习 在数据中寻找模式是机器学习的特长。机器学习方法可以使用统计学习找出最佳分界线。 接下来我们将介绍一种叫决策树(decision tree)的机器学习方法。决策树会逐一分析数据集里的维度,是一种合理可行的机器学习方法。 寻找更好的分界特征
让我们回顾最初的海拔数据图,想想怎样找到更好的分界特征。显然,换个角度,把原来的海拔图变为矩形图(histogram)可以更直观地看出数据里的规律,例如每个海拔上房子的数量趋势。 从矩形图中可以看出,纽约市海拔最高的房子大约是240英尺,但大多数房子都位于海拔较低的地方。 第一个分支 (责任编辑:本港台直播) |