【倒计时 10 天,点击“阅读原文”抢票】中国 AI 2017 开年盛典启幕在即,三大亮点不容错过:① 两会 聚齐 BAT 人工智能技术领袖,洞察中国 AI 军团布局;② 引爆 AI 原力, 现场参与 AI 技术论坛顶牛对撞;③人工智能创业家巨星璀璨,看投资领袖预测 谁将成为中国 AI 独角兽。 【新智元导读】这是一篇评估机器学习模型的技术报告,最初是发布在Dato的机器学习博客上的系列博文,详细解释了交叉验证、保留部分数据做验证和超参数调优等评估机器学习模型的方法。【完整PDF文件可点击阅读原文,在O'Reilly官方网站上下载】 这篇评估机器学习模型的报告是源于对这个题目需求的紧迫感。这篇报告最初是发布在Dato的机器学习博客上的六篇系列博文。我是这个博客的编辑,需要每天找些东西来发布。Dato开发了一些机器学习的工具来帮助用户来构建智能的数据产品。在和机器学习社群的交流中,atv直播,我们经常会发现相互之间对一些术语会有不同的理解。例如,用户会要求交叉验证作为产品的一个特性,而事实上他们是想要超参数的调优,而这一特性我们已经有了。因此我想:“嗯!我应该快速地解释一下这些概念的意思,并告诉大家它们在用户手册里面的哪些章节。” 所以我坐下开始写一篇博文来解释交叉验证、保留部分数据做验证和超参数调优。然而在写完头两段后,我意识到这可能会远远超过一篇博文才能讲清楚的。这三个概念处在机器学习的模型评估的层次体系中的不同层面。交叉验证和保留部分数据做验证是把数据集进行一定的切分来测量模型对于“没见过的”数据的表现。与此不同的是,超参数调优则是模型选择的元过程。但是为什么需要给模型“没见过的”数据?什么是关于超参数调优的这个“元”?为了解释清楚这一切,atv,我需要从最基础的开始。首先我需要从更高层次上解释这些概念,以及他们是怎么组织在一起的。只有在这之后我才能进一步讨论细节。 目录: 前言 新生入门 机器学习的工作流程 评估指标 离线评估机制 超参数调优 在线测试的方法 评估指标 分类的评估指标 准确率(Accuracy) 混淆矩阵(Confusion Matrix) 平均类准确率(Per-class Accuracy) 对数损失函数(Log-loss) AUC 排序的评估指标 16 精确率—召回率(Precision-Recall) 精确率—召回率曲线和F1值 归一化折损累积增益(NDCG) 回归的评估指标 注意:训练指标和评估指标的区别 注意:偏态的数据集—类别不均衡、异常值和罕见值 相关的阅读材料 相关的软件 离线评估的方法:保留部分数据做验证、交叉验证和自助法 原型产生阶段:模型训练、验证和模型选择 为什么不是收集更多的数据 保留部分数据做验证 交叉验证 自助法(Bootstrap)和Jackknife方法 注意:模型验证和测试的区别 总结 相关的阅读材料 相关的软件 超参数调优 模型的参数与超参数的对比 超参数有什么作用? 调整超参数的方法 超参数调优的算法 嵌套交叉校验 相关的阅读材料 相关的软件 A/B测试的陷阱 什么是A/B测试? 一个替代方法:多臂强盗法 (责任编辑:本港台直播) |