选自static.coggle.it 机器之心编译 在我们日常生活中所用到的推荐系统、智能图片美化应用和聊天机器人等应用中,各种各样的机器学习和数据处理算法正尽职尽责地发挥着自己的功效。本文筛选并简单介绍了一些最常见算法类别,还为每一个类别列出了一些实际的算法并简单介绍了它们的优缺点。 https://static.coggle.it/diagram/WHeBqDIrJRk-kDDY
目录 正则化算法(Regularization Algorithms) 集成算法(Ensemble Algorithms) 决策树算法(Decision Tree Algorithm) 回归(Regression) 人工神经网络(Artificial Neural Network) 支持向量机(Support Vector Machine) 降维算法(Dimensionality Reduction Algorithms) 聚类算法(Clustering Algorithms) 基于实例的算法(Instance-based Algorithms) 贝叶斯算法(Bayesian Algorithms) 关联规则学习算法(Association Rule Learning Algorithms) 图模型(Graphical Models) 正则化算法(Regularization Algorithms) 它是另一种方法(通常是回归方法)的拓展,这种方法会基于模型复杂性对其进行惩罚,它喜欢相对简单能够更好的泛化的模型。 例子: 岭回归(Ridge Regression) 最小绝对收缩与选择算子(LASSO) GLASSO 弹性网络(Elastic Net) 最小角回归(Least-Angle Regression) 优点: 其惩罚会减少过拟合 总会有解决方法 缺点: 惩罚会造成欠拟合 很难校准 集成算法(Ensemble algorithms) 集成方法是由多个较弱的模型集成模型组,其中的模型可以单独进行训练,并且它们的预测能以某种方式结合起来去做出一个总体预测。 该算法主要的问题是要找出哪些较弱的模型可以结合起来,以及结合的方法。这是一个非常强大的技术集,因此广受欢迎。 Boosting Bootstrapped Aggregation(Bagging) AdaBoost 层叠泛化(Stacked Generalization)(blending) 梯度推进机(Gradient Boosting Machines,GBM) 梯度提升回归树(Gradient Boosted Regression Trees,GBRT) 随机森林(Random Forest) 优点: 当先最先进的预测几乎都使用了算法集成。它比使用单个模型预测出来的结果要精确的多 缺点: 需要大量的维护工作 决策树算法(Decision Tree Algorithm) 决策树学习使用一个决策树作为一个预测模型,它将对一个 item(表征在分支上)观察所得映射成关于该 item 的目标值的结论(表征在叶子中)。 树模型中的目标是可变的,可以采一组有限值,被称为分类树;在这些树结构中,叶子表示类标签,分支表示表征这些类标签的连接的特征。 例子: 分类和回归树(Classification and Regression Tree,CART) Iterative Dichotomiser 3(ID3) C4.5 和 C5.0(一种强大方法的两个不同版本) 优点: 容易解释 非参数型 缺点: 趋向过拟合 可能或陷于局部最小值中 没有在线学习 回归(Regression)算法 (责任编辑:本港台直播) |