回归是用于估计两种变量之间关系的统计过程。当用于分析因变量和一个 多个自变量之间的关系时,该算法能提供很多建模和分析多个变量的技巧。具体一点说,回归分析可以帮助我们理解当任意一个自变量变化,另一个自变量不变时,因变量变化的典型值。最常见的是,atv,回归分析能在给定自变量的条件下估计出因变量的条件期望。 回归算法是统计学中的主要算法,它已被纳入统计机器学习。 例子: 普通最小二乘回归(Ordinary Least Squares Regression,OLSR) 线性回归(Linear Regression) 逻辑回归(Logistic Regression) 逐步回归(Stepwise Regression) 多元自适应回归样条(Multivariate Adaptive Regression Splines,MARS) 本地散点平滑估计(Locally Estimated Scatterplot Smoothing,LOESS) 优点: 直接、快速 知名度高 缺点: 要求严格的假设 需要处理异常值 人工神经网络 人工神经网络是受生物神经网络启发而构建的算法模型。 它是一种模式匹配,常被用于回归和分类问题,但拥有庞大的子域,由数百种算法和各类问题的变体组成。 例子: 感知器 反向传播 Hopfield 网络 径向基函数网络(Radial Basis Function Network,RBFN) 优点: 在语音、语义、视觉、各类游戏(如围棋)的任务中表现极好。 算法可以快速调整,适应新的问题。 缺点: 需要大量数据进行训练 训练要求很高的硬件配置 模型处于「黑箱状态」,难以理解内部机制 元参数(Metaparameter)与网络拓扑选择困难。 深度学习(Deep Learning) 深度学习是人工神经网络的最新分支,它受益于当代硬件的快速发展。 众多研究者目前的方向主要集中于构建更大、更复杂的神经网络,目前有许多方法正在聚焦半监督学习问题,其中用于训练的大数据集只包含很少的标记。 例子: 深玻耳兹曼机(Deep Boltzmann Machine,DBM) Deep Belief Networks(DBN) 卷积神经网络(CNN) Stacked Auto-Encoders 优点/缺点:见神经网络 支持向量机(Support Vector Machines) 给定一组训练事例,其中每个事例都属于两个类别中的一个,支持向量机(SVM)训练算法可以在被输入新的事例后将其分类到两个类别中的一个,使自身成为非概率二进制线性分类器。 SVM 模型将训练事例表示为空间中的点,它们被映射到一幅图中,由一条明确的、尽可能宽的间隔分开以区分两个类别。 随后,新的示例会被映射到同一空间中,并基于它们落在间隔的哪一侧来预测它属于的类别。 优点: 在非线性可分问题上表现优秀 缺点: 非常难以训练 很难解释 降维算法(Dimensionality Reduction Algorithms) 和集簇方法类似,降维追求并利用数据的内在结构,目的在于使用较少的信息总结或描述数据。 这一算法可用于可视化高维数据或简化接下来可用于监督学习中的数据。许多这样的方法可针对分类和回归的使用进行调整。 例子: 主成分分析(Principal Component Analysis (PCA)) 主成分回归(Principal Component Regression (PCR)) 偏最小二乘回归(Partial Least Squares Regression (PLSR)) Sammon 映射(Sammon Mapping) 多维尺度变换(Multidimensional Scaling (MDS)) 投影寻踪(Projection Pursuit) 线性判别分析(Linear Discriminant Analysis (LDA)) 混合判别分析(Mixture Discriminant Analysis (MDA)) 二次判别分析(Quadratic Discriminant Analysis (QDA)) 灵活判别分析(Flexible Discriminant Analysis (FDA)) 优点: 可处理大规模数据集 无需在数据上进行假设 缺点: 难以搞定非线性数据 难以理解结果的意义 聚类算法(Clustering Algorithms) (责任编辑:本港台直播) |