2. 我们能从偏差-方差平衡上来理解这点。当假设空间集比较小的时候,它具有更高的偏差和更低的方差,所以对于较小的假设空间,不太能找到合适的假设去拟合数据,这正是欠拟合。 16 假设我们对一组数据用Lasso回归去进行拟合,这组数据有100个特征值(X1,X2…X100)。现在,我们把其中一个特征值放大10倍(假设就是X1),然后重新用Lasso回归进行拟合,保持相同的正则化参数。下面那个选择是正确的? A. X1很有可能被排除在模型外 B. X1很有可能被包含着模型内 C. 无法判断 D. 以上都不是 答案:B 大特征值è更小的系数è更小的Lasso惩罚项è更容易被保留 17 关于特征值选择,下面关于Ridge回归或Lasso回归的说法,那个是正确的? A. 回归:对特征值用子集选择的方法 B. 回归:对特征值用子集选择的方法 C. 两种方法都用子集选择的方法 D. 以上皆非 答案:B Ridge回归会在模型中用到所有的预测项,而Lasso回归适用于于特征值选择,因为系数值可以为0。更详细的内容可以参考这里(https://discuss.analyticsvidhya.com/t/difference-between-ridge-regression-and-lasso-and-its-effect/3000)。 18 在线性回归模型中添加变量后,以下哪个(些)说法是正确的? R平方和调整后的R平方都增加 R平方增加,调整后的R平方减小 R-Squared decreases and Adjusted R-squared decreases R平方和调整后的R平方都减小 R-Squared decreases and Adjusted R-squared increases R平方减小,调整后的R平方增加 A. 1和2 B. 1和3 C. 2和4 D. 以上皆非 答案:A 每次加一个特征值后,R平方总是增加或维持不变。但对于调整过的R平方并非如此,如果增加了,这个特征值是有显著性的。 19 下面的可视化图显示了对于相同训练数据的三种不同模型的拟合情况(蓝线)。从中你能得到怎样的结论? 1. 第一个模型的训练误差比第二个和第三个模型大。 2. 对于这个回归问题,第三个模型是最好的,因为其训练误差最小。 3. 第二个模型鲁棒性比第一个和第三个模型更强,因为它对于不可见部分数据的表现更好 4. 相对于第一个和第二个模型来说,第三个模型过拟合了。 5. 所有的模型都一样,因为我们没有看到测试数据集。 A.1和3 B. 1和2 C. 1,3和4 D. 只有5 答案:C 数据的趋势看起来像是自变量X的二阶趋势。对于训练集来说,更高阶数(右图)多项式可能会更精确,但很有可能在测试集上会预测失败。而观察左边的图,你会得到最大的训练误差,因为这个模型欠拟合。 20 以下哪些指标可用于评估回归模型? R平方 调整后的R平方 F检验 RMSE / MSE / MAE A. 2和4 B. 1和2 C. 2,3和4 D.以上所有 答案:D 这些(R平方,调整后的R平方,F检验,RSME/MSE/MAE)是可以用来评估回归模型的指标 21 我们还可以借助于称为“normal equation”的分析方法来计算线性回归的系数,关于normal equation,下面哪个(些)说法是正确的? 1. 我们不必选择学习速度 2. 当特征值很多的时候,就会变慢 3. 不需要迭代 A. 1和2 B. 1和3 C. 2和3 D. 1,2和3 答案:D 如果不用梯度下降法,normal equation也可以用于找到系数,可以参考这篇文章()。 22 Y值是关于变量X(X1,X2….Xn)的线性函数,回归线如下定义: Y = β0 + β1 X1 + β2 X2……+ βn Xn 下面哪种(些)说法是正确的? 如果Xi变化量为?Xi,保持其他变量不变,那么Y值变化量为βi ?Xi,βi是一个常数(通常是一个正数或者负数) βi不变,无论其他X值如何变化 作用在Y值上的所有X值是其单独作用的总和。注意:特征值是相互独立的,没有相互作用。 A. 1和2 B. 1和3 C. 2和3 D. 1,2和3 答案:D 1. Y是变量X的线性函数,这意味着: 如果X i变化了?X i,保持其他变量不变,对于特定常数β i, Y值的变化量即为β i ?X i,β i通常是正数或者负数。 无论其他X的值是多少,β i的值是保持不变的。 作用在Y值上的所有X值是其单独作用的总和 2. 未经解释的变量Y是独立随机变量,特别地,如果变量是时间序列的话,Y不是自相关的。 3. 他们具有相同的方差(同方差)。 4. 他们服从正态分布。 23 在简单的线性回归模型中需要估计多少系数(一个自变量)? A. 1 B. 2 C. Can’t Say 无法估计 答案:B 在一个简单线性回归函数中,如果有一个自变量,那就有两个参数Y=a+bx 24 下列图中显示了两组随机生成数据的回归线(A和B)现在我要找出A和B的残差和。 注意: 1. 两个图的两个轴的刻度相同。 2. X轴是自变量,Y轴是因变量。 下面关于图A和图B的残差和的说法,哪个是正确的? A) A比B高 B) A比B低 C) 二者相同 D) 以上都不是 答案: C 残差和始终为0. 25 如果两个变量是相关的,二者是否必然具有线性关系? A. 是 B. 否 答案:B 二者可以是非线性关系的,不是必然线性的关系。 26 相关变量可以是相关系数为0的,对还是错? A.对 B. 错 答案:A 27 假设我对数据应用逻辑回归模型,并得到训练精度X和测试精度Y.现在我想在数据中添加几个新特性。请选择正确的选项。 注意:其他的参数都是相同的。 1. 训练精度总是下降的 2. 训练精度总是上升的或者维持不变。 3. 测试精度总是下降的。 4. 测试精度总是上升的或者维持不变。 A. 只有2 B. 只有1 C. 只有3 D. 只有4 答案:A 向模型添加更多特征将总是会增加训练准确度,即低偏差。但是测试精度增加,则有赖于特征是否是显著的。 28 下图表示由X预测Y的回归线。图上的值显示每个预测值的残差。使用此信息来计算SSE。 A. 3.02 B. 0.75 C. 1.01 D. 以上皆非 答案: A SSE是预测的误差平方和,此处SSE= = (-.2)^2 + (.4)^2 + (-.8)^2 + (1.3)^2 + (-.7)^2 = 3.02 29 (责任编辑:本港台直播) |