编译 | 吴蕾,寒小阳 简介 回归技术不仅包含线性和逻辑回归方面知识,它还体现了多种建模和分析变量的能力。此项技能测试是为了评估你在众多回归技术方面的概念和运用能力。 此次共有1845名选手参与测试,我能确信,这是在回归领域内公认的最佳测试集。 如果你没能参与,确实是错过了实时考试的机会,那也不必遗憾,这里将公布考题和答案,你可以看看自己掌握了多少。 总体分数 下图展示了整体分数的分布情况,可以帮助你评估自己的成绩。 你能够在此处(https://datahack.analyticsvidhya.com/contest/skilltest-regression/lb)评估你的成绩:约530名选手参加了技能测试,最高分是38分,下面是些分布统计值: 平均值:23.15 中位值:23 高频值:23 回归学习的资源 如果你要复习一下回归的相关知识,可以参考以下网站: ■ 使用假设,图解及方案,深入学习回归分析 https://www.analyticsvidhya.com/blog/2016/07/deeper-regression-analysis-assumptions-plots-solutions/ https://www.analyticsvidhya.com/blog/2015/10/regression-python-beginners/ ■ 你应该知道的7种回归技术 https://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/ ■ 用R实现逻辑回归的简单指南 https://www.analyticsvidhya.com/blog/2015/11/beginners-guide-on-logistic-regression-in-r/ ■ Python实现岭回归和Lasso回归的完全指导书 https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-ridge-lasso-regression-python/ ■ 利用Platt Scaling和保序回归(Isotonic Regression)来最小化Log loss Error,用R语言实现 https://www.analyticsvidhya.com/blog/2016/07/platt-scaling-isotonic-regression-minimize-logloss-error/ 1 下面回归模型中的哪个步骤/假设最能影响过拟合和欠拟合之间的平衡因素: A. 多项式的阶数 B. 是否通过矩阵求逆或梯度下降学习权重 C.使用常数项 答案:A 选取合适的多项式阶数对于回归的拟合程度会产生重要的影响。多项式阶数越高,越容易产生过拟合现象。 2 假设您有一组实数输入变量和实数输出变量,线性回归(Y=bX+c)情况下的留一交叉验证(leave-one-out-cross-validation)的均方误差是多少? A. 10/27 B. 20/27 C. 50/27 D. 49/27 答案:D 我们要计算每个交叉验证点的残差。用两点拟合出直线后,用剩下的那个点进行交叉验证。弃一交叉验证的均方差=(2^2 +(2/3)^2 +1^2) /3 = 49/27 3 Q3: 关于MLE(最大似然估计),下面哪一项或几项说法是正确的 MLE可能不存在 MLE总是存在 如果MLE存在,可能不是唯一的 如果MLE存在,肯定是唯一的 A. 1 and 4 B. 2 and 3 C. 1 and 3 D. 2 and 4 答案: C MLE可以不是转折点,即,可以不是似然(和对数似然)函数的一阶导数的消失点。 MLE可以不是唯一的。 4 Q4:假设一个线性回归模型完美适合训练数据(训练误差为0),下面那个说法是错误的: A. 你总是能获得测试误差为0 B. 你不能得到测试误差为0 C. 以上皆非 答案:C 测试误差有可能为0,假如测试数据里面没有噪声数据。或者说,如果测试数据能够完美表征训练数据集,测试误差即可为0,但测试数据不会总这样。 5 Q5: 在线性回归问题中,我们使用决定系数 (R-squared)来测量拟合优度。我们在线性回归模型中添加一个特征值,并保留相同的模型。 下面哪种说法是正确的? 如果R-Squared增大,这个变量是显著的。 如果R-Squared减小,这个变量是不显著的。 单独观察R-Squared的变化趋势,无法判断这个变量是否显著。 以上皆非 答案:C (责任编辑:本港台直播) |