决定变量的变化并不能独立决定某个变量的的显著程度,因为每当我们添加一个特征值的时候,R-squared可以增加或不变。但是如果是矫正后的决定系数,这种R-squared增大即该变量重要的说法肯定是不对的。 6 Q6:关于回归分析中的残值,下述哪个说法是正确的? 残值的平均数总是为0 残值的平均数总是小于0 残值的平均数总是大于0 残值的大小没有规则。 答案:A 回归的残值和始终为0,因此平均值也始终为0. 7 关于异方差性,下面哪种说法是正确的: 具有不同误差项的线性回归 具有相同误差常数项的线性回归 具有0误差项的线性回归 以上皆非 答案:A 误差项中非恒定方差的存在导致异方差。一般情况下,非恒定方差的出现是因为异常值或极端杠杆值的存在。你可以参考这篇文章,了解更多回归分析的细节。 8 下面哪种说法显示了X和Y之间的较强相关性? 相关系数=0.9 对于零假设(null hypothesis)的p value=0.0001,Beta系数=0 对于零假设(null hypothesis)的t-statistic=30,Beta系数=0 D以上皆非 答案:A 相关系数为0.9表明变量之间的相关性相当强。另一方面,p-value和t-statistics只是衡量证据和非零假设的相关程度。给定足够的数据,一个微弱效应也能显示出超强的显著性。 9 在推导线性回归参数时,我们会做出以下哪些假设? 因变量y和预测变量x之间的真实关系是线性的。 模型的误差在统计意义上是独立的。 误差通常分布是均值为0,且标准差为常数。 预测变量x是非随机的,而且不存在测量误差。 A.1,2,3 B.1,3,4 C1,3 D. 以上所有 答案:D 当我们推到回归参数的时候,我们会提出以上四项假设。。当任意一项假设不成立的时候,得到的模型将会是错误的。 10 要测试y(因变量)和x(自变量)连续变量的线性关系,下面哪个图最适合? A. 散点图 B. 条状图 C. 直方图 D. 都不是 答案:A 散点图是表达连续变量线性关系的较好选择。我们能够从中发现一个变量的变化是如何影响到另一个变量的。散点图呈现的是两个可量化的变量之间的关系。 11 通常来说,下面哪种(些)方法能够用来预测连续因变量? 1. 线性回归 2. 逻辑回归 A. 1和2 B. 只有1 C. 只有2 D. 以上皆非 答案:B 逻辑回归是用来处理分类问题的,这里的回归的说法,从字面上来说是有误导倾向的。 12 一个人的年龄和健康情况的关联性为-1.09.根据这点,你可以告诉医生: A 年龄是健康情况的良好预测器 B 年龄不是健康情况的良好预测器。 C以上皆非 答案:C 相关系数的范围是【-1,1】,所以-1.09是不可能的。 13 在最小二乘法拟合的情况下,我们使用以下哪个偏移量?假设水平轴为自变量,atv,竖直轴为因变量。 A 竖直(vertical)偏移量 B 垂直(Perpendicular)偏移量 C 都可以,视情况而定 D 以上皆非 答案:A 我们总是用竖直偏移量来计算残差。垂直偏移量在PCA上有用。 14 假设我们已经由3次多项式回归的生成了数据(三次正好能拟合改组数据)。现在请考虑以下几种说法,并选择合适项。 简单线性回归将具有高偏差和低方差 简单线性回归将具有低偏差和高方差 三次多项式将具有低偏差和高方差 三次多项式将具有低偏差和低方差 A. Only 1 B. 1 and 3 C. 1 and 4 D. 2 and 4 答案:C 如果我们用更高次(大于3次)的多项式去拟合,会出现过拟合现象,因为模型将会变得更加复杂。如果我们用更低次(小于3次)的多项式去拟合,就意味着模型变得简单,所以在这种情况下会出现高偏差和低方差的情况。而在3次多项式的情况下,我们就会得到低方差低偏差。 15 假设你在训练一个线性回归模型,请看一下两点,哪个(些)说法是正确的? 如果我们拥有较少的数据,更容易发生过拟合的情况 如果假设空间很小,更容易产生过拟合的情况 A 两种说法都错 B 是错的,2是对的 C 1是对的,2是错的 D 两种说法都对 答案:C 1. 具有一个比较小的训练集,很容易找到假设去拟合训练数据集,即为过拟合 (责任编辑:本港台直播) |