29. 有以下 7 副散点图(从左到右分别编号为 1-7),你需要比较每个散点图的变量之间的皮尔逊相关系数。下面正确的比较顺序是?
1<2<3<4 1>2>3 > 4 7<6<5<4 7>6>5>4 A. 1 和 3 B. 2 和 3 C. 1 和 4 D. 2 和 4 30. 你可以使用不同的标准评估二元分类问题的表现,例如准确率、log-loss、F-Score。让我们假设你使用 log-loss 函数作为评估标准。下面这些选项,哪个/些是对作为评估标准的 log-loss 的正确解释。 如果一个分类器对不正确的分类很自信,log-loss 会严重的批评它。 对一个特别的观察而言,分类器为正确的类别分配非常小的概率,然后对 log-loss 的相应分布会非常大。 3.log-loss 越低,模型越好。 A.1 和 3 B.2 和 3 C.1 和 2 D.1、2、3 答案为(D):答案无需解释。 问题 31-32 背景:下面是数据集给出的 5 个样本。 注意:图像中点之间的视觉距离代表实际距离。 31. 下面哪个是 3-NN(3-最近邻)的留一法交叉验证准确率? A.0 B.0.4 C.0.8 D.1 答案为(C):留一法交叉验证,我们将选择(n-1) 观察值作为训练,以及验证的 1 观察值。把每个点作为交叉验证点,然后找到 3 个最近邻点。所以,如果你在每个点上重复该步骤,你会为上图中给出的所有正类找到正确的分类,而错误分类负类。因此,得到 80% 的准确率。 32. 下面哪个 K 值将会有最低的差一法(leave-one-out)交叉验证精确度? A. 1NN B. 3NN C. 4NN D. 以上所有具有相同的差一法错误 答案(A):在 1-NN 中,被错误分类的每一个点都意味着你将得到 0% 的精确度。 33. 假设你被给到以下数据,你想要在给定的两个类别中使用 logistic 回归模型对它进行分类。你正在使用带有 L1 正则化的 logistic 回归,其中 C 是正则化参数,w1 和 w2 是 x1 和 x2 的系数。当你把 C 值从 0 增加至非常大的值时,下面哪个选项是正确的? A. 第一个 w2 成了 0,接着 w1 也成了 0 B. 第一个 w1 成了 0,接着 w2 也成了 0 C. w1 和 w2 同时成了 0 D. 即使在 C 成为大值之后,w1 和 w2 都不能成 0 答案(B):通过观察图像我们发现,即使只使用 x2,我们也能高效执行分类。因此一开始 w1 将成 0;当正则化参数不断增加时,w2 也会越来越接近 0。 34. 假设我们有一个数据集,在一个深度为 6 的决策树的帮助下,它可以使用 100% 的精确度被训练。现在考虑一下两点,并基于这两点选择正确的选项。 注意:所有其他超参数是相同的,所有其他因子不受影响。 深度为 4 时将有高偏差和低方差 深度为 4 时将有低偏差和低方差 A. 只有 1 B. 只有 2 C. 1 和 2 D. 没有一个 答案(A):如果在这样的数据中你拟合深度为 4 的决策树,这意味着其更有可能与数据欠拟合。因此,在欠拟合的情况下,你将获得高偏差和低方差。 35. 在 k-均值算法中,以下哪个选项可用于获得全局最小? 尝试为不同的质心(centroid)初始化运行算法 调整迭代的次数 找到集群的最佳数量 A. 2 和 3 B. 1 和 3 C. 1 和 2 D. 以上所有 答案(D):所有都可以用来调试以找到全局最小。 (责任编辑:本港台直播) |