答案为(D):词干提取是剥离后缀(「ing」,「ly」,「es」,「s」等)的基于规则的过程。停止词是与语境不相关的词(is/am/are)。目标标准化也是一种文本预处理的优良方法。 15. 假定你想将高维数据映射到低维数据中,那么最出名的降维算法是 PAC 和 t-SNE。现在你将这两个算法分别应用到数据「X」上,并得到数据集「X_projected_PCA」,「X_projected_tSNE」。下面哪一项对「X_projected_PCA」和「X_projected_tSNE」的描述是正确的? A. X_projected_PCA 在最近邻空间能得到解释 B. X_projected_tSNE 在最近邻空间能得到解释 C. 两个都在最近邻空间能得到解释 D. 两个都不能在最近邻空间得到解释 答案为(B):t-SNE 算法考虑最近邻点而减少数据维度。所以在使用 t-SNE 之后,所降的维可以在最近邻空间得到解释。但 PCA 不能。 16-17 题的背景:给定下面两个特征的三个散点图(从左到右依次为图 1、2、3)。
16. 在上面的图像中,哪一个是多元共线(multi-collinear)特征? A. 图 1 中的特征 B. 图 2 中的特征 C. 图 3 中的特征 D. 图 1、2 中的特征 E. 图 2、3 中的特征 F. 图 1、3 中的特征 答案为(D):在图 1 中,特征之间有高度正相关,图 2 中特征有高度负相关。所以这两个图的特征是多元共线特征。 17. 在先前问题中,假定你已经鉴别了多元共线特征。那么下一步你可能的操作是什么? 移除两个共线变量 不移除两个变量,而是移除一个 移除相关变量可能会导致信息损失。为了保留这些变量,我们可以使用带罚项的回归模型(如 ridge 或 lasso regression)。 A. 只有 1 B. 只有 2 C. 只有 3 D. 1 或 3 E. 1 或 2 答案为(E):因为移除两个变量会损失一切信息,所以我们只能移除一个特征,或者也可以使用正则化算法(如 L1 和 L2)。 18. 给线性回归模型添加一个不重要的特征可能会造成: 增加 R-square 减少 R-square A. 只有 1 是对的 B. 只有 2 是对的 C. 1 或 2 是对的 D. 都不对 答案为(A):在给特征空间添加了一个特征后,不论特征是重要还是不重要,R-square 通常会增加。 19. 假设给定三个变量 X,Y,Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相关性系数分别为 C1、C2 和 C3。现在 X 的所有值加 2(即 X+2),Y 的全部值减 2(即 Y-2),Z 保持不变。那么运算之后的 (X, Y)、(Y, Z) 和 (X, Z) 相关性系数分别为 D1、D2 和 D3。现在试问 D1、D2、D3 和 C1、C2、C3 之间的关系是什么? A. D1= C1, D2 < C2, D3 > C3 B. D1 = C1, D2 > C2, D3 > C3 C. D1 = C1, D2 > C2, D3 < C3 D. D1 = C1, D2 < C2, D3 < C3 E. D1 = C1, D2 = C2, D3 = C3 F. 无法确定 答案为(E):特征之间的相关性系数不会因为特征加或减去一个数而改变。 20. 假定你现在解决一个有着非常不平衡类别的分类问题,即主要类别占据了训练数据的 99%。现在你的模型在测试集上表现为 99% 的准确度。那么下面哪一项表述是正确的? 准确度并不适合于衡量不平衡类别问题 准确度适合于衡量不平衡类别问题 精确率和召回率适合于衡量不平衡类别问题 精确率和召回率不适合于衡量不平衡类别问题 A. 1 and 3 B. 1 and 4 C. 2 and 3 D. 2 and 4 答案为(A):参考问题 4 的解答。 21. 在集成学习中,模型集成了弱学习者的预测,所以这些模型的集成将比使用单个模型预测效果更好。下面哪个/些选项对集成学习模型中的弱学习者描述正确? 他们经常不会过拟合 他们通常带有高偏差,所以其并不能解决复杂学习问题 他们通常会过拟合 A. 1 和 2 B. 1 和 3 C. 2 和 3 D. 只有 1 E. 只有 2 F. 以上都不对 答案为(A):弱学习者是问题的特定部分。所以他们通常不会过拟合,这也就意味着弱学习者通常拥有低方差和高偏差。 22. 下面哪个/些选项对 K 折交叉验证的描述是正确的 增大 K 将导致交叉验证结果时需要更多的时间 更大的 K 值相比于小 K 值将对交叉验证结构有更高的信心 如果 K=N,那么其称为留一交叉验证,其中 N 为验证集中的样本数量 A. 1 和 2 B. 2 和 3 C. 1 和 3 D. 1、2 和 3 (责任编辑:本港台直播) |