wzatv:【j2开奖】你是合格的机器学习数据科学家吗？来挑战这40题吧！（附解答）(3)_本港台直播_J2开奖直播

答案为（D）：词干提取是剥离后缀（「ing」，「ly」，「es」，「s」等）的基于规则的过程。停止词是与语境不相关的词（is/am/are）。目标标准化也是一种文本预处理的优良方法。

15. 假定你想将高维数据映射到低维数据中，那么最出名的降维算法是 PAC 和 t-SNE。现在你将这两个算法分别应用到数据「X」上，并得到数据集「X_projected_PCA」，「X_projected_tSNE」。下面哪一项对「X_projected_PCA」和「X_projected_tSNE」的描述是正确的？

A. X_projected_PCA 在最近邻空间能得到解释

B. X_projected_tSNE 在最近邻空间能得到解释

C. 两个都在最近邻空间能得到解释

D. 两个都不能在最近邻空间得到解释

答案为（B）：t-SNE 算法考虑最近邻点而减少数据维度。所以在使用 t-SNE 之后，所降的维可以在最近邻空间得到解释。但 PCA 不能。

16-17 题的背景：给定下面两个特征的三个散点图（从左到右依次为图 1、2、3）。

wzatv:【j2开奖】你是合格的机器学习数据科学家吗？来挑战这40题吧！（附解答）

16. 在上面的图像中，哪一个是多元共线（multi-collinear）特征？

A. 图 1 中的特征

B. 图 2 中的特征

C. 图 3 中的特征

D. 图 1、2 中的特征

E. 图 2、3 中的特征

F. 图 1、3 中的特征

答案为（D）：在图 1 中，特征之间有高度正相关，图 2 中特征有高度负相关。所以这两个图的特征是多元共线特征。

17. 在先前问题中，假定你已经鉴别了多元共线特征。那么下一步你可能的操作是什么？

移除两个共线变量

不移除两个变量，而是移除一个

移除相关变量可能会导致信息损失。为了保留这些变量，我们可以使用带罚项的回归模型（如 ridge 或 lasso regression）。

A. 只有 1

B. 只有 2

C. 只有 3

D. 1 或 3

E. 1 或 2

答案为（E）：因为移除两个变量会损失一切信息，所以我们只能移除一个特征，或者也可以使用正则化算法（如 L1 和 L2）。

18. 给线性回归模型添加一个不重要的特征可能会造成：

增加 R-square

减少 R-square

A. 只有 1 是对的

B. 只有 2 是对的

C. 1 或 2 是对的

D. 都不对

答案为（A）：在给特征空间添加了一个特征后，不论特征是重要还是不重要，R-square 通常会增加。

19. 假设给定三个变量 X，Y，Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相关性系数分别为 C1、C2 和 C3。现在 X 的所有值加 2（即 X+2），Y 的全部值减 2（即 Y-2），Z 保持不变。那么运算之后的 (X, Y)、(Y, Z) 和 (X, Z) 相关性系数分别为 D1、D2 和 D3。现在试问 D1、D2、D3 和 C1、C2、C3 之间的关系是什么？

A. D1= C1, D2 < C2, D3 > C3

B. D1 = C1, D2 > C2, D3 > C3

C. D1 = C1, D2 > C2, D3 < C3

D. D1 = C1, D2 < C2, D3 < C3

E. D1 = C1, D2 = C2, D3 = C3

F. 无法确定

答案为（E）：特征之间的相关性系数不会因为特征加或减去一个数而改变。

20. 假定你现在解决一个有着非常不平衡类别的分类问题，即主要类别占据了训练数据的 99%。现在你的模型在测试集上表现为 99% 的准确度。那么下面哪一项表述是正确的？

准确度并不适合于衡量不平衡类别问题

准确度适合于衡量不平衡类别问题

精确率和召回率适合于衡量不平衡类别问题

精确率和召回率不适合于衡量不平衡类别问题

A. 1 and 3

B. 1 and 4

C. 2 and 3

D. 2 and 4

答案为（A）：参考问题 4 的解答。

21. 在集成学习中，模型集成了弱学习者的预测，所以这些模型的集成将比使用单个模型预测效果更好。下面哪个/些选项对集成学习模型中的弱学习者描述正确？

他们经常不会过拟合

他们通常带有高偏差，所以其并不能解决复杂学习问题

他们通常会过拟合

A. 1 和 2

B. 1 和 3

C. 2 和 3

D. 只有 1

E. 只有 2

F. 以上都不对

答案为（A）：弱学习者是问题的特定部分。所以他们通常不会过拟合，这也就意味着弱学习者通常拥有低方差和高偏差。

22. 下面哪个/些选项对 K 折交叉验证的描述是正确的

增大 K 将导致交叉验证结果时需要更多的时间

更大的 K 值相比于小 K 值将对交叉验证结构有更高的信心

如果 K=N，那么其称为留一交叉验证，其中 N 为验证集中的样本数量

A. 1 和 2

B. 2 和 3

C. 1 和 3

D. 1、2 和 3

(责任编辑：本港台直播)