本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】你是合格的机器学习数据科学家吗?来挑战这40题吧!(附解答)(3)

时间:2017-05-03 02:04来源:天下彩论坛 作者:开奖直播现场 点击:
答案为(D):词干提取是剥离后缀(「ing」,「ly」,「es」,「s」等)的基于规则的过程。停止词是与语境不相关的词(is/am/are)。目标标准化也是一种

答案为(D):词干提取是剥离后缀(「ing」,「ly」,「es」,「s」等)的基于规则的过程。停止词是与语境不相关的词(is/am/are)。目标标准化也是一种文本预处理的优良方法。

15. 假定你想将高维数据映射到低维数据中,那么最出名的降维算法是 PAC 和 t-SNE。现在你将这两个算法分别应用到数据「X」上,并得到数据集「X_projected_PCA」,「X_projected_tSNE」。下面哪一项对「X_projected_PCA」和「X_projected_tSNE」的描述是正确的?

A. X_projected_PCA 在最近邻空间能得到解释

B. X_projected_tSNE 在最近邻空间能得到解释

C. 两个都在最近邻空间能得到解释

D. 两个都不能在最近邻空间得到解释

答案为(B):t-SNE 算法考虑最近邻点而减少数据维度。所以在使用 t-SNE 之后,所降的维可以在最近邻空间得到解释。但 PCA 不能。

16-17 题的背景:给定下面两个特征的三个散点图(从左到右依次为图 1、2、3)。

  

wzatv:【j2开奖】你是合格的机器学习数据科学家吗?来挑战这40题吧!(附解答)

16. 在上面的图像中,哪一个是多元共线(multi-collinear)特征?

A. 图 1 中的特征

B. 图 2 中的特征

C. 图 3 中的特征

D. 图 1、2 中的特征

E. 图 2、3 中的特征

F. 图 1、3 中的特征

答案为(D):在图 1 中,特征之间有高度正相关,图 2 中特征有高度负相关。所以这两个图的特征是多元共线特征。

17. 在先前问题中,假定你已经鉴别了多元共线特征。那么下一步你可能的操作是什么?

移除两个共线变量

不移除两个变量,而是移除一个

移除相关变量可能会导致信息损失。为了保留这些变量,我们可以使用带罚项的回归模型(如 ridge 或 lasso regression)。

A. 只有 1

B. 只有 2

C. 只有 3

D. 1 或 3

E. 1 或 2

答案为(E):因为移除两个变量会损失一切信息,所以我们只能移除一个特征,或者也可以使用正则化算法(如 L1 和 L2)。

18. 给线性回归模型添加一个不重要的特征可能会造成:

增加 R-square

减少 R-square

A. 只有 1 是对的

B. 只有 2 是对的

C. 1 或 2 是对的

D. 都不对

答案为(A):在给特征空间添加了一个特征后,不论特征是重要还是不重要,R-square 通常会增加。

19. 假设给定三个变量 X,Y,Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相关性系数分别为 C1、C2 和 C3。现在 X 的所有值加 2(即 X+2),Y 的全部值减 2(即 Y-2),Z 保持不变。那么运算之后的 (X, Y)、(Y, Z) 和 (X, Z) 相关性系数分别为 D1、D2 和 D3。现在试问 D1、D2、D3 和 C1、C2、C3 之间的关系是什么?

A. D1= C1, D2 < C2, D3 > C3

B. D1 = C1, D2 > C2, D3 > C3

C. D1 = C1, D2 > C2, D3 < C3

D. D1 = C1, D2 < C2, D3 < C3

E. D1 = C1, D2 = C2, D3 = C3

F. 无法确定

答案为(E):特征之间的相关性系数不会因为特征加或减去一个数而改变。

20. 假定你现在解决一个有着非常不平衡类别的分类问题,即主要类别占据了训练数据的 99%。现在你的模型在测试集上表现为 99% 的准确度。那么下面哪一项表述是正确的?

准确度并不适合于衡量不平衡类别问题

准确度适合于衡量不平衡类别问题

精确率和召回率适合于衡量不平衡类别问题

精确率和召回率不适合于衡量不平衡类别问题

A. 1 and 3

B. 1 and 4

C. 2 and 3

D. 2 and 4

答案为(A):参考问题 4 的解答。

21. 在集成学习中,模型集成了弱学习者的预测,所以这些模型的集成将比使用单个模型预测效果更好。下面哪个/些选项对集成学习模型中的弱学习者描述正确?

他们经常不会过拟合

他们通常带有高偏差,所以其并不能解决复杂学习问题

他们通常会过拟合

A. 1 和 2

B. 1 和 3

C. 2 和 3

D. 只有 1

E. 只有 2

F. 以上都不对

答案为(A):弱学习者是问题的特定部分。所以他们通常不会过拟合,这也就意味着弱学习者通常拥有低方差和高偏差。

22. 下面哪个/些选项对 K 折交叉验证的描述是正确的

增大 K 将导致交叉验证结果时需要更多的时间

更大的 K 值相比于小 K 值将对交叉验证结构有更高的信心

如果 K=N,那么其称为留一交叉验证,其中 N 为验证集中的样本数量

A. 1 和 2

B. 2 和 3

C. 1 和 3

D. 1、2 和 3

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容