wzatv:【j2开奖】你是合格的机器学习数据科学家吗？来挑战这40题吧！（附解答）(4)_本港台直播_J2开奖直播

答案为（D)：大 K 值意味着对过高估计真实预期误差（训练的折数将更接近于整个验证集样本数）拥有更小的偏差和更多的运行时间（并随着越来越接近极限情况：留一交叉验证）。我们同样在选择 K 值时需要考虑 K 折准确度和方差间的均衡。

23 题至 24 题的背景：交叉验证在机器学习超参数微调中是十分重要的步骤。假定你需要为 GBM 通过选择 10 个不同的深度值（该值大于 2）而调整超参数「max_depth」，该树型模型使用 5 折交叉验证。 4 折训练验证算法（模型 max_depth 为 2）的时间为 10 秒，在剩下的 1 折中预测为 2 秒。

23. 哪一项描述拥有 10 个「max_depth」不同值的 5 折交叉验证整体执行时间是正确的？

A. 少于 100 秒

B. 100-300 秒

C. 300-600 秒

D. 大于等于 600 秒

E. 无法估计

答案为（D）：因为深度为 2 的 5 折交叉验证每一次迭代需要训练 10 秒和测试 2 秒。因此五折验证需要 12*5 = 60 秒，直播，又因为我们需要搜索 10 个深度值，所以算法需要 60*10 = 600。

24. 在先前的答案中，如果你训练同样的算法调整 2 个超参数，假设是 max_depth 和 learning_rate。你想要选择正确的值对抗 max_depth（从给定的 10 个深度值中）和学习率（从 5 个不同的学习率做选择）。在此情况下，整体时间是下面的哪个？

A.1000-1500 秒

B.1500-3000 秒

C. 多于或等于 3000 Second

D. 都不是

答案为（D）：和 23 题一样。

25. 下表是机器学习算法 M1 的训练错误率 TE 和验证错误率 VE，基于 TE 和 VE 你想要选择一个超参数（H）。

基于上表，你会选择哪个 H 值？

A.1

B.2

C.3

D.4

E.5

答案为（D）：看这个表，D 选项看起来是最好的。

26. 为了得到和 SVD 一样的投射（projection），你需要在 PCA 中怎样做？

A. 将数据转换成零均值

B. 将数据转换成零中位数

C. 无法做到

D. 以上方法不行

答案为（A）：当数据有一个 0 均值向量时，PCA 有与 SVD 一样的投射，否则在使用 SVD 之前，你必须将数据均值归 0。

问题 27-28 的背景：假设存在一个黑箱算法，其输入为有多个观察（t1, t2, t3,…….. tn）的训练数据和一个新的观察（q1）。该黑箱算法输出 q1 的最近邻 ti 及其对应的类别标签 ci。你可以将这个黑箱算法看作是一个 1-NN（1-最近邻）

27. 能够仅基于该黑箱算法而构建一个 k-NN 分类算法？注：相对于 k 而言，n（训练观察的数量）非常大。

A. 可以

B. 不行

答案为（A）：在第一步，你在这个黑箱算法中传递一个观察样本 q1，使该算法返回一个最近邻的观察样本及其类别，在第二步，你在训练数据中找出最近观察样本，然后再一次输入这个观察样本（q1）。该黑箱算法将再一次返回一个最近邻的观察样本及其类别。你需要将这个流程重复 k 次。

28. 我们不使用 1-NN 黑箱，而是使用 j-NN(j>1) 算法作为黑箱。为了使用 j-NN 寻找 k-NN，下面哪个选项是正确的？

A. j 必须是 k 的一个合适的因子

B. j>k

C. 不能办到

答案为（C）：原因和 27 题一样

(责任编辑：本港台直播)