例如,对于模型(M1,M2和M3)的第一次观察的输出为1,1,0,如果对这三个模型预测取多数投票,那么类别1将获得2票,这意味着该观察属于类别1。 23 当使用加权投票方法时,下列哪一个将是输出集成建模? 提示:M1,M2和M3的投票数分别为自身的2.5倍,6.5倍和3.5倍。 A. M1 M2 M3 Output 1 1 0 0 0 1 0 1 0 1 1 0 1 0 1 0 1 1 1 1 B. M1 M2 M3 Output 1 1 0 1 0 1 0 0 0 1 1 1 1 0 1 1 1 1 1 1 C. M1 M2 M3 Output 1 1 0 1 0 1 0 1 0 1 1 1 1 0 1 0 1 1 1 1 D. None of these(以上都不是) 解决方案:(C) 参考问题20, 21和22中的步骤操作。 24 以下哪项关于堆叠(stacking)的说法是正确的? 1.在多个机器学习模型的预测上训练机器学习模型 2.与分类方法相比,逻辑回归在第二阶段肯定会做的更好 3.第一阶段模型在训练数据的全部/部分特征空间上训练 A.1和2 B. 2和3 C. 1和3 D.以上所有 解析:(C) 1.在堆叠中,在多个基础模型的预测上训练一个机器学习模型。 2.没有必要 - 我们可以使用不同的算法来聚合结果。 3.第一阶段模型在所有的原始特征上训练。 25 以下哪一项是堆叠的优势? 更强大的模型 更好的预测 执行时间的缩减 和2 和3 和3 以上所有 解析:(A) 选项1和2是堆叠的优点,而选项3不正确,因为堆积需要更多的时间 26 以下哪个图表示堆叠? A. B. C. None of these(以上都不是) 解析:(A) A是正确的,因为它通过在d1,d2和dL的输出上应用函数f来聚合基本模型的结果。 27 以下哪一个选项可能是堆叠的步骤之一? 1.将训练数据分成k个折叠 2.在每个k-1折叠上训练k个模型,并对剩余的一个得到折叠预测 3.将测试数据集合分成k个折叠,并通过不同的算法获得每个折叠的预测 A. 1和2 B. 2和3 C. 1和3 D.以上所有 解决方案:(A) 第三个选项不正确,因为我们不会在堆叠中为测试数据创建折叠。 28 以下哪项是堆叠和混合之间的区别? A.与混合相比,堆叠具有较不稳定的CV B.在混合中,你可以创建不折叠预测 C.堆叠比混合更简单 D.以上都不是 解析:(D) 只有选项D是正确的。 29 假设您使用n个具有k个折叠数据的不同的机器学习算法的堆叠。 以下哪项关于一个级别(m个基本型号+ 1个堆叠器)堆叠是正确的? 注意: 在这里,我们正在研究二分类问题 所有基本模型都在所有特征上训练 您正在使用基本模型的k折叠 A.在第一阶段后你将只有k个特征 B.在第一阶段后你将只有m个特征 C.在第一阶段后你将有k + m个特征 D.在第一阶段后你将有k * n个特征 E.以上都不是 解决方案:(B) 如果你有m个基础模型在堆叠。这将为第二阶段模型生成m个特征。 30 关于装袋,以下哪项是真的? 1.bagging可以并行化 2.bagging的目的是减少偏差而不是方差 3.bagging有助于减少过度拟合 A. 1和2 B. 2和3 C. 1和3 D.以上所有 解析:(C) 1.在bagging中,基模型不依赖于彼此,因此可以平行 2-3 bagging适用于高方差低偏差模型,或者你可以说是复杂模型。 31 【判断】在boosting中,独立的基础学习者是可以平行的。 A.正确 B.错误 解析:(B) 在boosting中,你总是试图添加新模型以纠正先前模型的弱点。因此它是顺序的。 32 以下是两个集成建模: 1. E1(M1,M2,M3) 2. E2(M4,M5,M6) 上面的Mx是独立的基本模型。 如果对E1和E2给出以下条件,则下列哪一项更有可能被选择? E1:基模型精度高,但模型具有相同的类型或者说是低多样化 E2:基模型的准确性很高,但它们具有不同的类型或者说是高多样化 A. E1 B. E2 C.E1和E2中的任一个 D.以上都不是 解析:(B) 我们必须选择E2,因为它包含多种模型。所以选项B是正确的。 33 假设,你有2000个不同的模型和他们的预测,并且你想要集成最佳x模型的预测。现在,下列哪一项是用来选择最佳的x模型的可能的方法? A.逐步向前选择 B.逐步向后消除 C.以上两者 D.以上都不是 解析:(C) (责任编辑:本港台直播) |