机器学习复习7
1 - 根据下图中绘制的决策树,如果一个动物的耳朵是软的,脸型是圆的,并且有胡须,那么这个模型会预测它是猫还是不是猫?
A. 不是猫
B. 是猫
**答案:B **
2 - 以一棵决策树学习来对垃圾邮件和非垃圾邮件进行分类。有20个训练实例,包括10个垃圾邮件和10个非垃圾邮件。
如果算法可以从四个特征中选择,产生四个相应的分割,它将选择哪一个(即纯度最高的)?
A. 左边分割:10封邮件中有5封是垃圾邮件。右边分割:10封邮件中有5封是垃圾邮件
B. 左边分割:2封邮件中有2封是垃圾邮件。右边分割:18封邮件中有8封是垃圾邮件
C. 左边分割:8封邮件中有7封是垃圾邮件。右边分割。12封邮件中有3封是垃圾邮件
D. 左边分割:10封邮件中有10封是垃圾邮件。右边分割:10封邮件中有0封是垃圾邮件
**答案:D **文章来源地址https://www.toymoban.com/news/detail-521478.html
3 - 熵的定义为 \(H(p_1) = - p_1 log_2(p_1) - p_0 log_2(p_0)\),其中 \(P_1\) 是正样本的占比,\(P_0\) 是负样本的占比
在一棵决策树的某一节点上,10个例子中有6个是猫,10个例子中有4个不是猫。哪个表达式可以计算熵 \(H(p_1)H(p_1)\) 这组10只动物的熵?
A. \((0.6) \log _{2}(0.6)+(1-0.4) \log _{2}(1-0.4)\)
B. -\((0.6) \log _{2}(0.6)-(1-0.4) \log _{2}(1-0.4)\)
C. \((0.6) \log _{2}(0.6)+(0.4) \log _{2}(0.4)\)
D. -\((0.6) \log _{2}(0.6)-(0.4) \log _{2}(0.4)\)
**答案:D **
4 - 信息增益
信息增益的定义:\(H\left(p_{1}^{\text {root }}\right)-\left(w^{\text {left }} H\left(p_{1}^{\text {left }}\right)+w^{\text {right }} H\left(p_{1}^{\text {right }}\right)\right)\)
在分裂之前,由5只猫和5只非猫组成的群体的熵是H(5/10) H(5/10)。在对某一特征进行分割后,由7只动物(其中4只是猫)组成的小组的熵为H(4/7)H(4/7)。另一组有3只动物(1只是猫),其熵为H(1/3)H(1/3)。信息增益的表达式是什么?
A. \(H(0.5)-\left(\frac{4}{7} * H(4 / 7)+\frac{4}{7} * H(1 / 3)\right)\)
B. \(H(0.5)-\left(\frac{7}{10} H(4 / 7)+\frac{3}{10} H(1 / 3)\right)\)
C. \(H(0.5)-(H(4 / 7)+H(1 / 3))\)
D. \(H(0.5)-(7 * H(4 / 7)+3 * H(1 / 3))\)
**答案:B **
5 - 独热编码
为了表示耳朵形状的3种可能值,你可以为耳朵形状定义3个特征:尖耳朵、软耳朵、椭圆形耳朵。对于一个耳朵不尖、不软但呈椭圆形的动物,你如何用特征向量表示这一信息?
A. [0, 0, 1]
B. [1,0,0]
C. [0, 1, 0]
D. [1, 1, 0]
**答案:A **
6 - 对于一个连续值的特征(如动物的体重),数据集中有10只动物。为该特征找到最佳分割的推荐方法是什么?
A. 选择10个例子之间的9个中点作为可能的分割点,并找到能带来最高信息增益的分割点
B. 尝试每一个间隔有规律的数值(例如,8、8.5、9、9.5、10等),并找到能带来最高信息增益的分割
C. 使用梯度下降法,找到能带来最高信息增益的分割阈值
D. 使用单次编码将特征转化为0和1的离散特征向量,然后应用我们讨论过的离散特征的算法
**答案:A **
7 - 其中哪些是决定停止分裂的常用标准?(多选)
A. 当树已经达到最大深度时
B. 当额外分裂的信息收益过大时
C. 当一个节点50%是一个类,50%是另一个类时(熵的最高值)
D. 当一个节点中的例子数量低于一个阈值时
**答案:AD **
8 - 对于随机森林,你如何建立每个单独的树,以使它们不都是彼此相同的?
A. 对训练数据进行无替换抽样
B. 在同一训练集上多次训练该算法。这自然会产生不同的树
C. 对训练数据进行替换采样
D. 如果你要训练B个树,就在训练集的1/B上训练每个树,所以每个树都是在一个不同的例子集上训练
**答案:C **
9 - 在一项分类任务中,你要在决策树和神经网络之间做出选择,输入x是一张100x100分辨率的图像。你会选择哪个?
A. 决策树,因为输入是非结构化的,决策树通常在非结构化数据中工作得更好
B. 一个神经网络,因为输入的是非结构化的数据,而神经网络通常对非结构化的数据工作得更好
C. 神经网络,因为输入的是结构化数据,而神经网络通常在结构化数据中工作得更好
D. 决策树,因为输入的是结构化数据,而决策树通常在结构化数据中工作得更好
**答案:C **
10 - 替代抽样指的是什么?
A. 它指的是使用一个新的数据样本,我们用它来永久地覆盖(也就是替换)原始数据
B. 它指的是对训练集做一个相同的拷贝的过程
C. 绘制一个例子的序列,当挑选下一个例子时,首先从我们要挑选的集合中删除所有以前绘制的例子
D. 绘制一个例子序列,当挑选下一个例子时,首先将所有先前绘制的例子从我们正在挑选的集合中替换掉文章来源:https://www.toymoban.com/news/detail-521478.html
**答案:D **
到了这里,关于机器学习复习7的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!