绪论

1

下列有关机器学习基本术语的说法错误的是

A 从数据中学得模型的过程称为“学习”或“训练”

B 训练过程中使用的数据称为“训练数据”，每一个样本称为一个“训练样本”，训练样本组成的集合称为“训练集”

C 学得模型对应了关于数据的某种潜在的规律，称为“假设”

D 学习过程就是为了找出数据的某种潜在规律，这个规律自身，一般称为“数据特征”

正确答案: D

2

以下关于机器学习预测任务的说法错误的是（）

A 一般地，预测任务是希望通过对训练集进行学习，建立一个从输入空间$\mathcal{X}$到输出空间$\mathcal{Y}$的映射$f: \mathcal{X} \rightarrow \mathcal{Y}$

B 对于二分类任务，一般令$\mathcal{Y}=\lbrace -1,+1 \rbrace$或$\mathcal{Y}=\lbrace 0,1 \rbrace$

C 对于回归任务，一般$\mathcal{Y}=\mathbb{R}$

D 预测任务不需要训练样本的的标记信息

正确答案: D

3

聚类算法是机器学习中一种典型的____学习算法。(监督/无监督)

正确答案:[ “无监督” ]

4

学出来的模型适用于新样本的能力，称为 ____ 能力。该能力越强，说明学得的模型越能很好地适用于整个样本空间。

正确答案:[ “泛化” ]

5

学得模型后，使用其进行预测的过程称为____。

正确答案:[ “测试” ]

6

根据训练数据是否拥有标记信息，我们可以将学习任务分为两大类，监督学习和____。

正确答案:[ “无监督学习” ]

7

分类和回归任务，按照数据是否拥有标记信息来说，属于机器学习中的____。

正确答案:[ “监督学习” ]

8

下列不属于机器学习任务的是（）

A 人脸识别

B 网页编写

C 文本分类

D 销量预测

正确答案: B

9

下列说法错误的是（）

A 模型是通过学习算法得到的

B 机器学习通常解决高度不确定性和复杂性的问题

C 分类和回归是监督学习的代表

D 机器学习一定需要类别标记

正确答案: D

10

下列说法错误的是（）

A “色泽”取值为“青绿”，这里的“青绿”是属性值

B 输出是离散值的学习任务为分类任务

C 模型找出的规律一定是正确的

D 一般假设正类和反类是可交换的

正确答案: C

11

下列说法错误的是（）

A 学得模型适用于新样本的能力称为“泛化”能力

B 机器学习一般有“独立同分布”假设

C 机器学习在只要见过的数据上做好就行了，未见过样本上的性能不重要

D 一般假设拿到的所有数据都来自一个潜在的分布

正确答案: C

12

把见过的汽车分成若干组，这是一个____（分类/回归/聚类）任务

正确答案:[ “聚类” ]

13

上完机器学习课，小明在50个数据集上用不同算法模型进行训练和测试，发现算法a的效果一直比算法b好，他认为在所有问题上算法a的效果都会比b好。这个结论是____（正确/错误）的。

正确答案:[ “错误” ]

14

奥卡姆剃刀原则中，两个假设哪一个“更简单”，是____（容易/不容易）判断的。

正确答案:[ “不容易” ]

15

下列关于归纳偏好的说法错误的是（）

A 机器学习算法在学习过程中对某种类型假设的偏好，称为“归纳偏好”，或简称为“偏好”

B 一般来说，任何一个有效的机器学习算法都有其归纳偏好

C “奥卡姆剃刀”原则在某些情况下可以指导我们选择偏好

D 在任何情况下，总有一个最优的学习算法

正确答案: D

模型评估与选择

1

在训练集上的误差被称作

A 泛化误差

B 经验误差

C 测试误差

D 以上三个选项都不对

正确答案: B

2

当学习任务对数据分布的轻微变化比较鲁棒且数据量较少时，适合使用什么样的数据集划分方式？

A 留出法

B 交叉验证法

C 自助法

D 以上三个选项都可以

正确答案: C

3

我们通常将数据集划分为训练集，验证集和测试集进行模型的训练，参数的验证需要在__上进行，参数确定后__重新训练模型。

A 训练集需要

B 训练集不需要

C 验证集需要

D 验证集不需要

正确答案: C

4

当西瓜收购公司去瓜摊收购西瓜时既希望把好瓜都收走又保证收到的瓜中坏瓜尽可能的少，请问他应该考虑什么评价指标？

A 精度

B 查全率

C 查准率

D F1度量

正确答案: D

5

两种算法在某种度量下取得评估结果后不能直接比较以评判优劣的原因中，正确的是

A 测试性能不等于泛化性能

B 测试性能随着测试集的变化而变化

C 很多机器学习算法本身有一定的随机性

D 以上均正确

正确答案: D

6

训练模型时，选择经验误差最小的模型会存在什么风险。____（过拟合/欠拟合）

正确答案:[ “过拟合” ]

7

对于从数据(0,1),(1,0),(1,2),(2,1)通过最小二乘拟合的不带偏置项的线性模型y=x，其训练误差（均方误差）为____ （保留三位小数）

正确答案:[ “1.000” ]

8

使用留出法对数据集进行划分时，为了保持数据分布的一致性，可以考虑什么采样。____（分层采样/随机采样/有放回采样）

正确答案:[ “分层采样” ]

9

当我们使用留出法对数据集进行划分后，在训练集上通过两个不同的算法训练出2个模型，并通过测试集上的性能评估得到表现最好的模型，这一模型可以直接推荐给用户。 ____（是/否）

正确答案:[ “否” ]

10

考虑一个三分类数据集，其由30个西瓜，30个苹果，30个香蕉构成。先有一个学习策略为预测新样本为训练集中样本数目最多类别的分类器（存在多个类别样本数量一样多时则随机选择一个类别预测），请问通过什么评估方式会导致其平均准确率为0。____（留出法/交叉验证，每一折样本数大于1/留一法）

正确答案:[ “留一法” ]

11

当我们使用留一法进行评估时会出现什么问题。____（训练模型与使用整个数据集训练的模型差异大/经验误差与泛化误差偏差大）

正确答案:[ “经验误差与泛化误差偏差大” ]

12

考虑如下分类结果混淆矩阵，其F1度量为____（保留3位小数）

正确答案:[ “0.364” ]

13

McNemar检验基于____（成对t检验/卡方检验）

正确答案:[ “卡方检验” ]

14

假设我们已经建立好了一个二分类模型, 输出是0或1, 初始阈值设置为0.5, 超过0.5概率估计就判别为1, 否则就判别为0 ; 如果我们现在用另一个大于0.5的阈值, 一般来说，下列说法正确的是

A 查准率会上升或不变，查全率会下降或不变

B 查准率会下降或不变，查全率会下降或不变

C 查准率会上升或不变，查全率会上升或不变

D 查准率会下降或不变，查全率会上升或不变

正确答案: A

15

对于留出法，下列说法正确的是

A 测试集小的时候，评估结果的方差较大

B 训练集小的时候，评估结果的偏差较大

C 留出法需要对数据集进行多次切分并将结果取平均值

D 以上说法均正确

正确答案: D

线性模型

1

下列关于对数几率回归的描述中错误的是？

A 无需事先假设数据分布

B 使用对数函数作为联系函数

C 可得到类别的近似概率预测

D 可直接应用现有数值优化算法求取最优解

2

孙悟空想请你帮他预测下一次妖精会在多久后出现，你会使用下列哪种方法？

A 使用历史上妖精出现的时间以及八戒每日食量数据，并使用对率回归模型

B 使用历史上妖精出现的时间以及师父念紧箍咒的时间数据，并使用指数线性回归模型

C 使用历史上妖精出现的时间以及师徒四人的前进速度数据，并使用多元线性回归模型

D 使用历史上妖精出现的时间以及沙和尚每日体重数据，并使用对数线性回归模型

3

处理类别不平衡问题时，复制小类样本不是一种好的过采样方法，下列哪个不是其原因？

A 复制样本效率低下

B 容易过拟合

C 受噪声影响大

D 有过拟合噪声的风险

4

Jerry想通过西瓜的重量、西瓜的颜色、西瓜根蒂的长短来判断一个西瓜是否是好瓜，Jerry记录了一些购买西瓜的记录如下：(5500g,乌黑,长,否), (6000g,青绿,很长,是), (5800g,翠绿,短,是)。如果Jerry想收集更多西瓜数据并利用线性模型判断西瓜好坏，下列哪个选项是上述三个记录的合理表示？

A (5500,1,2), (6000,2,4), (5800,3,1)

B (5.5,1,0,0,3), (6,0,0,1,5), (5.8,0,1,0,1)

C (5500,1,0,0,5), (6000,0,1,0,3), (5800,0,0,1,1)

D (5.5,1,0,0,3), (6,0,1,0,2), (5.8,0,0,1,1)

5

小明想利用心率数据、运动与用餐时间间隔这两项数据来预测是否会发生低血糖，他利用平时锻炼数据收集了100个未发生低血糖的数据与3个发生低血糖的数据，3个发生低血糖的数据为：(180,比较久), (170,久), (165,非常久)。小明想请你帮他过采样一些低血糖数据，你认为下列哪个数据是合理的过采样数据？

A (175,比较久)

B (200,久)

C (150,非常久)

D (175,不久)

6

下列哪个模型不是广义线性模型？

A $y=\ln\left(\frac{wx+b}{1-wx-b}\right)$

B $y^3=wx+b$

C $\sqrt{y}=wx+b$

D $y^2=wx+b$

7

下列哪个选项不是多元线性回归使用正则化的原因？

A 计算机数值精度有限

B 样例维度大于样例数

C 样例的采样过程存在偏差

D 存在大量线性相关的样例

8

在求解对率回归时，下列哪个选项不是极大似然法的优势？

A 优化目标是凸函数

B 具有闭式解

C 可以使用梯度下降法求解

D 优化目标连续可微

9

给定数据集$D=\lbrace(-1,0),(0,0),(1,1)\rbrace$，最小二乘法学得的线性模型的斜率为____ (保留3位小数)。

10

给定数据集$D=\left\{\left(x_i, y_i\right)\right\}_{i=1}^m$，最小化数据集到线性模型的欧式距离的平方和学得的线性模型满足$\left(w^, b^\right)=\underset{(w, b)}{\arg \min } \frac{1}{w^2+1} \sum_{i=1}^m\left(w x_i-y_i+b\right)^2$。对于数据集$D=\lbrace(-1,0),(0,0),(1,1)\rbrace$，这一方法学得的线性模型的斜率为____ (保留3位小数)。

11

比较上述两题求得的斜率值，最小二乘法求得的斜率____(大于/等于/小于) 最小化数据集到线性模型欧式距离的平方和求得的斜率。这一结论对一般问题也成立，可尝试证明之。

12

OvR是一种常用的多分类方法，该方法每次将一个类的样例作为正例、所有其他类的样例作为反例。对于类别均衡的10分类问题，若使用OvR以及阈值移动法来训练，则阈值应设为____ (保留3位小数)。

13

对率回归可以得到样例是正类的概率的____(精确值/近似估计)。

14

对率回归____(需要/不需要) 事先假设数据分布。

15

多元线性回归不满秩的情况下____（是/否）可以通过加入归纳偏好来选取较好的解。

答案

B C A B A D C B “0.500” “0.535” “小于” “0.100” “近似估计” “不需要” “是”

决策树

1

决策树划分时，若当前结点包含的样本集合为空，则应该怎么做？

A 将结点标记为叶结点，其类别标记为父结点中样本最多的类

B 将结点标记为叶结点，其类别标记为父结点中样本最少的类

C 将结点标记为叶结点，其类别标记为父结点中任意一个类

D 从其他结点获得样本，继续进行划分

2

决策树划分时，当遇到以下哪种情形时，将结点标记为叶节点，其类别标记为当前样本集中样本数最多的类

A 当前属性集为空，或所有样本在所有属性上取值相同

B 当前属性集不为空，或所有样本在所有属性上取值相同

C 当前结点包含的样本集合为空，或当前属性集为空

D 当前结点包含的样本集合为空，或所有样本在所有属性上取值相同

3

ID3决策树划分时，选择信息增益最____（大/小）的属性作为划分属性

4

若数据集的属性全为离散值，决策树学习时，____（可以/不可以）把用过的属性再作为划分属性。

5

下列说法错误的是（）

A 信息增益准则对可取值较少的属性有所偏好

B C4.5算法并不是直接选择增益率最大的候选划分属性

C 基尼指数反映了从数据集中随机抽取两个样本，其类别标记不一致的概率

D 基尼指数越小，数据集的纯度越高

6

对西瓜数据集2.0（《机器学习》教材第76页），属性“触感”和“色泽”，____（触感/色泽）的增益率更大

7

对西瓜数据集2.0（《机器学习》教材第76页），属性“色泽”的基尼指数为____（保留2位有效数字）

8

随着决策树学习时的深度增加，会发生什么现象？

A 位于叶结点的样本越来越少

B 不会把数据中不该学到的特性学出来

C 决策树不会过拟合

D 叶结点一定学到一般规律

9

只学习一颗决策树作为模型时，一般____（要/不要）选择剪枝

10

$表1\ 人造训练集 \\\\ \begin{array}{cccc} \hline 编号 & 性别 & 喜欢\text{ML}作业 & \text{ML}成绩高 \\ \hline 1 & 男 & 是 & 是 \\ 2 & 女 & 是 & 是 \\ 3 & 男 & 否 & 否 \\ 4 & 男 & 否 & 否 \\ 5 & 女 & 否 & 是 \\ \hline \end{array}$ $表2\ 人造验证集\\ \begin{array}{cccc} \hline 编号 & 性别 & 喜欢 \text{ML}作业 & \text{ML}成绩高 \\ \hline 6 & 男 & 是 & 是 \\ 7 & 女 & 是 & 否 \\ 8 & 男 & 否 & 否 \\ 9 & 女 & 否 & 否 \\ \hline \end{array}$

（本题需阅读教材79-83页中剪枝的例子）考虑如图的训练集和验证集，其中“性别”、“喜欢ML作业”是属性，“ML成绩高”是标记。假设已生成如图的决策树，用精度（accuracy）衡量决策树的优劣，预剪枝的结果____（是/不是）原本的决策树。

11

（本题需阅读教材79-83页中剪枝的例子）考虑如图的训练集和验证集，其中“性别”、“喜欢ML作业”是属性，“ML成绩高”是标记。假设已生成如图的决策树，用精度（accuracy）衡量决策树的优劣，后剪枝的结果____（是/不是）原本的决策树。

12

下列说法正确的是（）

A 决策树处理缺失值时，仅通过无缺失值的样例来判断划分属性的优劣

B 若数据中存在缺失值，决策树会仅使用无缺失的样例

C 若数据维度很高，不容易出现大量缺失值

D 对决策树，给定划分属性，若样本在该属性上的值缺失，会随机进入一个分支

13

决策树处理有缺失值样本时，一个样本在各子节点中的权重和为____（保留一位小数）

14

关于剪枝，下列说法错误的是（）

A 对于同一棵树，进行预剪枝和后剪枝得到的决策树是一样的

B 决策树的剪枝算法可以分为两类，分别称为预剪枝和后剪枝

C 预剪枝在树的训练过程中通过停止分裂对树的规模进行限制

D 后剪枝先构造出一棵完整的树，然后通过某种规则消除掉部分节点，用叶子节点替代

15

通常来说，子节点的基尼不纯度与其父节点是什么样的关系？

A 通常更低

B 通常更高

C 永远更高

D 永远更低

答案

“大”

“不可以”

“色泽”

“0.43”

“要”

“不是”

“是”

“1.0”

支持向量机

1

下列关于支持向量机的用法正确的是？

A 当数据是线性可分时，可以考虑支持向量机的基本型

B 当数据是线性不可分时，可以考虑引入核函数的支持向量机

C 若使用引入核函数的支持向量机，可以通过模型选择等技术挑选较为合适的核函数

D 以上说法都是正确的

2

下列哪一项是支持向量机基本型对偶问题的KKT条件？

A $\left\{\begin{array}{l}
\alpha_i \geq 0 \\
1-y_i f\left(\boldsymbol{x}_i\right) \leq 0 \\
\alpha_i\left(1-y_i f\left(\boldsymbol{x}_i\right)\right)=0
\end{array}\right.$

B $\left\{\begin{array}{l}
\alpha_i \geq 0 \\
1-y_i f\left(\boldsymbol{x}_i\right) \leq 0 \\
\alpha_i\left(1-y_i f\left(\boldsymbol{x}_i\right)\right)\geq0
\end{array}\right.$

C $\left\{\begin{array}{l}
\alpha_i \geq 0 \\
1-y_i f\left(\boldsymbol{x}_i\right) \leq 0 \\
\alpha_i\left(1-y_i f\left(\boldsymbol{x}_i\right)\right)\leq0
\end{array}\right.$

D 以上条件均不对

3

下面关于支持向量机的优化错误的是？

A 可以通过常规的优化计算包求解

B 可以通过SMO进行高效的求解

C 在使用SMO时需要先推导出支持向量机的对偶问题

D SMO需要迭代的进行求解，且每一步迭代的子问题不存在闭式解

4

考虑两个正例样本(0,0),(1,1)和两个负例样本(1,0),(0,1)，这四个样本是线性不可分的，通过下列哪一个映射函数可以让这四个样本线性可分？

A $(x, y) \rightarrow(x, y, \mathbb{I}(x+y>1))$【注：$\mathbb{I}(x)$为示性函数，当自变量为真时取值为1，否则取值为0】

B $(x, y) \rightarrow(x, y, \mathbb{I}(x+y\leq 1))$

C $(x, y) \rightarrow(x, y, \mathbb{I}(x+y=1))$

D 以上映射函数都满足条件

5

下面关于支持向量回归说法正确的是

A 当样本距离超平面的距离小于一定程度时，没有损失

B 解具有稀疏性

C 当样本距离超平面的距离大于一定程度时，有损失且损失随着距离线性增加

D 以上说法都是正确的

6

支持向量机的“间隔”定义为两个异类支持向量到超平面的距离之和$\gamma = \frac{2}{|w|}$，支持向量机的核心思想是____（最大化/最小化)间隔。

7

支持向量机对偶问题得到的目标函数最优值是原始问题目标函数最优值的____（上界/下界）

8

考虑正类样本(-1,0),(0,1),(-1,1) 和负类样本(1,0),(0,-1),(1,-1)，若使用支持向量机算法，则其支持向量有____个。

9

支持向量机的解具有什么性质？____（三个字）

10

在求解支持向量机对偶问题时，引入的拉格朗日乘子____（有/没有）约束条件。

11

对于两个样本点(0,0),(1,1)，若我们将其投影到与高斯核函数$k(\boldsymbol{x}, \boldsymbol{y})=e^{-|\boldsymbol{x}-\boldsymbol{y}|^2}$关联的RKHS中时，则两个样本投影后的点距离为____（保留三位小数)

12

试判断定义在$\mathbf{R}^N \times \mathbf{R}^N$上的函数$\kappa(\boldsymbol{x}, \boldsymbol{y})=\left(\boldsymbol{x}^{\top} \boldsymbol{y}+1\right)^2$是否为核函数。____（是/否)

13

试判断定义在$\mathbf{R}^N \times \mathbf{R}^N$上的函数$\kappa(\boldsymbol{x}, \boldsymbol{y})=\left(\boldsymbol{x}^{\top} \boldsymbol{y}-1\right)^2$是否为核函数。____（是/否)

14

对于支持向量机定义的超平面，下列说法错误的是

A 通过支持向量机求解出的划分超平面是对训练样本局部扰动的“容忍”性最好的划分超平面

B 对于所有可能的划分超平面，通过支持向量机求解出的划分超平面所产生的分类结果是较鲁棒的，是对未见示例的泛化能力较强的

C 支持向量机的“间隔”为$|w|$，$\frac{1}{|w|}$表示向量的模

D 可以通过求解对偶问题的方法来求解支持向量机的最大间隔划分超平面

15

关于支持向量机基本型中间隔、支持向量和超平面$wx+b=0$的说法，下列说法正确的是

A 对于线性可分的训练样本，存在唯一的超平面将训练样本全部分类正确

B 对于线性可分的训练样本，支持向量机算法学习得到的能够将训练样本正确分类且具有“最大间隔”的超平面是存在并且唯一的

C 支持向量机训练完成后，最后的解与所有训练样本都有关

D 间隔只与$w$有关，与$b$无关

答案

“最大化”

“下界”

“4”

“稀疏性”

“有”

“1.315”

“是”

“否”

神经网络

1

下列关于BP算法使用小步长优化神经网络的说法中正确的是哪个？

A 一定能学到最优解

B 可以较好的避免振荡现象

C 训练速度快

D 学得的解比使用大步长具有更小的泛化误差

2

下列关于多层前馈神经网络的描述中错误的是哪个？

A 可以使用BP算法优化

B 至少包含一个隐层

C 神经元之间不存在同层连接

D 输入层可以直接连接到输出层

3

多层前馈神经网络可以视为线性函数与激活函数的复合，而单隐层前馈神经网络中这种复合的次数有限，因而单隐层前馈神经网络的万有逼近性对激活函数有一定要求。你认为使用下列哪个激活函数的单隐层前馈神经网络能具有万有逼近性质？

A 双曲正切函数

B 常值函数

C 线性函数

D 三次函数

4

下列哪个选项的步长调整方法是给出的四种方案中最好的？

A 先使用较大的步长，后使用较小的步长

B 先使用较小的步长，后使用较大的步长

C 一直使用较大的步长

D 一直使用较小的步长

5

下列关于万有逼近描述正确的是哪个选项？

A 万有逼近是神经网络独有的性质

B 神经网络的万有逼近性表明可以很容易的找到一个很好的解

C 具有万有逼近性是将神经网络作为机器学习模型的前提

D 神经网络的万有逼近性可以指导我们设置隐层神经元数

6

Sigmoid函数在 x=0.5 处的导数值为____(保留3位小数)。

7

具有10个隐层结点的单隐层网络在处理输入维度为6维的三分类任务时 (有3个输出层结点)，网络中共有____ (填写一个整数) 个参数。

8

实际应用中常使用试错法来设置隐层神经元数，当问题较复杂时，通常使用较____(多/少) 隐层神经元。

9

考虑一个有1个输入结点、1个隐层结点、1个输出结点构成的神经网络，该网络输入到隐层的权重与隐层到输出的权重共享，即该神经网络的前馈表达式为$f(x)=\sigma\left(w \sigma\left(w x+b\right)+b\right)$，其中$\sigma(x)$为Sigmoid激活函数。考虑由两个样本组成的数据集$D=\{(0,0.5),(1,0.25)\}$，神经网络初始化参数为$w = -1, b = -1$，使用平方损失作为损失函数 (总损失为所有样本的平方和损失，不除以2)。则该神经网络在初始化下的损失为____(保留3位小数)。

10

上述损失关于$\omega$的偏导在初始点处的取值为____(保留3位小数)。

11

上述损失关于$b$的偏导在初始点处的取值为____(保留3位有效数字)。

12

当步长取为0.5时，使用BP算法更新神经网络模型后，模型的损失为____ (保留3位小数)。

13

当步长取为20时，使用BP算法更新神经网络模型后，模型的损失为____ (保留3位小数)。

14

用学习率$\alpha=0.3$进行15次梯度下降迭代，每次迭代后计算损失$J(\theta)$。如果发现损失值$J(\theta)$下降缓慢，并且在15次迭代后仍在下降。基于此，以下哪个结论最可信？

A $\alpha=0.3$是学习率的有效选择

B 当前学习率设置偏小

C 当前学习率设置偏大

D 无法从当前现象对学习率进行判断

15

下图是某一激活函数的图像，下列哪个选项可能是该激活函数的表达式？

A $f(x)=\mathrm{e}^{-x^2}$

B $f(x)=\ln \left(1+\mathrm{e}^x\right)$

C $f(x)= \begin{cases}\mathrm{e}^x-1, & x<0, \\
x, & x \geqslant 0 .\end{cases}$

D $f(x)=\frac{1}{1+\mathrm{e}^{-x}}$

答案

“0.235”

“103”

“多”

“0.079”

“-0.026”

“-0.0785”

“0.075”

“0.112”

贝叶斯分类器

1

贝叶斯最优分类器____（达到了/没达到）了贝叶斯风险。

2

在贝叶斯决策论中，下列说法错误的是（）

A $1-R\left(h^*\right)$反映了机器学习所能产生的模型精度理论上限

B 贝叶斯最优分类器在每个样本上选择那个能使条件风险$R(c|x)$最小的类别标记

C 在实际中，贝叶斯决策论中的$P\left(c_i \mid \boldsymbol{x}\right)$是容易事先知道的

D 贝叶斯最优分类器对应的总体风险称为贝叶斯风险

3

从贝叶斯决策论的角度看，机器学习要实现的是基于有限的训练样本尽可能准确地估计出后验概率P(c|x) ，这句话是____（正确/错误）

4

下列说法错误的是（）

A 生成式模型可以理解为在尝试还原数据原来的联合分布

B SVM是判别式模型

C 判别式模型直接对后验概率建模

D 贝叶斯分类器是判别式模型

5

贝叶斯主义一般做____（点/分布）估计

6

下列说法错误的是（）

A 贝叶斯学习≠贝叶斯分类器

B SVM属于统计学习

C 用到了贝叶斯公式就是贝叶斯学习

D 贝叶斯分类器是生成式模型

7

下列说法错误的是（）

A 极大似然估计做了独立同分布假设

B 极大似然估计的任务是利用训练集估计参数

C 极大似然估计需先假设某种概率分布形式

D 极大似然估计属于贝叶斯主义

8

极大似然估计中，对数似然的解与原问题____（一致/不一致）

9

下列说法错误的是（）

A 计算$P(x|c)$主要障碍之一是组合爆炸

B 计算$P(x|c)$主要障碍之一是样本稀疏

C 朴素贝叶斯分类器中，计算离散属性的$P(x_i|c)$需要考虑概率密度函数

D 朴素贝叶斯分类器中的概率密度函数，可以使用高斯分布

10

考虑二分类问题，若数据集中有100个样本，其中负类样本有48个。令$c$表示正类，则$P(c)$的估计值是____（保留2位小数）

11

$数据集\\ \begin{array}{cccccccccccccccc} \hline \text { 编号 } & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 & 11 & 12 & 13 & 14 & 15 \\ \hline x_1 & -1 & -1 & -1 & -1 & -1 & 0 & 0 & 0 & 0 & 0 & 0 & 1 & 1 & 1 & 1 \\ \hline x_2 & B & M & M & B & B & B & M & M & S & S & S & M & M & S & S \\ \hline y & 0 & 0 & 1 & 1 & 0 & 0 & 0 & 1 & 1 & 1 & 1 & 1 & 1 & 1 & 0 \\ \hline \end{array}$

考虑以上数据集。其中$x_1$与$x_2$为特征，其取值集合分别为$x_1 = \lbrace-1, 0, 1\rbrace$，$x_2 = \lbrace B, M, S\rbrace$。$y$为类别标记，其取值集合为$y=\lbrace 0, 1 \rbrace$。

使用所给训练数据，学习一个朴素贝叶斯分类器，考虑样本$\boldsymbol{x} = \lbrace 0, B\rbrace$，请计算$P(y=0)P(\boldsymbol{x} \mid y=0)$的值____（保留2位有效数字）。

12

使用所给训练数据，学习一个朴素贝叶斯分类器，这个分类器会将样本$\boldsymbol{x} = \lbrace 0, B\rbrace$的标记预测为____。

13

使用所给训练数据，使用“拉普拉斯修正”，学习一个朴素贝叶斯分类器，考虑样本$\boldsymbol{x} = \lbrace 0, B\rbrace$，请计算$\hat{P}(y=1)\hat{P}(\boldsymbol{x} \mid y=1)$的值____（保留2位有效数字）。

注. 实际中估计概率值时，常用“拉普拉斯修正”，相关内容请阅读《机器学习》教材第153-154页。

14

以下哪个选项是生成式模型？

A 贝叶斯网

B 对数几率回归

C 决策树

D 支持向量机

15

最小化分类错误率的贝叶斯最优分类器为：对每个样本选择能使以下哪个选项最大的类别标记？

A 后验概率

B 类条件概率

C 先验

D 以上都不是

答案

“达到了”

“正确”

“分布”

“一致”

“0.52”

“0.067”

“0”

“0.041”

集成学习和聚类

1

下列关于误差-分歧分解的说法中正确的是哪个？

A 这一分解表明特定条件下，集成学习的性能与个体学习器多样性正相关

B 这一分解体现了多样性在回归、分类等机器学习任务中的重要性

C 这一分解给出了一种可操作的多样性定义

D 这一分解中的误差可以使用训练误差进行估计

2

下列关于同质集成学习与异质集成学习对比的说法中错误的是哪个？

A 异质集成学习能获得更多样的个体

B 同质集成学习在实现上更加简单

C 同质集成学习能更方便的对比个体的结果

D 同质集成学习能获得性能更好的个体

3

下列基于两分类器的预测结果连列表定义的表达式中，你认为哪个不适合作为多样性度量？

A $\frac{(a+d)(b+c)(a d-b c)}{(a+b)(a+c)(b+d)(c+d)}$

B $\frac{a+d}{a+b+c+d}$

C $\frac{a d-b c}{a d+b c}$

D $\frac{b-c}{a+b+c+c}$

4

下列关于集成学习的说法中错误的是？

A 个体学习器准确率很高后，要增加多样性可以不牺牲准确性

B 当基分类器的错误率相互独立时，随着个体数目的增大，集成错误率将指数级下降

C 现实任务中，个体学习器很难做到相互独立

D 集成学习的核心是如何产生并结合好而不同的个体学习器

5

多样性是集成学习的关键，现实任务中往往会在学习过程中引入随机性来增强个体学习器的多样性，你认为下列哪个做法不是合适的增强多样性的方法？

A 每个个体学习器使用不同的数据子集

B 生成大量随机样本放入到数据集中

C 每个个体学习器使用不同的输入属性子集

D 当个体学习器有参数可以设置时，对不同个体学习器设置不同的参数

6

AdaBoost算法是一种常用的Boosting算法，该算法的伪代码如图所示，其中$Z_t$用于确保$D_{t+1}$是一个分布。考虑由3个样本组成的训练集，在第1轮中基学习算法将样本1与样本2分类正确，样本3分类错误。

则在第2轮中，样本1的权重为____(保留3位小数)。

7

在上题第2轮中，样本3的权重为____(保留3位小数)。

8

弱学习器指泛化性能略优于随机猜测的学习器，如二分类问题中指精度略高于0.5的分类器。那么在三分类问题中，弱学习器是指精度略高于____ (保留3位小数) 的学习器。

9

当样本足够多时，使用3个基学习器的Bagging算法用到的训练数据的比例为____(小数形式并保留3位小数)。

10

随机森林是一种典型的Bagging算法。随机森林使用的决策树的每个结点，先从该结点的属性集合中随机选择包含部分属性的属性子集，再从这个子集中选择一个最优的属性用于划分。这样生成的单棵决策树与单棵传统决策树相比，性能往往____ (更高/相同/更低)。

11

随机森林与传统决策树构成的森林相比，多样性往往____(更高/相同/更低)。

12

当我们想将无标记的数据分成若干簇时，应该选用下列什么类型的算法？

A 分类

B 回归

C 以上都可以

D 聚类

13

下面哪一项是通过样本分布的紧密程度确定聚类结构的聚类算法？

A 原型聚类

B 密度聚类

C 层次聚类

D 以上都是

14

下图所示聚类结构____（可以/不可以）通过标准型的k均值聚类算法得到。

注：标准型指不使用核方法。

15

下图所示聚类结构最可能通过____（原型聚类/密度聚类/层次聚类）得到。

答案

“0.250”

“0.500”

“0.333”

“0.950”

“更低”

“更高”

“不可以”

“密度聚类”

考试

1

对于两个样本点(0,0),(1,1)，若我们将其投影到与拉普拉斯核函数$k(\boldsymbol{x}, \boldsymbol{y})=e^{-|\boldsymbol{x}-\boldsymbol{y}|}$关联的RKHS中时，则两个样本投影后的点距离为 1.230（保留三位小数)

正确答案：
填空1 : 1.230

2

聚类算法是机器学习中一种典型的无监督（监督/无监督）学习算法。

正确答案：
填空1 : 无监督

3

支持向量机原始问题目标函数最优值是对偶问题得到的目标函数最优值的上界（上界/下界）

正确答案：
填空1 : 上界

4

下列关于集成学习的说法中正确的是哪个？

A Boosting中所有个体学习器的权重是相等的

B 个体学习器犯错的样本具有一定差异性是集成学习取得好性能的要求之一

C Bagging中不同个体学习器的数据是从同一数据集中采样得到的，因而需要其他途径使基学习器具有多样性

D 已有的多样性定义可以作为优化目标直接优化

正确答案： B

5

决策树划分时，若其中一个属性为样本的编号（各样本编号不同），若基于该属性进行划分，则信息增益最大（大/小）

正确答案：
填空1 : 大

6

下列关于类别不平衡问题的描述中正确的是哪个？

A 当大类和小类一样重要时需要针对不平衡问题做特殊处理

B 复制小类样本可以高效解决类别不平衡问题

C 过采样与欠采样都通过构造平衡数据集来处理类别不平衡问题

D 阈值移动法需要构造平衡数据集来处理类别不平衡问题

正确答案： C

7

设$n \in \mathbb{N}^{+}$为一正自然数，考虑数据集$D_n=\{(-i,-1),(i, 1)\}_{i=1}^n$。记$w_n$为最小二乘法在数据集$D_n$上学得的线性模型的斜率，则$\lim _{n \rightarrow+\infty} n w_n$的值为 1.500(保留3位小数或填写”不存在”)。

正确答案：
填空1 : 1.500

8

当西瓜收购公司去瓜摊收购西瓜时既希望把好瓜都收走又保证收到的瓜中坏瓜尽可能的少，请问他应该分别考虑什么评价指标？

A 查准率查全率

B 查全率查准率

C 准确率查全率

D 查全率准确率

正确答案： B

9

如果决策树过拟合训练集，减少决策树最大深度是（是/否）为一个好主意。

正确答案：
填空1 : 是

10

下列说法错误的是（）

A $1-R\left(h^*\right)$反映了分类器所能达到的最好性能

B 如果概率都能拿到真实值，那么根据贝叶斯判定准则做出的决策是理论上最好的决策

C 贝叶斯决策论是概率框架下实施决策的基本理论

D 决策树属于生成式模型

正确答案： D

11

当多隐层神经网络使用线性激活函数时，下列哪个选项是正确的？

A 经验损失最小化具有唯一解

B 神经网络的输出是输入的线性函数

C 神经网络具有万有逼近性

D 神经网络的输出是权重的线性函数

正确答案： B

12

下列关于线性模型的描述中正确的是哪个？

A 线性模型通过投票法或加权平均法可以得到非线性模型

B 线性模型无法拟合与输入呈指数关系的输出

C 线性模型既可以处理回归任务，也可以处理分类任务

D 线性模型的表达能力与神经网络相同

正确答案： C

13

如果为了同时得到多个聚类簇数的聚类结果（如下图所示），最适合使用层次聚类（原型聚类/密度聚类/层次聚类）

正确答案：
填空1 : 层次聚类

14

下列说法错误的是（）

A 当样本均匀分布于所有类中时，熵最大

B 在某些情况下样本特征向量中一些分量没有值，这称为属性缺失

C CART算法的评价指标是基尼系数

D ID3算法能解决过拟合问题

正确答案： D

15

下列关于神经网络万有逼近性的说法中正确的是哪个？

A 万有逼近性是神经网络独有的性质

B 万有逼近性保证了神经网络在现实任务中优异的表现

C 包含足够多神经元的单隐层神经网络具有万有逼近性

D 万有逼近性表明任意一个神经网络都可以逼近任意函数

正确答案： C

16

在上题的例子中，每个基分类器的精度都为0.4，因而都是弱分类器，但集成后的精度下降了。这一现象表明在多分类任务中，弱学习器不能 (能/不能) 保证集成精度不下降。

正确答案：
填空1 : 不能

17

朴素贝叶斯分类器采用了（）假设：即对已知类别，假设所有属性相互独立。

A 属性条件独立性

B 独依赖

C 道德图

D 有向无环图依赖

正确答案： A

18

对于参数估计过程，统计学界的频率主义（频率主义/贝叶斯主义）学派认为参数虽然未知，但却是客观存在的固定值，因此，可通过优化似然函数等准则来确定参数值。

正确答案：
填空1 : 频率主义

19

下列说法错误的是（）

A 贝叶斯学习等于贝叶斯分类器

B 极大似然估计需要假设某种概率分布形式

C 对连续属性，计算条件概率$P\left(x_i \mid c\right)$可考虑概率密度函数

D 朴素贝叶斯分类器中，对给定类别，模型假设所有属性间相互独立

正确答案： A

20

以下哪种方式通常不能帮助解决决策树过拟合（）。

A 预剪枝

B 后剪枝

C 限制最大树深度

D 去除训练集一半样本

正确答案： D

21

若任务中数据的属性是连续值，此类任务称为不确定（分类/回归/不确定）。

正确答案：
填空1 : 不确定

22

以下关于聚类的说法，错误的是

A 聚类好坏存在绝对标准

B 聚类可以作为其他学习算法的前驱过程

C 原型聚类得到的每一个簇都是凸的

D 密度聚类假设聚类结构可以通过样本分布的紧密程度确定

正确答案： A

23

对率回归是 (是/否) 可以通过极大似然估计求解。

正确答案：
填空1 : 是

24

下列哪些函数可以作为核函数？

A 高斯核

B 多项式核

C 线性核

D 以上函数均可以作为核函数

正确答案： D

25

当查准率和查全率均为1时，F1度量为 1.000。（计算结果保留三位小数）

正确答案：
填空1 : 1.000

26

下列关于BP算法的说法中正确的是哪个？

A 只要模型的损失函数关于模型权重可微，就可以使用BP算法优化

B 只有使用Sigmoid激活函数的神经网络可以使用BP算法优化

C BP算法可以找到神经网络的全局极小解

D BP算法能在多项式时间内收敛

正确答案： A

27

下列说法错误的是（）

A 决策树学习时，给定划分属性，若样本在该属性上的值缺失，会随机进入一个分支

B 信息增益准则对可取值较多的属性有所偏好

C 基尼指数越小，数据集的纯度越高

D 随着决策树学习时的深度增加，位于叶结点的样本越来越少

正确答案： A

28

下列有关支持向量机，说法正确的是？

A 通过支持向量机求解出的划分超平面是对训练样本局部扰动的“容忍”性最好的划分超平面

B 利用SMO算法求解支持向量机时，只需要迭代更新参数一次

C 支持向量机只能处理线性可分的数据

D 一般情况下，支持向量机训练完后解与全部样本都有关系

正确答案： A

29

Sigmoid函数在一点的函数值总是大于(大于/等于/小于/无法确定) 该点的导数值。

正确答案：
填空1 : 大于

30

下列说法错误的是（）

A 留一法对模型性能的估计总是比交叉验证方法更准确

B 支持向量机的原问题和对偶问题都是二次规划问题

C 决策树相比于对数几率回归更适合分线性分类问题

D 根据训练数据是否拥有标记信息，学习任务可以大致划分为两类: 监督学习、无监督学习

正确答案： A

31

以下关于机器学习的说法错误的是（）

A 预测离散值的任务一般称为分类任务

B 学得模型后，待测试的样本我们称为“测试样本”，亦称“测试示例”

C 同一个算法在不同数据集上，一般不能得到同样一个模型

D 在聚类任务中，我们需要事先知道数据的标记信息

正确答案： D

32

下列哪一种数据集切分方式会导致划分的训练集和测试集与初始数据集分布不同？

A 留出法

B 自助法

C 以上做法均不会

D 交叉验证法

正确答案： B

33

$表1\ 数据集 \\ \begin{array}{cccccccccccccccc} \hline 编号 & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 & 11 & 12 & 13 & 14 & 15 \\ \hline x_1 & -1 & -1 & -1 & -1 & -1 & 0 & 0 & 0 & 0 & 0 & 0 & 1 & 1 & 1 & 1 \\ \hline x_2 & B & M & M & B & B & B & M & M & S & S & S & M & M & S & S \\ \hline y & 0 & 0 & 1 & 1 & 0 & 0 & 0 & 1 & 1 & 1 & 1 & 1 & 1 & 1 & 0 \\ \hline \end{array}$

考虑如图数据集，其中 $x_1$ 与 $x_2$ 为特征，其取值集合分别为 $x_1=\{-1,0,1\}, x_2=\{B, M, S\}$ ， $y$ 为类别标记，其取值集合为 $y=\{0,1\}$ 。
使用所给训练数据，学习一个朴素贝叶斯分类器，考虑样本 $x=\{0, B\}$ ，请计算 $P(y=1) P(x \mid y=1)$ 的值 0.030 (保留2位有效数字)。

正确答案：
填空1 : 0.03

注. 这道题答案错了

34

使用BP算法优化神经网络，若发现损失函数剧烈波动，可能是优化步长偏大 (大/小)。

正确答案：
填空1 : 大

35

考虑如下三分类的例子，使用投票法集成的结果的精度为 0.200 (保留3位小数)。

	测试例1	测试例2	测试例3	测试例4	测试例5
真实标记	1	2	3	1	2
分类器1	1	2	1	2	3
分类器2	2	3	3	1	3
分类器3	1	3	1	2	2

正确答案：
填空1 : 0.200

36

当学习器在训练集上把训练样本自身的一些特征当作了所有潜在样本都具有的一般性质时，泛化性能可能会因此下降，这种现象一般称为过拟合。（过拟合/欠拟合）

正确答案：
填空1 : 过拟合

37

以下关于模型评估与选择的说法，错误的是

A 训练模型时，仅仅保证训练误差为0是不够的

B 当数据集很大时，通过留一法进行模型评估的计算代价是非常高昂的

C 交叉验证t检验是基于列联表的

D 模型的超参选择需要在验证集上进行测试

正确答案： C

38

考虑正类样本(-1,0),(0,1),(-1,1) 和负类样本(1,0),(0,-1),(1,-1)，通过支持向量机的基本型得到的解为

A y=x

B y=x-1

C 以上答案均不是

D y=x+1

正确答案： A

39

下列关于多元线性回归中使用正则项的说法中正确的是？

A 使用正则项只有理论意义，实际应用中无需使用

B 即便计算机具有无限精度，多元线性回归也需要使用正则项

C 样例维度小于样例数是使用正则项的原因之一

D 使用正则化后，多元线性回归可以找到多个最优解

正确答案： B

40

下列说法错误的是（）

A 机器学习一般有“独立同分布”假设

B 用数据建立模型的过程叫训练

C 学得模型适用于新样本的能力称为“泛化”能力

D 测试数据应和训练数据一样

正确答案： D