机器学习-02

1. 影响分类正确率的因素为何？

A.数据
B.数据量
C.算法
D.属性

2. 因子旋转的目的是？

A.是的因子载荷取值两极化
B.是的公共因子的解释更加清晰
C.减少变量特殊因子的变异
D.发现和度量特殊因子

分析：建立因子分析模型的目的不仅是要找出公因子以及对变量进行分组，更重要的是要知道每个公因子的意义，以便对实际问题做出科学分析。因子旋转即因子载荷矩阵 $A$ ，用一个正交矩阵 $T$ 右乘 $A$ 实现对因子载荷矩阵的旋转（一次正交变换即对应坐标系的一次旋转），旋转后因子载荷矩阵结构简化，更容易对公因子进行解释。结构简化就就是重新分配每个因子所解释的方差的比例，使每个变量仅在一个公因子上有较大的载荷，在其他公因子上的载荷较小，即是使因子载荷矩阵每行或者每列元素的平方值向0或1两极分化。

3. 以下有关随机森林算法的说法正确的是

A.随机森林算法的分类精度不会随着决策树数量的增加而提高
B.随机森林算法对异常值和缺失值不敏感
C.随机森林算法不需要考虑过拟合问题

分析：任何机器学习算法都会有一个过拟合问题（Overfitting），随机森林不会发生过拟合不代表不考虑过拟合问题；不发生过拟合的原因：在建立每一棵决策树的过程中，有两点需注意：采样与完全分裂
首先是两个随机采样的过程，RF对输入的数据进行行、列的采样：
对于行采样使用有放回的方式，也就是在采样得到的样本集合中，可能有重复的样本。假设输入样本N个，那么采样的样本也是N个，这样使得在训练的时候每一棵树的输入样本都不全是全部的样本，使得相对不容易出现过拟合（不代表不出现）
然后进行列采样，从 $M$ 个特征中选择 $m$ 个。
之后是对采样后的数据使用完全分裂的方式建立决策树，这样决策树的某一个叶子结点要么无法分裂，要么指向同一个分类。
一般决策树算法都有一个重要步骤：剪枝，但随机森林中不这样干，由于之前的两个随机采样过程保证了随机性，所以就算不剪枝，也不会出现过拟合（Over-Fitting），按这种算法得到的随机森林中每一棵都是很弱的，但组合起来就很厉害。森林中每一棵决策树就是一个精通于某个领域的专家，这样在随机森林中有了很多个精通不同领域的专家，对一个新的问题（输入数据），可以用不同的角度去看待它，最终由各个领域的专家投票得到结果。——所以决策树之间相互独立最好。

D.决策树之间相关系数越低，每棵决策树分类精度越高的随机森林模型的分类效果越好

4. 以下算法中，属于有监督算法的是

A.朴素贝叶斯
B.线性回归
C.卷积神经网络
D.因子分析

5. 以下算法中，属于无监督算法的是

A.K-Means
B.PCA
C.随机森林
D.KNN

6. 以下对ID3算法的描述，何者不正确？

A.每个节点的分支度都不相同
B.使用Information Gain作为节点分割的依据
C.可以处理数值型态的字段
D.可以处理空值的字段

分析：ID3的缺点：
特征数量的值很多，更喜欢字段有很多分支。
所有字段都是类别型（数值型需离散化），即它不能处理数值型（连续型）属性。
它无法处理缺失属性（空值、无值）。
它无法处直接处理噪声数据，抗噪能力弱。

7. 下列对C4.5算法的描述，何者为真？

A.每个节点的分支度只能为2
B.使用Gain Ratio作为节点分割的依据
C.可以处理数值型态的字段
D.可以处理空值的字段

缺分析：对答案A有疑惑。

8. 下表是一个购物篮，假定支持度阈值为40%，其中（）是频繁闭项集。

篮子

项目

abc

abcd

bce

acde

A.abc
B.ad
C.cd
D.de

9. 我们在构建一个模型的过程中，需要追求的目标有：

A.提升模型的准确率
B.加快模型的运算速度
C.提升模型的复杂度
D.提升模型的可解释性

分析：降低模型复杂度，并非提升模型复杂度。

10. 我们想要减少数据集中的特征数，选择以下适合的方案，主要参考可见数据预处理的过滤法、嵌入法和包装法：

A.使用前向特征选择法
B.使用后向特征排除法
C.我们先把所有特征都使用，去训练一个模型，得到测试集上的表现，然后我们去掉一个特征，再去训练，用交叉验证看看测试集上的表现，如果表现比原来还要好，就可以去掉这个特征
D.查看相关性表，去除相关性最高的一些特征

11. 我们可以用哪种方式来避免决策树过度适配（Overfitting）的问题（过拟合问题）

A.利用修剪法来限制树的深度
B.利用盆栽法规定每个节点下的最小的记录数目
C.利用逐步回归法来删除部分数据
D.目前并无适合的方法来处理这问题

分析：逐步回归法的基本思想是通过删除变量中不太重要又和其他变量高度相关的变量，降低多重共线性；它的好处是统计上不显著的解释变量剔除，最后保留在模型中的解释变量之间多重共线性不明显，而且对呗解释变量有更好的解释贡献，但是特别注意，逐步回归可能因为删除了重要的相关变量而导致设定偏误。

12. 文本数据特点及难点？

A.半结构化
B.数据量大
C.高维稀疏性
D.蕴含语义、情感

13. 为了分析客户的类型，分析师小A进行了一次聚类分析，在评估模型结果时，（）

A.组间平方和BSS越大，聚类效果越好
B.组间平方和BSS越小，聚类效果越好
C.组内平方和WSS越大，聚类效果越好
D.组内平方和WSS越小，聚类效果越好

分析：
组间平方和BSS越大（Between Sum of Squares）
组内平方和WSS越小（Within Sum of Squares）

14. 特征选择的目标有

A.提高预测的准确性
B.降低训练成本构造更快、消耗更低的预测模型
C.构造更快，消耗更低的预测模型
D.能够对模型有更好的理解和作用

15. 随机森林可以用于以下的哪一种工作？

A.预测样本分类
B.用于样本排序
C.用于特征选择
D.用于回归预测

16. 随机森林的优点有

A.在数据集上表现良好，两个随机性的引入，使得随机森林不容易陷入过拟合
B.既能处理离散型数据，也能处理连续型数据，数据集无需规范化
C.它能够处理很高维度（feature很多）的数据，并且不用做特征选择，对数据集的适应能力强
D.训练速度快，可以得到变量重要性排序

17. 数据挖掘项目分析中，我们需要

A.清理数据
B.对数据描述性统计
C.选择合适的模型并建模
D.验证模型的可靠性

18. 数据挖掘的预测建模任务主要包括哪几大类问题？

A.分类
B.回归
C.聚类
D.关联规则挖掘

19. 数据挖掘的预测建模任务主要包括哪几大类问题？

A.模式发现
B.分类
C.模式匹配
D.回归

20. 数据降维的优点有哪些？

A.降低算法成本
B.减少噪音
C.防止欠拟合
D.提高算法效率

降维的优点：
减少数据维度和需要的存储空间
节约模型训练计算时间
去掉冗余变量，提高算法的准确度
有利于数据可视化

21. 属于簇有效性的监督度量是：

A.轮廓系数
B.共性分析相关系数
C.熵
D.F度量

22. 如何做xgboost模型的交叉验证

A.cross_val_score(XGBRegressor,X,Y,cv)
B.不能对xgboost做交叉验证
C.手写交叉验证函数做交叉验证
D.可以使用xgboost(非sklearnAPI)的.cv方法来做交叉验证

23. 如何增加KNN的模型准确度

A.归一化
B.标准化
C.删掉任意一些特征
D.无法进行准确度的提高

分析：特征数据归一化的原因：
归一化后加快了梯度下降求最优解的速度
归一化有可能提高精度
而在KNN中，归一化可以提高结果的准确度。

24. 如何来优化Kmeans？

A.可以尝试使用BiKmeans的方法
B.可以尝试初始点均匀的分布在数据中
C.尝试去量纲
D.尝试随机的选取样本

分析：K-means算法是数值的、非监督的、非确定的、迭代的，常用的优化改进算法：
K-means++
ISODATA
Kernel K-means
Bi K-means（二分K-means）
Mini Batch K-means（适合大数据的聚类算法）

25. 如果SVM模型欠拟合，以下方法哪些可以改进模型

A.增大惩罚参数C的值
B.减小惩罚参数C的值
C.减小核系数（gamma参数）
D.尝试使用核函数

分析：通常欠拟合可以理解成模型太简单，所以：
数据层面：增加新特性如组合、泛化、相关性、高次特征来增加假设空间。
模型层面：增加模型复杂度
SVM中的核函数（SVM还可以增大惩罚参数C的值）
决策树不进行剪枝
DNN使用更多网络层
去掉正则化项或减小正则化参数
增加训练轮数

26. 请问要符合什么条件才可被称为关联规则？

A.最小支持度（Minimum Support）
B.最小置信度（Minimum Confidence）
C.最大规则数（Minimum Rule Number）
D.以上皆非

27. 朴素贝叶斯公式中一个重要的前提条件是什么

A.特征必须是类别型的数据
B.特征可以是连续型的数据
C.各个特征必须是独立的
D.Y值必须离散型的变量

分析：该题存疑，理论上只有答案C是对的，各个特征必须是独立的，遵循独立性假设条件。

某大样本数据集的缺失值占比约10%。数据分析师小A首先删除了所有缺失值的样本，建立了回归模型。然后用某种方法进行了缺失值处理后，重新建立了回归模型，发现模型的VIF值较之前有了很大的增幅。请问小A有可能采用的那种方法进行的缺失值处理？（）

A.均值填补
B.K-means聚类填补
C.回归填补
D.忽略缺失值的极大似然估计

分析：VIF、Variance Inflation Factor，又称为方差膨胀系数，用来衡量多元线性回归模型中的多重共线性程度，它表示回归系数估计量的方差与假设自变量间不线性相关时方差相比的比值。
VIF值如果全部小于10（严格是5），则说明模型不存在多重共线性。
VIF值大于10小于100则存在较强的多重共线性。
VIF值大于100则存在严重的多重共线性。
一般解决办法：
手动移除共线性自变量
逐步回归法
增加样本容量
岭回归
使用因子分析合并变量
所以此时处理缺失值最好的方式是使用模型方式填补，均值填补、忽略缺失值的极大似然估计都不属于模型方式。

29. 逻辑回归和SVM的联系与区别，正确的是？

A.二者都可以处理分类问题
B.二者都可以增加不同的正则化项
C.二者都是参数模型
D.SVM的处理方法是只考虑Support Vectors，也就是和分类最相关的少数点，去学习分类器

分析：区分：
逻辑回归通过输出预测概率后根据阈值进行类别判断，SVM则直接输出分割超平面（MMH），然后使用0/1函数对距离分类，不能直接输出概率值，如果要SVM输出概率值则要求特殊处理，可根据距离大小归一化概率输出。
逻辑回归可以根据多阈值进行多分类，SVM则无法直接处理多分类问题（推广后可以）。
SVM在训练过程中只需要支持向量，依赖的训练样本量小，而逻辑回归则需要所有的训练样本，训练时开销更大。
逻辑回归（LR）是参数模型，SVM是非参数模型。

30. 类别型数据的处理方式有？

A.序号编码
B.one-hot编码
C.二进制编码
D.分箱

分析：分箱是数值型特征的处理方式。

31. 决策树中对于节点的不纯度的衡量指标有？

A.对数损失
B.错误率
C.基尼指数
D.信息熵

分析：决策树模型中节点不纯度指标主要有三：错分率、Gini指数、熵

32. 决策树有哪些常用的启发函数？

A.ID3——最大信息增益
B.C4.5——最大信息增益比
C.CART——最大基尼系数（Gini）
D.C4.0——最大信息增益比

33. 决策树的算法需考虑哪两个重点？

A.字段的选择
B.概率为0的问题
C.剪枝
D.数值型字段离散化

34. 决策树当中在做特征选择的过程中用的什么来描述不纯度

A.熵
B.基尼指数
C.损失函数
D.误分类误差

35. 决策树（Decision Tree）算法，通常可以用来解决何种问题？

A.分类（Classification）
B.聚类（Clustering）
C.回归（Regression）
D.关联（Association）

36. 假定某同学使用Navie Bayesian（NB）分类模型时，不小心将训练数据的两个维度搞重复了，那么关于NB的说法中正确的是？

A.这个被重复的特征在模型中的决定作用会被加强
B.模型效果相比无重复特征的情况下精准度会降低
C.如果所有特征都被重复一遍，得到的模型预测结果相对于不重复的情况下的模型预测结果一样
D.当两列特征高度相关时，无法用两列特征相同时所得到的结论来分析问题

朴素贝叶斯NB
优点
发源于古典数学理论，有稳定的分类效率
对小规模数据表现很好，能处理多分类任务，还适合增量训练，尤其是数据超出内存，可以一批批去增量训练。
对缺失数据不敏感，算法简单，常用于文本分类
对结果解释容易理解
缺点
需要计算先验概率
分类决策存在错误率
对输入数据的表现形式很敏感
由于使用了样本属性独立性假设，所以如果属性相关联会表现不好
决策树
优点
简单直观，生成的决策树很直观
基本不需预处理，也不需要提前归一化处理缺失值
使用决策树预测的代价很低
相对于神经网络之类的黑盒分类模型，决策树在逻辑上可解释更强
对异常点的容错能力好，健壮性高
可以交叉验证剪枝选择模型提高泛化能力
缺点
容易过拟合导致泛化能力不强，可通过设置节点最小样本数和限制树的深度改进
决策树会因为样本发生一点点改动就导致整个树结构剧烈改变，可通过集成学习方法解决
寻找最优的决策树一直是一个NP难题，通过启发式方法容易陷入局部最优，可通过集成学习方法解决
比较复杂的关系，决策树很难学习，如异或，这种就只有走神经网络了
如果特征样本比例过大，生成的决策树容易偏向这些特征，调整样本权重来改善
SVM
优点
解决高维特征的分类问题和回归问题很有效，在特征维度大于样本数时依然有很好的效果
仅仅使用一部分支持向量来做超平面决策，无需依赖全部数据
有大量核函数可使用，从而可以很灵活解决各种非线性的分类回归问题
样本量不是海量数据时，分类准确度高、泛化能力强
缺点
对缺失数据很敏感
非线性问题的核函数选择没有通用标准，无法找到最合适的核函数
SVM在样本量很大时，核函数映射维度很高时，计算量过大，不太适用
如果特征维度远大于样本数，则SVM表现一般

37. 集成学习分哪几种？

A.Boosting
B.Bagging
C.介于Boosting和Bagging中间的
D.以上都正确

38. 集成方法中的提升法（Boosting），可用在下列哪些方法中？

A.决策树
B.神经网络
C.贝式分类法
D.罗吉斯回归

39. 基于内容的推荐算法生成推荐的过程主要依靠（）

A.内容分析器
B.推荐系统
C.文件学习器
D.过滤部件

分析：基于内容的算法的核心步骤：
内容的特征提取
用户偏好计算
内容召回
物品排序

40. 机器学习中L1正则化和L2正则化的区别是

A.使用L1可以得到稀疏的权值
B.使用L1可以得到平滑的权值
C.使用L2可以得到稀疏的权值
D.使用L2可以得到平滑的权值

41. 回归模型中存在多重共线性你如何来解决这个问题？

A.去除这两个共线性变量
B.我们可以先去除一个共线性变量
C.计算VIF（方差膨胀因子），采取相应措施
D.为了避免损失信息，我们可以使用一些正则化方法，比如岭回归和Lasso回归

42. 关于支持向量机（Support Vector Machine）的叙述，下列何者正确？

A.支持向量是重要关键的训练数据，它们是最难被分类正确的训练数据
B.移除支持向量以外的所有训练数据，并且再重新训练SVM，我们依然会得到相同的迅联结果
C.SVM所学习得到的分类器，器复杂度取决于资料的维度

分析：SVM学习分类器的复杂度一般表示训练阶段的复杂度，取决于特征的维度，而并非数据本身的维度。

D.一个支持向量数量稀少的SVM分类器，即使面对资料的维度十分高时，其推理能力（Generalization）仍然会很好

43. 关于稀疏标识，下面说法正确的是：

A.稀疏标对的数据更容易线性可分
B.压缩感知关注的如何利用信号本身的稀疏性
C.在稀疏编码过程中，字典的规模不影响稀疏程度
D.模型参数的稀疏化通常用正则化实现

44. 关于强化学习的说法，哪些是正确的？

A.强化学习中的“状态”可对应为监督学习中的“示例”
B.强化学习中的“动作”可对应为监督学习中的“标记”
C.强化学习中的“策略”可对应为监督血丝中的“分类器”或“回归器”
D.强化学习中也需有监督学习中的有标记样本（即“示例——标记”对）

45. 关于拟合度，正确的是

A.树模型越复杂，会将训练集的噪音学习进去
B.树模型越复杂，测试机的分数就越低
C.树模型越简单，对训练集的精度就越差
D.树模型越简单，导致欠拟合

46. （非机器学习）关于面向对象编程语言的特点，以下正确的是

A.对象集数据与操作于一身
B.对象拥有特定数据
C.对象能对其数据进行特定操作
D.各种对象组成，对象之间通过消息进行交互

47. 关于决策树正确的是

A.使用的信息熵来衡量节点的不纯度
B.使用可以降低不纯度最多的特征来做节点的划分
C.信息熵的公式是：-sum(pi * log(pi))
D.信息熵的公式是：sum(pi * log(pi))

48. 关于决策规则的说法，哪些是正确的

A.可以从决策树来产生决策规则，而且这些规则是最精简的决策规则
B.产生决策规则的时候需要考虑规则的覆盖度（Coverage）及置信度（Confidence）
C.序列覆盖法（Sequential Covering）是一种逐条归纳法，是决策规则中常用的方法
D.决策规则方法中所产生的规则，彼此都是独立的，因此从哪一条规则开始比对都是可以的

49. 关于层次聚类，下列说法不正确的是

A.是一种适用于大数据的聚类方法
B.是一种基于密度的聚类方法
C.能够直接给出聚类的类别数量
D.在运算速度上明显优于K均值聚类

分析：很直观的一种算法，一层一层进行聚类从下而上把小的Cluster合并聚集，也可以从上而下将大的Cluster进行分割（一般从下而上用法更多）。

上一页机器学习-01 下一页机器学习-03

最后更新于3年前

这有帮助吗？