机器学习-04

1. Xgboost通常使用哪种模型作为算法的基分类器

A.神经网络
B.GBDT
C.回归树模型
C.KNN

分析：CART（Classficiation And Regression Tree）分类回归树，是一种构建二元分类的回归树算法，多数情况下，XGBoost将CART回归树作为基分类器（Tree-based Booster），它不断生成新的回归树。

2. Transformer 模型使用的哪种注意力机制（参考Transformer模型）

A.自注意力机制
B.多层感知注意力机制
C.加和注意力机制
D.以上都不是

3. ROC曲线的横坐标为____，纵坐标为____。

A.假正率（FPR），真正率（TPR）
B.真正率（TPR），假正率（FPR）
C.准确率（Accuracy），召回率（Recall）
D.召回率（Recall），准确率（Accuracy）

分析：标准答案有问题，此处应该是A不是B

4. （无图，题错）ROC曲线的y轴，实际上可以由每个阈值下混淆矩阵的（）计算而来

A.A / ( A + B )
B.A / ( A + D )
C.B / ( B + C )
D.C / ( B + C )

5. N-Gram的优点是

A.所有正确的分词均会出现于N-Gram中
B.大多数撷取出来的词具有语法及语意上意义
C.不需要进行分词
D.易与多资源结合

6. （题目错）NewSQL数据库的特征不包含

A.数据自动sharding，解决扩展性问题，对用户透明
B.数据分区容灾、故障自动切换
C.分布式事务支持
D.NewSQL受限于Local容量磁盘，需要考虑扩容问题

7. Nave Bayes是一种特殊的Bayes分类器，特征变量是X，类别标签是C，它的一个假定是？

A.各类别的先验概率P(C)是相等的
B.以0为均值，sqr(2)/2为标准差的正态分布
C.特征变量X的各个维度是类别条件独立随机变量
D.P(XIC)是高斯分布

8. Naive Bayes是属于数据挖掘中的什么方法？

A.聚类
B.分类
C.时间序列
D.关联规则

9. Navie Bayes是一种特殊的Bayes分类器，特征变量是X，类别标签是C，它的一个假定是：

A.各类别的先验概率是相等的
B.以0为均值，1位标准差的正态分布
C.特征变量之间是相互独立的
D.是高斯分布

10. Logit值的上下界是多少

A.下界 = 0，上界 = 1
B.下界 = 0，无上界
C.无下界，无上界
D.无下界，上界 = 1

11. KNN作为距离类有监督学习模型，以距离来衡量观测的相似度，下面哪些特征需要在建模之前转变成哑变量？

A.是否约会成功
B.教育程度
C.收入
D.资产

分析：哑变量又称虚拟变量（Dummy Variable）、虚设变量、名义变量，用来反应质的属性的一个人工变量，也是量化过后的自变量，通常取值为0或1，引入哑变量可使线性回归模型变得更复杂，但对问题描述更简单，哑变量的作用：
分离异常因素的影响
检验不同属性类型对因变量的作用
提高模型的精度

12. K-NN最近邻方法在哪种情况下效果较好

A.样本较多但典型性不好
B.样本较少但典型性好
C.样本呈团状分布
D.样本呈链状分布

存疑

13. KNN和KMeans算法分别属于哪类机器学习模型

A.有监督学习和无监督学习
B.无监督学习和有监督学习
C.都属于无监督学习
D.都属于有监督学习

14. KNN和Kmeans算法都属于哪类模型

A.距离类模型
B.线性方程模型
C.矩阵分解类模型
D.集成算法

15. GloVe模型与word2vec、fastText模型相比的特点是

A.考虑了subword信息，可以处理新词
B.以条件概率比值作为核心切入点
C.通常有Skip-Gram和CBOW两种模型
D.以上都不是

分析：Glove根据原始句子计算词贡献度矩阵，关键词顺序就是在文章中的原始顺序，将稀疏矩阵转换成稠密矩阵，Word2Vec是生成词向量，而Glove引入了概率模型计算贡献度。

16. fastText模型与word2vec、Glove模型相比的特点是

A.考虑了subword信息，可以处理新词
B.以条件概率比值作为核心切入点
C.通常有Skip-Gram和CBOW两种模型
D.以上都不是

17. CRF（条件随机场）和HMM（隐马尔可夫模型）之间的主要区别是什么？

A.CRF是生成式的，而 HMM 是判别式模型
B.CRF是判别式模型，HMM 是生成式模型
C.CRF 和 HMM 都是生成式模型
D.CRF 和 HMM 都是判别式模型

分析：参考：https://zhuanlan.zhihu.com/p/88690315 CRF是判别模型，对问题的条件概率分布建模 HMM是生成模型，对联合概率的分布建模（HMM可以看做CRF的一种特殊情况）

18. C4.5算法主要解决的是什么问题

A.可以处理分类水平很多的特征
B.可以处理空缺值
C.可以处理极端值
D.可以快速的生成树模型

19. bootstrap数据是什么意思？（提示：考“bootstrap”和“boosting”区别）

A.有放回地从总共M个特征中抽样m个特征
B.无放回地从总共M个特征中抽样m个特征
C.有放回地从总共N个样本中抽样n个样本
D.无放回地从总共N个样本中抽样n个样本

「起点」下边问题重复，保留原始

20. bootstrap数据的意思是

A.有放回地从总共M个特征中抽样m个特征
B.无放回地从总共M个特征中抽样m个特征
C.有放回地从总共N个样本中抽样n个样本
D.无放回地从总共N个样本中抽样n个样本

21. bootstrap数据的含义是

A.有放回地从总共M个特征中抽样m个特征
B.无放回地从总共M个特征中抽样m个特征
C.有放回地从总共N个样本中抽样n个样本
D.无放回地从总共N个样本中抽样n个样本

22. bootstrap抽样法是如何操作的？

A.有放回地从总共M个特征中抽样m个特征
B.无放回地从总共M个特征中抽样m个特征
C.有放回地从总共N个样本中抽样n个样本
D.无放回地从总共N个样本中抽样n个样本

「终点」

23. boosting算法中的结构比较类似与电路中的哪种结构？

A.短路
B.并联
C.混联
D.串联

24. BIRCH是一种：

A.分类器
B.聚类算法
C.关联分析算法
D.特征选择算法

分析：BIRCH（Balanced Iterative Reducing and Clustering Using Hierarchies）全称利用层次方法的平衡迭代规约聚类法，适用于数据量大，类别K比较多的情况。

25. BalanceCascade算法是基于何种算法之上的算法

A.Adaboost
B.Bagging
C.Random Forest
D.以上皆是

26. Apriori算法，最有可能可用来解决以下哪个问题？

A.电子商务网站向顾客推荐商品的广告
B.信用卡欺诈识别
C.电信用户离网预警
D.预测GDP与工业产值之间的关系

27. AprioriAll算法，可用来解决何种问题？

A.分类（Classification）
B.聚类（Clustering）
C.关联（Association）
D.序列（Sequence）

28. 因子分析与主成分分析相比，其优势在于

A.能更好地进行变量的压缩
B.能更好地进行维度分析，增加因子的可解释性
C.能更多地提取变量的信息
D.能更精确地描述原始数据

29. 以下不属于线性回归假设前提条件的是

A.因变量与自变量间的存在线性关系
B.符合正交假定，即误差项与自变量不相关，其期望为0
C.满足独立同分布的假设，即残差间相互独立，遵循同一分布，要求方差齐性
D.残差服从标准正态分布

分析：线性回归的假设前提：
X和Y变量之间存在线性关系
错误项Error是正态分布的
错误术语彼此独立
同方性：误差项具有恒定的方差
最小多重直线度

30. 主成分分析中，下列哪种数据预处理过程是必须做的

A.使用标准化消除量纲的影响
B.去除离群值
C.各变量转换为正态分布
D.各变量转换为均匀分布

31. 因子分析中，使用主成分法进行什么计算

A.因子方差的估计
B.因子旋转角度的估计
C.原始因子载荷矩阵的估计
D.因子的误差的估计

32. “apple”和“angle”之间的编辑距离是？（参考：K-最近邻：KNN）

33. 最原始的最小二乘法的算法的缺点是什么？

A.X数据集里面存在了共线性
B.X矩阵不满秩
C.( X^T * X )矩阵不满秩
D.数据噪音大对结果不好

34. 主成分个数选择的大致标准是

A.累计贡献度率达到80%时的主成分个数
B.累计贡献度率达到40%时的主成分个数
C.大于协方差矩阵或相关矩阵特征值均值的个数
D.小于协方差矩阵或相关矩阵特征值均值的个数

35. 主成分分析优劣的判断标准是

A.尽量将更多变量压缩在第一主成分和第二主成分之内
B.第一主成分解释的信息能够超过50%
C.第一主成分除以第二个主成分的比值大于5
D.用更少的主成分代表更多的变量

36. 直线回归方程 y = a + bx 中的 b 称为回归系数，回归系数的作用是

A.确定两变量之间因果的数量关系
B.确定两变量的相关方向
C.确定当自变量增加一个单位时，因变量的平均增加量
D.确定因变量的实际值与估计值的变异程度

37. 支持向量机（SVM）算法，通常可以用来解决何种问题？

A.分类（Classification）
B.聚类（Clustering）
C.回归（Regression）
D.关联（Association）

38. 正则化的惩罚有

A.惩罚子树样本的数量
B.惩罚子树特征的数量
C.惩罚叶子结点的个数
D.惩罚叶子权重分数的模长的平方

39. 针对K均值算法的缺点，以下哪个选项是正确的？

A.需要人工预先确定初始K值，且该值和真实的数据分布未必吻合
B.K均值只能收敛到局部最优，效果受到的初始值很大。
C.易受到噪点的影响
D.样本点只能被划分到单一的类中

40. 在整个随机森林的算法过程中，以下哪两个随机过程可使随机森林很大程度上避免了拟过拟合现象的出现？

A.构建决策树输入数据的随机选取
B.构建决策树分裂节点的随机选取
C.构建决策树树的数量的随机选取
D.构建决策树所需特征的随机选取

41. 在一个二分类的分类预测问题中，如果二分类中的某一类占比超过80%，那么可以考虑哪些方法去改进？

A.改变模型，例如使用朴素贝叶斯等对偏斜不敏感的模型
B.升采样
C.降采样
D.盖帽法

42. 在消费者分类中，以下哪几项属于RFM分析模型（）

A.最近一次消费
B.消费频率
C.消费金额
D.消费总次数

43. 在线性回归的模型中

A.F检验是检验模型的线性关系
B.t检验是检验单个回归系数的显著性
C.在一元线性回归中，F与t检验的原假设是一致的
D.在多元线性回归中，F与t检验的原假设是一致的

44. 在文本数据上，以下哪些词编码的方法有考虑到一个词与前后词之间的关系？

A.Glove
B.One-Hot Encoding
C.Skip-Gram
D.CBOW

45. 在统计模式识别分类问题中，当先验概率未知时，可以使用（）？

A.最小损失准则
B.N-P判决
C.最小最大损失准则
D.最小误判概率准则

缺分析

46. 在评价不平衡问题分类的度量方法有如下几种？

A.F1度量
B.查全率（recall）
B.精度（precision）
D.真正率（true positive rate, TPR）

47. 在逻辑回归模型中，我们时常对连续变量进行离散化处理，这么做可能会出现以下哪些结果。

A.消除了异常值对模型的影响
B.造成了更大的误差
C.一定程度上提高了连续变量估计参数的可解释性
D.一定会提升模型的预测表现

48. 在聚类分析中，为了使不同量纲、不同取值范围的数据能够放在一起进行比较，通常需要对原始数据进行变换处理。常用的变换算法有

A.中心化变换
B.标准化变换
C.规格化变换
D.对数变换

49. 在建立回归方程时，往往需要经过一系列的统计检验，下面说法正确的是

A.线性关系的检验一般是使用F统计量
B.回归系数的检验一般是使用F检验
C.线性关系的检验一般是使用t统计量
D.回归系数的检验一般是使用t检验

50. 下列关于主成分分析的表述正确的有

A.主成分分析的目的是寻找少数几个主成分代表原来的多个指标
B.所确定的几个主成分之间是高度相关的
C.所确定的几个主成分之间是互不相关的
D.使用主成分分析方法的前提是原来的多个指标之间是相关的

分析：高度相关就造成共线了，所以高度相关是明显错误

上一页机器学习-03 下一页机器学习-05

最后更新于4年前