机器学习-09

1. 在缺失值处理时，我们可以使用missForest方法进行缺失值的填补，关于missForest方法，下面错误的是

A.这是利用随机森林来填补缺失值的非参数方法
B.此方法可以适用于任何类型的数据（连续、离散）
C.即使数据量比较大的情况，这个方法也会很快
D.这方法虽然效果比较好，但是相比均值填充的方法来讲，效率就太低了

分析：MissForest思路：利用已知变量数据当做特征，将缺失变量当做标签，其中在标签中有数值的数据为训练集，缺失数据标签部分为测试机，然后通过随机森林去更新缺失值。列对应变量、行对应于观测值，它是随机森林算法的另一种基于机器学习的数据插补法。

2. （二级题）在区间估计的时候，如果其他条件不变，提高抽样估计的置信水平，其精确度将

A.保持不变
B.随之扩大
C.随之减小
D.无法确定

3. 在朴素贝叶斯当中，什么是先验概率

A.P(Y)
B.P(X|Y)
C.P(X)
D.P(Y|X)

4. 在评价多元线性回归模型拟合程度的时候，我们主要查看（）的数值

A.R方
B.修正R方
C.F值
D.t值

5. 在评价多元线性回归模型拟合程度的时候，我们主要查看（）的数值

A.修正R2
B.R2
C.SSE
D.SSR

6. 在欧式空间中，到所有样本点的欧式距离的平方和最小的点是

A.均值
B.众数
C.中位数
D.方差

7. 在某回归模型中，数据分析员希望探索分类变量各类别之间增长率的差异，采用以下哪种方法比较合适？

A.加入固定效应变量
B.加入工具变量
C.加入高次项
D.加入交互项

8. 在模型评估过程中，有哪些主要的验证方法

A.Holdout检验
B.交叉检验
C.自助法
D.以上均正确

9. 在逻辑回归中需要做哑变量处理的数据类型是

A.分类数据
B.数字型数据
C.所有数据
D.以上都不是

10. 在逻辑回归分析中，使用的估计方法是

A.最小二乘法
B.最大二乘法
C.极大似然法
D.有效估计法

分析：最大似然估计，是通过已知的结果反推出导致最大结果的参数，极大似然估计是概率论在统计学中的应用，它提供了一种给定观察数据来评估模型参数的方法，即：模型已确定、参数未确定。通过若干次实验，利用实验的某个参数使得样本出现的概率最大，称为极大似然估计。逻辑回归有标签，即从已知结果入手去推导能够获得最大概率的结果参数，只要找到这个参数，那么该模型就可以较为准确地预测数据了。

11. 在考虑长距离依赖方面，下面哪个模型效率最高

A.循环神经网络
B.卷积神经网络
C.Transformer模型
D.以上三个模型都一样

12. 在决策树算法中，ID3使用哪个度量来进行特征的选择

A.信息熵
B.信息增益比
C.信息增益
D.Gini指数

13. 在进行数据分析时，经常要分割训练集、测试集，并且还要考虑数据预处理、特征抽取、特征工程等，那么要仔细分析这些步骤之间的相互联系。关于训练集、测试集、数据预处理、特征工程，请回答以下问题关于缺失值填充与训练集、测试集的关系，下面正确的操作是

A.先用全数据的均值填充缺失值，然后随机分割训练集、测试集
B.先随机分割训练集、测试集，然后用各自集合的均值填充缺失值
C.先随机分割训练集、测试集，然后用训练集的均值填充缺失值
D.先随机分割训练集、测试集，然后用测试集的均值填充缺失值

14. 在基本K均值算法里，当邻近度函数采用以下哪种距离的时候，合适的质心是簇中各点的中位数？

A.曼哈顿距离
B.平方欧几里得距离
C.余弦距离
D.Bregman散度

15. 在基本K均值算法里，当邻近度函数采用（）的时候，合适的质心是簇中各点的中位数？

A.曼哈顿距离
B.平方欧几里得距离
C.余弦距离
D.Bregman散度

16. 在获取训练（Train）集时，一般使用什么方法

A.有放回抽样
B.无放回抽样
C.取数据的前60%部分
D.取数据的后60%部分

17. 在回归模型中，通过最小化真实值和预测值之间的SSE来求解参数的方法叫做

A.梯度下降法
B.最小二乘法
C.拟牛顿法
D.坐标下降法

18. 在关联分析中，频繁项集的评估标准不包括

A.支持度
B.关联度
C.提升度
D.置信度

19. 在二分类的问题上，一般是以何值做为分类概率的门坎值

A.0
B.0.3
C.0.5
D.1.0

20. 一个词越常出现在多篇文章中，其IDF会越接近

A.1
B.0
C.-1
D.10

分析：IDF是逆向文本概率，这个值是词语普遍性的重要性度量，越常出现在多篇文章反而证明该词不一定重要，所以IDF值越小

21. 一般情况下，以下哪些指标不用于聚类模型评价

A.正确率Accuracy
B.簇间不相似度
C.ARI
D.轮廓系数Sihouette Coefficient

22. 一般情况下，以下哪些指标不用于分类模型中的模型评价

A.正确率Accuracy
B.查全率Recall
C.命中率Precision
D.轮廓系数Sihouette Coefficient

23. 一般，K-NN最近邻算法在（）情况下效果较好

A.样本较多但典型性不好
B.样本较少但典型性好
C.样本呈团状分布
D.样本呈链状分布

24. （题目重复）亚马逊（Amazon）网站中所作的书籍推荐（Also Bought），是利用下列何种算法

A.分类（Classification）
B.聚类（Clustering）
C.关联（Association）
D.预测（Prediction）

25. 亚马逊（Amazon）网站中所作的书籍推荐（Also Bought），是利用下列何种算法

A.分类（Classifiction）
B.序列型样（Sequential Pattern）
C.分群（Clustering）
D.关联（Association）

哑变量变换主要解决的问题，说法错误的是

A.哑变量是一种变换技术，可以用于处理名义变量的解释问题
B.logistic回归中经常需要哑变量变换，但线性回归相对较少需要这类变换
C.哑变量一种类变换的同城。如虚拟变换，glm变换等
D.哑变量变换过程中，需要对其中一列进行删除，才能解释其实际意义

27. 修正的R方相对于R方的改进在于

A.改进对于拟合度的低估
B.改进对于拟合度的高度
C.适用于面板数据
D.适用于时序数据

28. 小王为了运用逻辑回归进行反欺诈识别，直接从数据库中运用简单随机抽样的方法进行抽样，并得到了10000条样本，其中7000作为训练，3000作为测试，在测试集中小王的正负样本整体预测准确率为99.7%，下边表述错误的是

A.模型的整体预测正确率很高，因此可以认为模型结果是可靠的
B.有必要进一步查看混淆矩阵
C.有必要查看正负样本比例
D.反欺诈问题中，运用简单随机抽样是欠妥的

29. 下面有关向量空间模型（VSM）的描述中，错误的是

A.以向量来表示文档后，两者的夹角余弦值越小说明相似度越高
B.文本特征词的向量权重可通过TF-IDF实现，从而保留文本词序结构信息
C.在向量空间模型中，当有新文档加入时，需要重新计算特征词的权重
D.基于向量的文本相似度计算中，除了内积、Dice系数、夹角余弦，还可以用Jaccard方法

30. 下面有关分类算法的精确率、召回率、F1值的描述，错误的是？

A.精确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率
B.召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率
C.精确率、召回率和F值取值都在0和1之间，数值越接近于0，查准率或查全率就越高
D.为了解决精确率和召回率冲突问题，引入了F1分数

31. 下面哪种是Attention的结构方式

A.Bahdanau Attention
B.Bruce Attention
C.Aule Attention
D.Elomd Attention

缺解析

32. 下面哪种不是RNN的变体

A.1 V N
B.N V N
C.N V M
D.2 V N

33. 下面哪一项不是自然语言处理的基础任务？

A.分词
B.词性标注
C.语法分析
D.信息检索

34. 下面哪项技能可用于单词归一化，即把单词转换为其基本形式？

1.词形还原（Lemmatization）
2.Levenshtein
3.词干提取（Stemming）
4.深测法（Soundex)

A.1 和 2
B.2 和 4
C.1 和 3
D.1、2 和 3

35. 下面哪个统计机器学习模型可以用于文本分类

A.HMM
B.CRF
C.SVM
D.LDA

36. 下面哪个过程不属于方法论描述的数据挖掘阶段

A.业务理解
B.数据准备
C.建模
D.商业报告

37. 下面哪个工具库主要用来中文分词

A.wordcould
B.jieba
C.Matplotlib
D.seaborn

38. 下面哪个变量属于名义变量

A.客户所在行业
B.客户年龄
C.客户收入
D.客户级别

39. 下面关于知识图谱的说明中，正确的是：

A.知识图谱的存储一般采用三元组表结构方式，主要用于连接、嵌套等复杂查询
B.知识图谱的构建方法有自顶向下和自底向上，前者是需要专家建模，后者可以由机器建模
C.利用Neo4j的Cyhper语法可直接使用关系表检索算法实现快查询
D.知识图谱中相似节点的发现主要是基于PageRank算法的思想

40. 下边关于贝叶斯分类器描述错误的是

A.以贝叶斯定理为基础
B.是基于后验概率，推导出先验概率
C.可以解决有监督学习的问题
D.可以用极大似然估计法解贝叶斯分类器

分析：贝叶斯分类是先验概率。

41. 下面关于ID3算法中描述错误的是

A.ID3算法要求特征必须离散化
B.信息增益可以用熵，而不是 GINI 系数来计算
C.选取信息增益最大的特征，作为树的根节点
D.ID3算法是一个二叉树模型

42. 下面关于 bagging 和 boosting 说法正确的是

A.bagging中间树不是相互独立，而 boosting 的中间树是相互独立
B.两者都使用随机特征子集来创建中间树
C.在 boosting 中可以生成并行树，因为它们是相互独立的
D.无论任何数据，bagging 总数优于 boosting

43. 下列应用比较合适使用RNN模型N V 1变体实现的是

A.图像生成描述
B.文本分类
C.机器翻译
D.阅读理解

44. 下列应用比较适合使用RNN模型1 V N变体实现的是

A.图像生成描述
B.图像生成
C.机器翻译
D.阅读理解

45. 下列选项中不属于无监督分箱法的是

A.等距分箱法
B.等频分箱法
C.卡方分箱法
D.聚类分箱法

46. 下列属于无监督学习的是

A.k-means
B.SVM
C.最大熵
D.CRF

47. 下列属于定量数据的是

A.一个消费者调查中鞋子的品牌
B.一次考试的成绩
C.一篇文章的等级
D.一个篮球队员衣服上的数字

48. 下列哪种模型可以被用于解决文本相似度问题？

A.在语料中迅联一个词向量模型来对文本中呈现的上下文语境进行学习
B.训练一个词贷模型来对文本中的词频进行学习
C.创建一个文档-单词矩阵并且对每一个文本应用余弦相似性
D.上述所有方法均可

49. 下列哪种分类算法的训练结果最难以被人解读

A.线性回归（Linear Regression）
B.决策树（Decision Rules）
C.支持向量机（Support Vector Machine）
D.回归树（Regression Tree）

50. 下列哪种方法常用来预测连续独立变量

A.线性回归
B.逻辑回归
C.线性回归和逻辑回归
D.以上说法都不对

上一页机器学习-08 下一页机器学习-10

最后更新于4年前