机器学习-10

1. 下面有关分类算法的精确率、召回率、F1值的描述，错误的是

A.精确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率
B.召回率是指检索出的相关文档树和文档中所有的相关文档数的比率，衡量的是检索系统的查全率
C.精确率、召回率和 F 值取值都在0和1之间，数值越接近于0，查准率或查全率就越高
D.为了解决精确率和召回率的冲突问题，引入了F1分数

2. 主成分分析算法认为数据的信息是包含在（）中

A.方差
B.均值
C.误差
D.极值

3. 主成分分析计算分为根据相关系数和（）两种方式

A.协方差矩阵
B.决定系数
C.方差
D.标准差

4. 知识发掘处理（Knowledge Discovery Process）的执行顺序，下列何者是正确的

A：数据清洗
B：数据选择
C：数据编码
D：数据扩充
E：数据挖掘
F：结果呈现

A.D -> C -> A -> B -> E -> F
B.A -> B -> C -> D -> E -> F
C.D -> A -> C -> B -> E -> F
D.B -> A -> D -> C -> E -> F

5. 在预测性数据分析中，当解释变量为分类变量，被解释变量是连续变量时，所采用的分析技术是：

A.方差分析
B.卡方分析
C.逻辑回归
D.协方差分析

6. 在因子分析中，为了帮助解释因子，我们可以使用

A.因子得分
B.因子负载
C.因子旋转
D.主成分分析

7. 在一个维的空间中，最好的检测离群点的方法是

A.作正态分布概率图
B.作盒型图
C.马氏距离
D.作散点图

8. 在线性回归模型中，如果判定系数越大，下列说法错误的是

A.估计标准误差较小
B.拟合的越好
C.数据点到线性回归方程距离越小
D.多重共线性越严重

分析：判定系数（Coefficient of Determination），也称为可决系数或决定系数，是指在线性回归中，回归平方和与总离差平方和的比值，数值等于相关系数的平方，它是对估计的回归方程拟合优度的度量。在统计学中用于度量因变量的变异中可自由变量解释部分所占的比例，由此来判断统计模型的解释力。判定系数只能说明列入模型的所有解释变量对因变量的联合程度的影响，不说明模型中单个解释变量的影响程度。

9. 在线性回归后，要检验残差中是否还存在信息（高次项、异方差等），如何绘制回归模型的残差图最快速有效

A.因变量与预测值的绘图
B.因变量与标准化残差值的绘图
C.因变量的预测值与标准化残差值的绘图
D.每个自变量与标准化残差值的绘图

10. 在线性回归分析中，使用的估计方法是

A.最小二乘法
B.最大二乘法
C.极大似然法
D.有效估计法

此题系统答案有错，参考009部分的答案以及网上参考答案，线性回归分析使用的是最小二乘法，逻辑回归和多元线性回归使用的是极大似然法。

11. 在系统聚类中R2是指：

A.组内离差平方和除以组间离差平方和
B.组间离差平方和处于组内离差平方和
C.组间离差平方和除以总离差平方和
D.组间均方除以总均方

12. 在文本特征表示方法中，下面说法正确的是

A.TF-IDF统计当前文档和语料库的词频来实现特征词提取和词之间关系的确认
B.用户信息作为特征词和类别之间的测度，如果特征词属于某类，则它们的互信息量最大
C.Glove采用三层神经网络进行训练，最后一层采用霍夫曼树（Huffuman）来预测
D.卡方统计量是基于显著性统计性来选择特征，所以不会出现低频词缺陷

缺分析

13. 在文本分类任务中，下面哪些措施可以有效提升分类准确率

A.词频特征
B.依存信息
C.词性信息
D.以上都是

14. 在使用线性回归模型（OLS）时，无需特别关注的情况是

A.异方差性
B.多重共线性
C.残差自相关性
D.查全率

15. 在使用某些模型前，需要使用降维方法来减少变量个数，以下哪些模型不能用来降维

A.PCA（主成分分析）
B.FA（因子分析）
C.MDS（多维尺度分析）
D.贝叶斯算法

16. （题目重复）在使用历史数据构造训练（Train）集、验证（Validation）集和检验（Test）集时，训练数据集的作用在于

A.用于对模型的效果进行无偏的评估
B.用于比较不同模型的预测准确度
C.用于构造预测模型
D.用于选择模型

17. 在使用历史数据构造训练（Train）集、验证（Validation）集和检验（Test）集时，测试数据集的作用在于

A.对模型的效果进行无偏的评估
B.评估模型的预测准确度
C.构造预测模型
D.选择模型

18. 在使用对应分析方法时，（）会帮助提升结果的有效性

A.采用卡方检验作为预分析
B.精简变量
C.异常值处理
D.以上都是

19. 在使用ROC曲线判断模型的优劣时，以下哪个叙述是正确的

A.ROC曲线下方的面积越大，说明模型效果越好
B.ROC曲线下方的面积越小，说明模型效果越好
C.ROC曲线越接近45度斜线，说明模型效果越好
D.ROC曲线一般在45度斜线下方

20. 在使用K-Means进行异常消费行为识别时，不能对数据进行的处理步骤是

A.学生标准化
B.极差标准化
C.Tukey转换
D.所有货币单位换算为统一标准

21. 在缺失值处理时，我们可以使用均值填补、中位数填补、missForest方法填补等，关于missForest方法，下面错误的是

A.这是利用随机森林来填补缺失值的方法
B.此方法可以适用于任何类型的数据（连续、离散）
C.即使数据量比较大的情况，这个方法也比其他方法速度快
D.这方法虽然效果比较好，但是相比其他方法，效率就太低了

22. 在二分类的问题上，一般是以何值作为分类概率的门坎值

A.0
B.0.3
C.0.5
D.1.0

23. 在处理后台数据时，有一列客户输入变量名为“您的爱好”，共有5个不同的选项，但是有70%左右的客户这一项的数据没有填写，那么那一项的处理方式更合理

A.建模前先将这个变量删除
B.将这一项没有填写的客户归为第6类
C.用前5项的众数替换缺失值
D.提出这部分未填写爱好的客户信息

24. 在KNN算法上进行预测概率的推估时，会采用哪一种方法，以保证每一类的预测概率不为0

A.数据正规化（Data Normalization）
B.拉普拉斯修正法（Laplace Correction）
C.数据一般化（Data Generalization）
D.以上皆非

25. 在K-means聚类分析中，当聚类效果不能令人满意时，下列说法中不正确的是

A.优化初始点的选取
B.重新检查数据清洗的是否充分
C.多次重复运行，直到有满意的结果
D.检查异常值、量纲的影响是否还存在

26. 与独热向量表示方法相比，词向量标识的优势是

A.向量维度低
B.向量是稠密的
C.词语向量之间的点乘可以代表二者相似度
D.以上都是

27. 有一条关联规则为 A -> B，此规则的置信水平（Confidence）为60%，则代表：

A.买B商品的顾客中，有60%的顾客会同时购买A
B.买A商品的顾客中，有60%的顾客会同时购买B
C.同时购买A,B两商品的顾客，占所有顾客的60%
D.两商品A,B在交易数据库中同时被购买的几率为60%

28. 有一条关联规则为 A -> B，此规则的信赖度（Confidence）为60%，则代表：

A.买A商品的顾客中，有60%的顾客会同时购买B
B.同时购买A,B两商品的顾客，占所有顾客的60%
C.买A商品的交易中，有60%的交易有同时购买B
D.量商品A,B在交易数据库中同时被购买的几率为60%

29. （数学问题）有两个样本点，第一个点为正样本，它的特征向量是（0,-1）；第二个点为负样本，它的特征向量是（2,3），从这两个样本点组成的训练集构建一个线性 SVM 分类器的分类面方程是

A.2x + y = 4
B.x + 2y = 5
C.x + 2y = 3
D.2x - y = 0

30. 斜率为：-1/((3+1)/(2-0)) = - 1/2；中点为：（1,2）；所以，分类超平面为：x+2y=5；有关随机梯度下降法说法正确的是

A.import statsmodels.formula.api中使用的是随机梯度下降法
B.from sklearn import linear_model使用的是正则化法
C.from sklearn import linear_model使用随机梯度下降法、正则化法、OLS等算法的综合
D.sklearn中的每个模型只能使用一种算法

31. 有关回归模型表达正确的是

A.回归模型是因果模型，可以处理因果问题
B.回归模型不是因果模型，更无法判断任何因果问题
C.回归模型是因果模型，但因果判断源于理论
D.回归模型不是因果模型，而因果判断源于数据

32. 用于分类与回归应用的主要算法有

A.Apriori算法、HotSpot算法
B.RBF神经网络、K均值法、决策树
C.K均值法、SOM神经网络
D.决策树、BP神经网络、贝叶斯

33. 用来表示numpy中的缺失值的是

A.nan
B.none
C.np.nan
D.-

34. 用简单随机重复抽样方法抽取样本单位，要使置信度从90%（1.65）提高到95%（1.96）说法正确的是

A.样本量不变
B.样本量需要增加约20%
C.样本量需要增加约30%
D.样本量需要增加约40%

参考必要样本容量的计算

35. 因子分析中，使用主成分法进行什么计算

A.因子方差的估计
B.因子旋转角度的估计
C.原始因子载荷矩阵的估计
D.因子的误差的估计

36. （非数据分析题）以责任感、胜任感和成就感为特征的马斯洛激励理论的层次称为：

A.社会
B.尊重
C.生理
D.自我实现

37. 以下有关数据挖掘与统计的算法区别正确的是

A.统计模型法计算变量的统计量，如均值、标准差等用于构建模型
B.最小二乘法擅长处理多个自变量的情况，寻求残差平方和最小化，主要用于大数据的场景
C.梯度下降法，以非迭代的方式，最小化模型误差
D.正则化方法只能用于大型数据分析的场景

38. 一下叙述正确的是

A.数据的确实都是由机器引起的
B.降维的主要手段包括主成分分析、因子分析这些算法
C.异常数据就是错误的数据
D.在线性回归建模的时候，一般不做数据变换，只有在优化的时候才需要

39. 以下说法正确的是

A.SVM对噪声（如来自其他分部的噪声样本）具备鲁棒性
B.在adaboost算法中，所有被分错样本的权重更新比例相同
C.boosting和bagging都是组合多个分类器投票的方法，二者都是根据单个分类器的正确率确定其权重
D.给定n个数据点，如果其中一半用于训练，一半用于用户测试，则训练误差和测试误差之间的差别会随着n的增加而减少

40. 以下说法正确的是：一个机器学习模型，如果在训练集上有较高准确率，就可以完全说明这个分类器是好的

如果增加模型复杂度，那么模型的测试错误率总是会降低
如果增加模型复杂度，那么模型的训练错误率总是会降低
如果减少模型复杂度，那么模型的测试错误率总会提高

A.1
B.2
C.3
D.1和3

41. 一下属于因子分析计算过程的步骤有

A.估计因子载荷矩阵
B.进行因子旋转
C.估计公共因子（因子得分）
D.以上都是

42. 一下属于关联分析的是

A.CPU性能预测
B.购物篮分析
C.自动判断鸢尾花类别
D.股票趋势建模

43. 以下是哪一个聚类算法的算法流程：

①构造K-最近邻图。
②使用多层图划分算法划分图。
③repeat：合并关于相对互联性和相对接近性而言，最好地保持簇的自相似性的簇。
④until：不在有可以合并的簇，

A.MST
B.OPOSSUM
C.Chameleon
D.Jarvis - Patrick (JP)

缺分析

44. 以下容易受到极端值影响的是

A.众数
B.算数平均数
C.中位数
D.以上都是

45. 以下哪种方法不能用于特征选择？

A.VarianceThreshold方差选择
B.归一化选择
C.根据决策树中的feature_important特征重要程度选择
D.逻辑回归中的系数大小关系选择

46. 以下那一个是贝氏分类法的模型？

A.TAN
B.HMM
C.LSA
D.TWO-STEP

分析：TAN算法解决了条件之间的部分属性依赖的问题。互信息：信息论中一个很有用的信息度量，它可以看出是一个信息量里包含了另一个随机变量的信息量。朴素贝叶斯假设概率相互独立，没有考虑互信息，而TAN算法就是为了解决这个问题二诞生，它的实现并不简单，先要计算各个属性对应的互信息，要进行贝叶斯网络的构建（TAN中最难的部分）
根据各个属性对应的互信息值降序排列，依次取出其中节点对，遵循不产生环路的原则，构造最大权重跨度树，直到选择完n-1条边为止（因为总共n个属性节点，n-1条边可确定），按照互信息之从高到低选择的原因就是要保留关联性更高的关联依赖性的边。
上述过程构成的是一个无向图，接下来为整个无向图确定边的方向，选择任意一个属性节点做根，由根节点向外的方向为属性节点之间的方向。
为每个属性节点添加父节点，父节点就是分类属性节点，至此贝叶斯网络构造完成。

47. 以下哪些算法是基于规则的分类器？

A.C4.5
B.KNN
C.Naive Bayes
D.ANN

48. 以下哪些算法是分类算法

A.DBSCAN
B.C4.5
C.K-Means
D.EM

49. 以下哪些领域会涉及到统计学的应用

A.金融
B.生物
C.客户管理
D.以上都是

50. 以下哪些分类方法可以较好地避免样本的不平衡问题？

A.KNN
B.SVM
C.Bayes
D.神经网络

51. 以下哪些不是评估估计量的方面

A.有效性
B.一致性
C.无偏性
D.收敛性

52. 以下哪项关于决策树的说法是错误的？

A.冗余属性不会对决策树的准确率造成不利的影响
B.子树可能在决策树中重复多次
C.决策树算法对于噪声的干扰非常敏感
D.寻找最佳决策树是NP完全问题

53. 以下哪个指标可以用于回归树中的模型比较

A.Adjusted R2
B.F-meansure
C.AUC
D.Precision & Recall

54. 以下哪个指标不能用于线性回归中的模型比较

A.F-meansure
B.调整R方
C.AIC
D.BIC

55. 以下哪个算法是决策规则的算法

A.Multilayer Perceptron
B.JRip
C.M5P
D.以上皆非

56. 以下哪个算法是过采样的算法？

A.EasyEnsemble
B.Borderline-SMOTE
C.AdaCost
D.BalanceCascade

57. 以下哪个算法是Google测量中心性的算法？

A.Klout
B.PageRank
C.Birch
D.以上皆非

上一页机器学习-09 下一页Level III模拟（一）

最后更新于4年前