机器学习-03

1. 以下哪种特征是贝叶斯学派的观点？

A.从主观角度出发
B.从客观角度出发
C.观察者不知道事件结果
D.关注先验概率

2. 以下哪一类属于机器学习模型？

A.分类模型
B.聚类模型
C.熵增模型
D.回归模型

分析：熵增模型是物理学模型，和数据分析无关。

3. 以下哪些算法需要用到验证数据（Validation Data）来构建模型？

A.C 5.0
B.CART
C.BP神经网络
D.支持向量机（Support Vector Machine）

缺分析

4. 以下哪些算法是有监督学习算法

A.朴素贝叶斯
B.决策树
C.Apriori算法
D.SOM算法

5. 以下哪些数据挖掘的工具，在数据处理及建立模型时是不需要编程？

A.IBM SPSS Modeler
B.Python
C.SAS Enterprise Modeler
D.Weka

6. 以下哪些模型是属于机器学习模型？

A.分类模型
B.聚类模型
C.熵增模型
D.回归模型

7. 以下哪些可用来决定聚类的群集数

A.R-Squared（R2）
B.Semi-Partial R-Squared
C.Root-Mean-Square Standard Deviation（RMSSTD）
D.Sihouette Coefficient（轮廓系数）

8. 以下哪些机器学习算法可以不对特征做归一化处理

A.随机森林
B.逻辑回归
C.SVM
D.GBDT

分析：实际应用中：
通过梯度下降法求解的模型都需要归一化，如线性回归、逻辑回归、KNN、SVM、神经网络；
而一般树模型不需要归一化（不关心变量的值），它只关心变量的分布和变量之间的条件概率，如决策树、随机森林（Random Forest）。

9. 以下哪些分类方法不会挑选输入变量

A.决策树（Decision Tree）
B.神经网络（Neural Network）
C.关联规则（Association Rules）
D.贝式分类法（Bayes Net）

10. 以下哪些方法属于对异常值或极端值的处理方法

A.先聚类，然后用同类的均值填充
B.距离均值大于三倍标准差的值使用三倍标准差的值替代
C.用均值填充
D.超出1.5倍IQR的值使用1.5倍IQR的值替代

分析：三种侦测方法：
离群值为过大或过小的值，对数据排序就可以发现
平均值法，在平均值 $\pm 3 \times$ 标准偏差之内的值可视为正常值
四分位法： $IQR = Q3 - Q1$ ， $Q3$ 代表75%的值， $Q1$ 代表25%的值，正常范围为： $Q1 - 1.5 \times IQR ~ Q3 + 1.5 \times IQR$ ，四分位的优势在于适用于小数据
离群值处理方法
将离群值视为空值
天花板/地板法（盖帽法），选项B和D都属于
函数校正法，将离群值做 $\log_{10}$ ，压缩数据（对数指数都是压缩数据）

11. 以下哪些方法可以返回数据中非重复国家名的数量？

A.len( drinks.country.value_counts() )
B.drinks.country.nunique()
C.len( drinks.country.unique() )
D.len( drinks.country )

12. 以下哪两个算法最容易受到离群值的影响？

A.KNN
B.决策树
C.等宽装箱法
D.等分装箱法

分析：KNN算法由于要计算距离，结果会受极值影响。而等宽分箱和等分（等深）分箱原理如：
等宽分箱：每组数据的上边界和下边界差值一样，极值会拉开这个差值
等深分箱：每组数据中包含的数量一样（和值本身无关，不受极值影响）

13. 以下哪个是对分类变量进行归类压缩的常见原因

A.避免某分类中Y缺乏变异的问题
B.避免在模型中出现过多的哑变量
C.避免解释变量共线性
D.避免显性样本过少

分析：模型中分类变量一般要处理成[0,1]形式的哑变量，如果变量水平本身较多，那么哑变量的水平个数也会变多，这种情况去构建模型有问题，所以必须对分类变量的水平进行压缩处理。一般有两种方法：
哑变量编码方法
基于目标变量的WOE转换变量压缩遵循的基本原则：将缺乏变异性的数据分类压缩处理掉，避免过多哑变量产生。

14. 以下哪个方法属于盖帽法

A.删去大于三倍标准差的值
B.距离均值大于三倍标准差的值使用三倍标准差的值替代
C.删去1.5倍IQR的值
D.超出1.5倍IQR的值使用1.5倍IQR的值替代

15. 以下描述中，对梯度解释正确的是

A.梯度是一个向量，有方向有大小
B.求梯度就是对梯度向量的各个元素求偏导
C.梯度只有大小没有方向
D.梯度只有方法没有大小

16. 以下可以有效解决过拟合的方法是

A.增加样本数量
B.增加特征数量
C.训练更多的迭代次数
D.采用正则化方法

分析：过拟合需要降低模型复杂度，第二个增加特征数量反而会增加模型复杂度，而训练更多迭代次数是解决欠拟合的一种手段。

17. 以下聚类在实际应用中正确的是

A.目标用户群体分类
B.不同产品的价值组合
C.预测用户购买金额
D.预测下个季度的营销投入

分析：后两个预测都是回归问题，非聚类问题。

18. 以下何者为侦测离群值的方法

A.平均值法
B.盖帽法
C.四分位法
D.取Log值

分析：盖帽法、空值填充、函数压缩是解决办法，不是侦测办法，区分离群值的侦测和解决。

19. 以下何者是数据编码中（Data Coding）常用的技术

A.数值型属性离散化
B.类别型属性一般化
C.数值型属性正规化
D.数值型属性扩充化

分析：知识发现六个步骤中：
扩充化属于第二阶段字段扩充：Attribute enrichment
离散化、一般化、二值化、正规化都属于数据编码：Data coding
六个阶段依次：
字段选择：Attribute Selection
数据清洗：Data cleaning
字段扩充（特征工程）：Attribute enrichment
数据编码：Data coding
数据挖掘：Data mining
报告：Reporting

20. 以下关于主成分分析的描述正确的有

A.主成分分析选取能够最大化解释数据变异的成分
B.在主成分分析中，对应最大特征值的特征向量，其方向是协方差矩阵变异最大的方向
C.主成分分析算法中第一个主成分对应的不应超过1

分析：第一主成分贡献率不能超过1（算的是概率），但特征值一般都要按照大于1来选择。

D.我们一般使得保留的前K个主成分累积能够解释数据80%以上的变异

21. 以下关于灵敏度和特异度的说法，正确的是

A.灵敏度越高，逻辑回归模型越有效
B.灵敏度越低，逻辑回归模型越有效
C.特异度越高，逻辑回归模型越有效
D.特异度越低，逻辑回归模型越有效

分析：灵敏度、特异度、ROC曲线，反应的是某种检验指标或者模型对正常/异常人群的分类能力，而这种分类的能力就是：指标在两个人群分布的重叠度，重叠越少，该指标对人群的分类能力越强，该指标越好，反之越差。理想的指标是两个人群分布完全无重叠，此时ROC曲线下面积为1，从混淆矩阵出发理解灵敏度/特异度：
灵敏度 = $\frac{TP}{TP + FP}$ ：提升灵敏度是为了更好地将真正有病的人筛选出来
特异度 = $\frac{TN}{TN + FN}$ ：提升特异度是为了更好地将正常的人筛选出来
要同时提升灵敏度和特异度，就是指标/模型本身足够好，在人群中分布的重叠很小，这样的指标/模型分类能力强，自然灵敏度和特异度更高。

22. 以下关于决策树正确的是

A.有参数模型
B.无参数模型
C.有损失函数
D.可以用来做回归或者分类

参数模型：假设可以最大程度简化学习过程，与此同时也限制可以学习到的是什么，这种算法简化成一个已知函数的形式，称为参数机器学习算法
常见例子：
逻辑回归LR
LDA（线性判别分析）
感知机
朴素贝叶斯
简单神经网络
优点：
简单：这些算法容易理解且可解释性很强
快速：参数模型可以很快从数据中学习
少量数据：它们不需要太多训练数据，甚至可以更好拟合有权限的数据
局限性：
约束：这些算法选择一种函数形式高低限制模型本身
有限的复杂度：这种算法更适合简单的问题
不适合在实践中，这些算法不太可能匹配潜在的目标函数（映射）
非参数模型：不对目标函数的形式做出假设的算法称为非参数机器学习算法，通过不假设，它可以从训练数据中自由地学习任何函数形式。
常见例子：
KNN
决策树，如CART、C4.5
SVM
优点：
灵活性：拟合大量不同的函数形式
能力：关于潜在的函数不需要假设
性能：可以得到用于预测的高性能模型
局限性：
更多的数据：需要更多训练数据用于估计目标函数
慢：训练很慢，常常需要训练更多参数
过拟合：更多的过度拟合训练数据风险。

23. 以下关于对应分析的表述，正确的是

A.对应分析的实质是通过降维投影，把列联表中的信息在低纬度中进行展开
B.对应分析是一种在主成分分析基础上发展而来的多元统计分析方法
C.对应分析更关心行与列之间关系的发现
D.在进行对应分析时，一般情况下信息的保留程度不应该低于80%

分析：对应分析也称为关联分析，R-Q型因子分析，是一种多元相依变量统计分析技术，通过分析由定性变量构成的交互汇总表来揭示变量之间的联系。对应分析可以揭示同一变量的各个类别之间的差异，以及不同变量各个类别之间的对应关系。对应分析是将行、列变量的交叉表转换为一张散点图，从而将表格中的变量间关系信息用各散点的空间位置关系表现出来。

24. 以下关于K-means聚类说法正确的是

A.K-means聚类需要提前给出聚类数量
B.K-means聚类完成之后可以根据类中心进行聚类效果的评价
C.K-means聚类在数据量较大的情况下，速度上比层次聚类更快
D.K-means聚类的类中心需要根据聚类结果和主观判断给出

25. 选择模型时，可能需要考虑以下哪些因素

A.模型的正确率（Accurate）
B.模型的泛化能力（General）
C.模型的稳定性（Stable）
D.模型的易理解性

26. 小A对产品特征进行了一次聚类分析，结果并不理想，以下哪些方法有助于活得更有效的聚类结果

A.标准化
B.主成分分析
C.因子分析
D.变量聚类

27. （大数据题目）下面哪些概念是HBase框架中使用的

A.HDFS
B.GridFS
C.Zookeeper
D.EXT3

下面哪些方法可以用于关键词抽取

A.TFIDF
B.LDA
C.TextRank
D.fastText

TF-IDF算法：它需要一个现成的语料库，统计每个词在语料库中的多个文档中出现过
基于统计的计算方法
用于评估一个文档中某个词对文档的重要程度
可解释性很强：当一个词对一个文档越重要，那么它越可能是文档的关键词
越重要不代表一定要越多
TextRank算法：可脱离语料库，仅对单篇文档进行分析就可以提取文档关键词，最早用于文档自动摘要
基本思想来源于Google的PageRank算法
PageRank算法是一种网页排名算法，考虑链接数量和链接质量
PageRank是有向无权图，TextRank进行自动摘要是有权图
LSA/LSI/LDA：这些是主题模型，前两种算法无法获取隐含意思，而主题模型的维度是：词-主题-文档维度的关系
LSA/LSI：LSA-Latent Semantic Analysis：潜在语义分析；LSI-Latent Semantic Index：潜在语义索引；LSA主要通过SVD奇异值分解，将词、文档映射到一个低维度的语义空间，挖掘出词、文档的浅层语义信息，而对文档进行更本质的表达。它的缺点：
SVD计算复杂度高，特征空间维度较大，计算效率低下
LSA得到的分布信息是基于已有数据集，新文档进入，需要对整个空间重新训练
LSA对词的频率分布不敏感、物理解释性稀薄
LDA：主题模型的主流方法，LDA Latent Dirichlet Allocation，隐含狄利克雷分布，该算法假设文档中主题的先验分布和主题中词的先验分布都服从狄利克雷分布。先验分布 + 数据（似然）= 后验分布

29. 下面模型训练的一些常用技巧中，错误的是：

A.如果训练样本量较大，可选用随机梯度下降（SGD），它考虑历史梯度信息，更容易跳出局部极小值点

错误：随机梯度下降能得到局部最优，不容易跳出局部极小值点。

B.在高度非凸的深度网络优化过程，主要难点不是局部最小值点，而是鞍点
C.用无监督数据作分层预训练（Layer-wise Pre-train）有助于解决梯度饱和问题

错误：和梯度饱和问题无关

D.Sigmod交叉熵损失函数适合于多标签学习，每一维彼此独立

批量梯度下降（Batch Gradient Descent, BGD）：最原始的形式，在每一次迭代时使用所有样本来进行梯度更新。
优点：
一次迭代是对所有样本进行计算，此时利用矩阵进行操作可实现并行
由全局数据集确定的方向能够更好地代表样本总体，从而更准确地朝向极值所在的方向。当目标函数为凸函数时，BGD一定能够得到全局最优。
缺点：
当样本数目 $m$ 很大时，每迭代一步都要对所有样本计算，训练很慢
随机梯度下降（Stochastic Gradient Descent, SGD）：不同于批量梯度下降，随机梯度下降是每次迭代使用一个样本来对参数进行更新，使得训练速度加快。
优点：
由于不是在全部训练数据上的损失函数，而是在每轮迭代中，随机优化某一条训练数据上的损失函数，这样每一轮参数的更新速度大大加快。
缺点：
准确度下降，由于即使在目标函数为强凸函数的情况下，SGD仍然无法做到线性收敛
可能会收敛到局部最优，由于单个样本并不能代表全体样本的趋势
不易于并行实现 小批量梯度下降（Mini-Batch Gradient Descent, MBGD）：批量梯度下降和随机梯度下降的这种办法，主要思路是：使用batch_size个样本来对参数更新。
优点：
通过矩阵运算，每次在一个batch上优化神经网络参数并不会比单个数据慢太多
每次使用一个batch可以大大减小收敛所需要的迭代次数，同时可以使收敛到的结果更加接近梯度下降的效果。
可实现并行
缺点：
batch_size的不当选择可能会带来一些问题。

30. 下面关于词法分析的描述中，正确的是：

A.语义依存分析主要用于分析词和词之间的依存关系，例如句子的主语、谓语、宾语等形式结构

分析：语义依存分析（Semantic Dependency Parsing, SDP），分析句子各个语言单位之间的语义关联，并将语义关联以依存结构呈现。使用DP（语义依存）刻画句子语义好处在于不需要去抽象词汇本身，而是通过词汇所承受的语义框架来描述该词汇，而元的数目相对词汇来说数量总是少了很多的。

B.基于统计的命名实体识别方法中，CRF利用Viterbi算法，速度更快，适用于实时性要求高的场景

缺分析

C.语义角色标注只关注句子主要谓词与论元之间的关系
D.基于词频统计的分词方法是一种无字典分词方法，器本质是一种全切分方法

31. 下面关于 bagging 和 boosting 说法正确的是

A.bagging的中树是相互独立，而boosting的中树不是相互独立
B.bagging可以使用随机特征子集
C.在boosting中可以生成并行树，因为它们是相互独立的

分析：Bagging是相互独立，Boosting不是。

D.无论任何数据，bagging总是优于boosting

分析：大多数场景下Boosting优于bagging。

32. 下列有关K-means算法的叙述何者有误？

A.运行速度较一些聚类方法（例如，PAM）慢
B.离群值将影响聚类的结果
C.起始群中心的选择将影响聚类的结果
D.能够接受类别型的字段

分析：K-Means运算很快，简单，可解释，只可接受数值型字段。

33. 下列有关bagging的选项哪个正确？

A.每轮训练，各个弱分类器重新有放回随机选取训练样本，且训练是随机
B.在训练中样本的权重保持一致
C.训练中各弱分类器可以并行训练
D.每个分类器权重一致

分析：Bagging的各个预测函数中没有权重，Boosting才有权重。

34. 下列哪种算法可同时用来做分类以及预测数值？

A.Neural Network
B.Decision Tree
C.Logistic Regression
D.Linear Regression

35. 下列哪一类数字特征容易受到极值影响

A.算数平均数
B.中位数
C.极差
D.四分位差

36. 下列哪些选项是K-Means聚类的缺点

A.对聚类中心的初始化比较敏感，不同的初始化带来不同的聚类结果。
B.K值需要首先人工确定（启发式）
C.只能处理服从标准正态分布的聚类
D.K-Means对于噪声比较敏感

分析：K-Means算法
优点：
原理简单，实现容易，收敛速度快
聚类效果很好
算法可解释性很强
主要需要调整的参数只有K值
缺点：
K值的选取不太容易把握
对于不是凸的数据集比较难收敛（对比DBSCAN算法）
如果各隐含类别数据不平衡，或者隐含类别方差不同，则聚类效果不好
采用迭代方法，得到的有可能只是局部最优
对噪声和异常点十分敏感
初始聚类中心的选择

37. 下列哪些信贷产品适用行为评分卡？

A.还款周期长的信贷产品
B.房贷、车贷
C.信用卡
D.短期还款周期的信用现金贷

38. 下列哪些算法可用于分类问题？

A.Regression Tree
B.SVM
C.Random Forest
D.Apriori

39. 下列哪些是通过聚类多个分类器的组合来提高分类准确率的技术？

A.袋装法（Bagging）
B.提升法（Boosting）
C.支持向量机（Support Vector Machine）
D.随机森林（Random Forest）

40. 下列哪些是SVM的核函数（Kernal Function）？

A.Linear
B.RBF
C.Sigmoid
D.Polynomial

41. （题型错误）下列哪些命令是Mahout中用于实现贝叶斯文本分类算法

A.seqdirectory
B.seq2sparse
C.trainnb
D.trainlogistic

42. 下列哪些公式是决策树用来挑选字段时使用的？

A.Information Gain
B.Gain Ratio
C.Sihouette Coefficient
D.Chi-Square Statistic

43. 下列哪些方法是常见解决分类模型之类别不平衡的问题的方法？

A.过采样（Oversampling）
B.强化学习（Reinforcement Learning）
C.代价敏感学习（cost-sensitive learning）
D.欠采样（Undersampling）

分析：代价敏感学习是指为不同类别的样本提供不同权重，从而让机器学习模型进行学习的一种方法。通常的机器学习方法中，所有样本的权重一般都是相等的，但是在某些特定的任务中也可以为样本设置不同的权重，这两类任务都具有严重的数据不平衡，因此要尽量避免用户分类为好用户，可以在算法学习时，为怀用户样本设置更高的学习权重，让任务集中分析坏用户的分类，提高对坏用户的查全率。代价敏感学习是在原始标准代价损失函数的基础上，增加一些约束和权重条件，使最终代价的数值计算朝一个特定的方向偏置（Bias），而这个偏置就是业务场景中更关注的部分。

44. 下列何种算法可以帮助我们做数值的预测（Prediction）？

A.Apriori
B.Decision Tree
C.Naive Bayes
D.Linear Regression

45. 下列何者为有监督机器学习

A.关联规则
B.决策树
C.序列分析
D.支持向量机

46. 下列何者为无监督机器学习

A.关联规则
B.决策树
C.序列分析
D.聚类

47. 下列何者为分层聚类（Hierarchical Methods）方法

A.PAM
B.Average Linkage Method
C.Ward's Method
D.SOM

分析：非排他性分类：
分层聚类（层次聚类）：
Single Linkage
Complete Linkage
Average Linkage
Controid
Ward's
划分聚类（分割聚类）
K-Means
K-Medoids（PAM）
Kohonen Self-Organizaing Maps（SOM）

48. 下列何者是通过聚集多个分类器的组合来提高分类准确率的技术

A.袋装法（Bagging）
B.提升法（Boosting）
C.支持向量机（Support Vector Machine）
D.随机森林（Random Forest）

49. 下列何者是K最近邻（K-Nearest Neighborhood）方法的特点

A.它以测试数据当做是它的模型
B.当训练数据量大时，它的执行效能依旧很好
C.它可以用来建立分类模型
D.它可以用来建立数字预测模型

优点：
理论成熟、思想简单，既可做分类也可做回归
可用于非线性分类
训练时复杂度比支持向量机等低
和NB相比，对数据无假设，准确度高，对异常点不敏感
由于KNN依靠周围有限的临近样本，而不是靠判别类域的方法来确定所属类别，因此对于类域的交叉或重叠比较多的待分类样本集来说，KNN更适合
该算法适用于样本容量比较大的类域的自动分类，而样本容量比较小的时候容易误分类
缺点：
计算量大，尤其是特征很多的时候
样本不平衡时，对稀有类别预测准确率低
KD树，球树之类的模型需要大量内存
是懒散学习方法，基本不学习，预测时速度比逻辑回归之类的慢
相比决策树模型，KNN的可解释性不强

上一页机器学习-02 下一页机器学习-04

最后更新于3年前

这有帮助吗？

机器学习-03

上一页机器学习-02 下一页机器学习-04

最后更新于3年前

这有帮助吗？