机器学习-03

    1. 以下哪种特征是贝叶斯学派的观点?

    2. 以下哪一类属于机器学习模型?

分析:熵增模型是物理学模型,和数据分析无关。

    3. 以下哪些算法需要用到验证数据(Validation Data)来构建模型?

缺分析

    4. 以下哪些算法是有监督学习算法

    5. 以下哪些数据挖掘的工具,在数据处理及建立模型时是不需要编程?

    6. 以下哪些模型是属于机器学习模型?

    7. 以下哪些可用来决定聚类的群集数

    8. 以下哪些机器学习算法可以不对特征做归一化处理

分析:实际应用中:

  • 通过梯度下降法求解的模型都需要归一化,如线性回归、逻辑回归、KNN、SVM、神经网络;

  • 而一般树模型不需要归一化(不关心变量的值),它只关心变量的分布和变量之间的条件概率,如决策树、随机森林(Random Forest)。

    9. 以下哪些分类方法不会挑选输入变量

    10. 以下哪些方法属于对异常值或极端值的处理方法

分析:三种侦测方法:

  • 离群值为过大或过小的值,对数据排序就可以发现

  • 平均值法,在平均值±3×\pm 3 \times标准偏差之内的值可视为正常值

  • 四分位法:IQR=Q3Q1IQR = Q3 - Q1Q3Q3代表75%的值,Q1Q1代表25%的值,正常范围为:Q11.5×IQR Q3+1.5×IQRQ1 - 1.5 \times IQR ~ Q3 + 1.5 \times IQR,四分位的优势在于适用于小数据

离群值处理方法

  • 将离群值视为空值

  • 天花板/地板法(盖帽法),选项B和D都属于

  • 函数校正法,将离群值做log10\log_{10},压缩数据(对数指数都是压缩数据)

    11. 以下哪些方法可以返回数据中非重复国家名的数量?

    12. 以下哪两个算法最容易受到离群值的影响?

分析:KNN算法由于要计算距离,结果会受极值影响。而等宽分箱和等分(等深)分箱原理如:

  • 等宽分箱:每组数据的上边界和下边界差值一样,极值会拉开这个差值

  • 等深分箱:每组数据中包含的数量一样(和值本身无关,不受极值影响)

    13. 以下哪个是对分类变量进行归类压缩的常见原因

分析:模型中分类变量一般要处理成[0,1]形式的哑变量,如果变量水平本身较多,那么哑变量的水平个数也会变多,这种情况去构建模型有问题,所以必须对分类变量的水平进行压缩处理。一般有两种方法:

  • 哑变量编码方法

  • 基于目标变量的WOE转换 变量压缩遵循的基本原则:将缺乏变异性的数据分类压缩处理掉,避免过多哑变量产生。

    14. 以下哪个方法属于盖帽法

    15. 以下描述中,对梯度解释正确的是

    16. 以下可以有效解决过拟合的方法是

分析:过拟合需要降低模型复杂度,第二个增加特征数量反而会增加模型复杂度,而训练更多迭代次数是解决欠拟合的一种手段。

    17. 以下聚类在实际应用中正确的是

分析:后两个预测都是回归问题,非聚类问题。

    18. 以下何者为侦测离群值的方法

分析:盖帽法、空值填充、函数压缩是解决办法,不是侦测办法,区分离群值的侦测和解决。

    19. 以下何者是数据编码中(Data Coding)常用的技术

分析:知识发现六个步骤中:

  • 扩充化属于第二阶段字段扩充:Attribute enrichment

  • 离散化、一般化、二值化、正规化都属于数据编码:Data coding

六个阶段依次:

  1. 字段选择:Attribute Selection

  2. 数据清洗:Data cleaning

  3. 字段扩充(特征工程):Attribute enrichment

  4. 数据编码:Data coding

  5. 数据挖掘:Data mining

  6. 报告:Reporting

    20. 以下关于主成分分析的描述正确的有

分析:第一主成分贡献率不能超过1(算的是概率),但特征值一般都要按照大于1来选择。

    21. 以下关于灵敏度和特异度的说法,正确的是

分析:灵敏度、特异度、ROC曲线,反应的是某种检验指标或者模型对正常/异常人群的分类能力,而这种分类的能力就是:指标在两个人群分布的重叠度,重叠越少,该指标对人群的分类能力越强,该指标越好,反之越差。 理想的指标是两个人群分布完全无重叠,此时ROC曲线下面积为1,从混淆矩阵出发理解灵敏度/特异度:

  • 灵敏度 = TPTP+FP\frac{TP}{TP + FP}:提升灵敏度是为了更好地将真正有病的人筛选出来

  • 特异度 = TNTN+FN\frac{TN}{TN + FN}:提升特异度是为了更好地将正常的人筛选出来

要同时提升灵敏度和特异度,就是指标/模型本身足够好,在人群中分布的重叠很小,这样的指标/模型分类能力强,自然灵敏度和特异度更高。

    22. 以下关于决策树正确的是

分析:机器学习中,参考:https://blog.csdn.net/zlsjsj/article/details/80306584arrow-up-right

  • 参数模型:假设可以最大程度简化学习过程,与此同时也限制可以学习到的是什么,这种算法简化成一个已知函数的形式,称为参数机器学习算法

    • 常见例子:

      • 逻辑回归LR

      • LDA(线性判别分析)

      • 感知机

      • 朴素贝叶斯

      • 简单神经网络

    • 优点:

      • 简单:这些算法容易理解且可解释性很强

      • 快速:参数模型可以很快从数据中学习

      • 少量数据:它们不需要太多训练数据,甚至可以更好拟合有权限的数据

    • 局限性:

      • 约束:这些算法选择一种函数形式高低限制模型本身

      • 有限的复杂度:这种算法更适合简单的问题

      • 不适合在实践中,这些算法不太可能匹配潜在的目标函数(映射)

  • 非参数模型:不对目标函数的形式做出假设的算法称为非参数机器学习算法,通过不假设,它可以从训练数据中自由地学习任何函数形式。

    • 常见例子:

      • KNN

      • 决策树,如CART、C4.5

      • SVM

    • 优点:

      • 灵活性:拟合大量不同的函数形式

      • 能力:关于潜在的函数不需要假设

      • 性能:可以得到用于预测的高性能模型

    • 局限性:

      • 更多的数据:需要更多训练数据用于估计目标函数

      • 慢:训练很慢,常常需要训练更多参数

      • 过拟合:更多的过度拟合训练数据风险。

    23. 以下关于对应分析的表述,正确的是

分析:对应分析也称为关联分析,R-Q型因子分析,是一种多元相依变量统计分析技术,通过分析由定性变量构成的交互汇总表来揭示变量之间的联系。对应分析可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析是将行、列变量的交叉表转换为一张散点图,从而将表格中的变量间关系信息用各散点的空间位置关系表现出来。

    24. 以下关于K-means聚类说法正确的是

    25. 选择模型时,可能需要考虑以下哪些因素

    26. 小A对产品特征进行了一次聚类分析,结果并不理想,以下哪些方法有助于活得更有效的聚类结果

    27. (大数据题目)下面哪些概念是HBase框架中使用的

  1. 下面哪些方法可以用于关键词抽取

分析:常用的关键词提取算法,参考:https://blog.csdn.net/abc50319/article/details/101550114arrow-up-right

  • TF-IDF算法:它需要一个现成的语料库,统计每个词在语料库中的多个文档中出现过

    • 基于统计的计算方法

    • 用于评估一个文档中某个词对文档的重要程度

    • 可解释性很强:当一个词对一个文档越重要,那么它越可能是文档的关键词

    • 越重要不代表一定要越多

  • TextRank算法:可脱离语料库,仅对单篇文档进行分析就可以提取文档关键词,最早用于文档自动摘要

    • 基本思想来源于Google的PageRank算法

    • PageRank算法是一种网页排名算法,考虑链接数量和链接质量

    • PageRank是有向无权图,TextRank进行自动摘要是有权图

  • LSA/LSI/LDA:这些是主题模型,前两种算法无法获取隐含意思,而主题模型的维度是:词-主题-文档维度的关系

    • LSA/LSI:LSA-Latent Semantic Analysis:潜在语义分析;LSI-Latent Semantic Index:潜在语义索引;LSA主要通过SVD奇异值分解,将词、文档映射到一个低维度的语义空间,挖掘出词、文档的浅层语义信息,而对文档进行更本质的表达。它的缺点:

      • SVD计算复杂度高,特征空间维度较大,计算效率低下

      • LSA得到的分布信息是基于已有数据集,新文档进入,需要对整个空间重新训练

      • LSA对词的频率分布不敏感、物理解释性稀薄

    • LDA:主题模型的主流方法,LDA Latent Dirichlet Allocation,隐含狄利克雷分布,该算法假设文档中主题的先验分布和主题中词的先验分布都服从狄利克雷分布。先验分布 + 数据(似然)= 后验分布

    29. 下面模型训练的一些常用技巧中,错误的是:

错误:随机梯度下降能得到局部最优,不容易跳出局部极小值点。

错误:和梯度饱和问题无关

分析:对比三种不同的梯度下降,参考:https://www.cnblogs.com/lliuye/p/9451903.htmlarrow-up-right

  • 批量梯度下降(Batch Gradient Descent, BGD):最原始的形式,在每一次迭代时使用所有样本来进行梯度更新。

    • 优点

      • 一次迭代是对所有样本进行计算,此时利用矩阵进行操作可实现并行

      • 由全局数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向。当目标函数为凸函数时,BGD一定能够得到全局最优。

    • 缺点

      • 当样本数目mm很大时,每迭代一步都要对所有样本计算,训练很慢

  • 随机梯度下降(Stochastic Gradient Descent, SGD):不同于批量梯度下降,随机梯度下降是每次迭代使用一个样本来对参数进行更新,使得训练速度加快。

    • 优点

      • 由于不是在全部训练数据上的损失函数,而是在每轮迭代中,随机优化某一条训练数据上的损失函数,这样每一轮参数的更新速度大大加快。

    • 缺点

      • 准确度下降,由于即使在目标函数为强凸函数的情况下,SGD仍然无法做到线性收敛

      • 可能会收敛到局部最优,由于单个样本并不能代表全体样本的趋势

      • 不易于并行实现 小批量梯度下降(Mini-Batch Gradient Descent, MBGD):批量梯度下降和随机梯度下降的这种办法,主要思路是:使用batch_size个样本来对参数更新。

    • 优点

      • 通过矩阵运算,每次在一个batch上优化神经网络参数并不会比单个数据慢太多

      • 每次使用一个batch可以大大减小收敛所需要的迭代次数,同时可以使收敛到的结果更加接近梯度下降的效果。

      • 可实现并行

    • 缺点

      • batch_size的不当选择可能会带来一些问题。

    30. 下面关于词法分析的描述中,正确的是:

分析:语义依存分析(Semantic Dependency Parsing, SDP),分析句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现。使用DP(语义依存)刻画句子语义好处在于不需要去抽象词汇本身,而是通过词汇所承受的语义框架来描述该词汇,而元的数目相对词汇来说数量总是少了很多的。

缺分析

    31. 下面关于 bagging 和 boosting 说法正确的是

分析:Bagging是相互独立,Boosting不是。

分析:大多数场景下Boosting优于bagging。

    32. 下列有关K-means算法的叙述何者有误

分析:K-Means运算很快,简单,可解释,只可接受数值型字段。

    33. 下列有关bagging的选项哪个正确

分析:Bagging的各个预测函数中没有权重,Boosting才有权重。

    34. 下列哪种算法可同时用来做分类以及预测数值?

    35. 下列哪一类数字特征容易受到极值影响

    36. 下列哪些选项是K-Means聚类的缺点

分析:K-Means算法

  • 优点:

    • 原理简单,实现容易,收敛速度快

    • 聚类效果很好

    • 算法可解释性很强

    • 主要需要调整的参数只有K值

  • 缺点:

    • K值的选取不太容易把握

    • 对于不是凸的数据集比较难收敛(对比DBSCAN算法)

    • 如果各隐含类别数据不平衡,或者隐含类别方差不同,则聚类效果不好

    • 采用迭代方法,得到的有可能只是局部最优

    • 对噪声和异常点十分敏感

    • 初始聚类中心的选择

    37. 下列哪些信贷产品适用行为评分卡?

    38. 下列哪些算法可用于分类问题?

    39. 下列哪些是通过聚类多个分类器的组合来提高分类准确率的技术?

    40. 下列哪些是SVM的核函数(Kernal Function)?

    41. (题型错误)下列哪些命令是Mahout中用于实现贝叶斯文本分类算法

    42. 下列哪些公式是决策树用来挑选字段时使用的?

    43. 下列哪些方法是常见解决分类模型之类别不平衡的问题的方法?

分析代价敏感学习是指为不同类别的样本提供不同权重,从而让机器学习模型进行学习的一种方法。通常的机器学习方法中,所有样本的权重一般都是相等的,但是在某些特定的任务中也可以为样本设置不同的权重,这两类任务都具有严重的数据不平衡,因此要尽量避免用户分类为好用户,可以在算法学习时,为怀用户样本设置更高的学习权重,让任务集中分析坏用户的分类,提高对坏用户的查全率。 代价敏感学习是在原始标准代价损失函数的基础上,增加一些约束和权重条件,使最终代价的数值计算朝一个特定的方向偏置(Bias),而这个偏置就是业务场景中更关注的部分。

    44. 下列何种算法可以帮助我们做数值的预测(Prediction)?

    45. 下列何者为有监督机器学习

    46. 下列何者为无监督机器学习

    47. 下列何者为分层聚类(Hierarchical Methods)方法

分析:非排他性分类:

  • 分层聚类(层次聚类):

    • Single Linkage

    • Complete Linkage

    • Average Linkage

    • Controid

    • Ward's

  • 划分聚类(分割聚类)

    • K-Means

    • K-Medoids(PAM)

    • Kohonen Self-Organizaing Maps(SOM)

    48. 下列何者是通过聚集多个分类器的组合来提高分类准确率的技术

    49. 下列何者是K最近邻(K-Nearest Neighborhood)方法的特点

分析:KNN特点,参考:https://blog.csdn.net/zrh_CSDN/article/details/80956920arrow-up-right

  • 优点

    • 理论成熟、思想简单,既可做分类也可做回归

    • 可用于非线性分类

    • 训练时复杂度比支持向量机等低

    • 和NB相比,对数据无假设,准确度高,对异常点不敏感

    • 由于KNN依靠周围有限的临近样本,而不是靠判别类域的方法来确定所属类别,因此对于类域的交叉或重叠比较多的待分类样本集来说,KNN更适合

    • 该算法适用于样本容量比较大的类域的自动分类,而样本容量比较小的时候容易误分类

  • 缺点

    • 计算量大,尤其是特征很多的时候

    • 样本不平衡时,对稀有类别预测准确率低

    • KD树,球树之类的模型需要大量内存

    • 是懒散学习方法,基本不学习,预测时速度比逻辑回归之类的慢

    • 相比决策树模型,KNN的可解释性不强

最后更新于