机器学习-02

    1. 影响分类正确率的因素为何?

    2. 因子旋转的目的是?

分析:建立因子分析模型的目的不仅是要找出公因子以及对变量进行分组,更重要的是要知道每个公因子的意义,以便对实际问题做出科学分析。因子旋转即因子载荷矩阵AA,用一个正交矩阵TT右乘AA实现对因子载荷矩阵的旋转(一次正交变换即对应坐标系的一次旋转),旋转后因子载荷矩阵结构简化,更容易对公因子进行解释。结构简化就就是重新分配每个因子所解释的方差的比例,使每个变量仅在一个公因子上有较大的载荷,在其他公因子上的载荷较小,即是使因子载荷矩阵每行或者每列元素的平方值向0或1两极分化

    3. 以下有关随机森林算法的说法正确的是

分析:任何机器学习算法都会有一个过拟合问题(Overfitting),随机森林不会发生过拟合不代表不考虑过拟合问题;不发生过拟合的原因:在建立每一棵决策树的过程中,有两点需注意:采样与完全分裂

  • 首先是两个随机采样的过程,RF对输入的数据进行行、列的采样:

    • 对于行采样使用有放回的方式,也就是在采样得到的样本集合中,可能有重复的样本。假设输入样本N个,那么采样的样本也是N个,这样使得在训练的时候每一棵树的输入样本都不全是全部的样本,使得相对不容易出现过拟合(不代表不出现)

    • 然后进行列采样,从MM个特征中选择mm个。

  • 之后是对采样后的数据使用完全分裂的方式建立决策树,这样决策树的某一个叶子结点要么无法分裂,要么指向同一个分类。

一般决策树算法都有一个重要步骤:剪枝,但随机森林中不这样干,由于之前的两个随机采样过程保证了随机性,所以就算不剪枝,也不会出现过拟合(Over-Fitting),按这种算法得到的随机森林中每一棵都是很弱的,但组合起来就很厉害。 森林中每一棵决策树就是一个精通于某个领域的专家,这样在随机森林中有了很多个精通不同领域的专家,对一个新的问题(输入数据),可以用不同的角度去看待它,最终由各个领域的专家投票得到结果。——所以决策树之间相互独立最好

    4. 以下算法中,属于有监督算法的是

    5. 以下算法中,属于无监督算法的是

    6. 以下对ID3算法的描述,何者不正确

分析:ID3的缺点

  • 特征数量的值很多,更喜欢字段有很多分支。

  • 所有字段都是类别型(数值型需离散化),即它不能处理数值型(连续型)属性。

  • 它无法处理缺失属性(空值、无值)。

  • 它无法处直接处理噪声数据,抗噪能力弱。

    7. 下列对C4.5算法的描述,何者为真

缺分析:对答案A有疑惑。

    8. 下表是一个购物篮,假定支持度阈值为40%,其中( )是频繁闭项集。

篮子
项目

1

abc

2

abcd

3

bce

4

acde

5

de

    9. 我们在构建一个模型的过程中,需要追求的目标有:

分析:降低模型复杂度,并非提升模型复杂度。

    10. 我们想要减少数据集中的特征数,选择以下适合的方案,主要参考可见数据预处理的过滤法、嵌入法和包装法:

    11. 我们可以用哪种方式来避免决策树过度适配(Overfitting)的问题(过拟合问题)

分析:逐步回归法的基本思想是通过删除变量中不太重要又和其他变量高度相关的变量,降低多重共线性;它的好处是统计上不显著的解释变量剔除,最后保留在模型中的解释变量之间多重共线性不明显,而且对呗解释变量有更好的解释贡献,但是特别注意,逐步回归可能因为删除了重要的相关变量而导致设定偏误。

    12. 文本数据特点及难点?

    13. 为了分析客户的类型,分析师小A进行了一次聚类分析,在评估模型结果时,( )

分析

  • 组间平方和BSS越大(Between Sum of Squares)

  • 组内平方和WSS越小(Within Sum of Squares)

    14. 特征选择的目标有

    15. 随机森林可以用于以下的哪一种工作?

    16. 随机森林的优点

    17. 数据挖掘项目分析中,我们需要

    18. 数据挖掘的预测建模任务主要包括哪几大类问题?

    19. 数据挖掘的预测建模任务主要包括哪几大类问题?

    20. 数据降维的优点有哪些?

分析

降维的优点:

  • 减少数据维度和需要的存储空间

  • 节约模型训练计算时间

  • 去掉冗余变量,提高算法的准确度

  • 有利于数据可视化

    21. 属于簇有效性的监督度量是:

    22. 如何做xgboost模型的交叉验证

    23. 如何增加KNN的模型准确度

分析:特征数据归一化的原因:

  • 归一化后加快了梯度下降求最优解的速度

  • 归一化有可能提高精度

而在KNN中,归一化可以提高结果的准确度。

    24. 如何来优化Kmeans?

分析:K-means算法是数值的、非监督的、非确定的、迭代的,常用的优化改进算法:

  • K-means++

  • ISODATA

  • Kernel K-means

  • Bi K-means(二分K-means)

  • Mini Batch K-means(适合大数据的聚类算法)

    25. 如果SVM模型欠拟合,以下方法哪些可以改进模型

分析:通常欠拟合可以理解成模型太简单,所以:

  • 数据层面:增加新特性如组合、泛化、相关性、高次特征来增加假设空间。

  • 模型层面:增加模型复杂度

    • SVM中的核函数(SVM还可以增大惩罚参数C的值)

    • 决策树不进行剪枝

    • DNN使用更多网络层

    • 去掉正则化项或减小正则化参数

    • 增加训练轮数

    26. 请问要符合什么条件才可被称为关联规则?

    27. 朴素贝叶斯公式中一个重要的前提条件是什么

分析:该题存疑,理论上只有答案C是对的,各个特征必须是独立的,遵循独立性假设条件。

  1. 某大样本数据集的缺失值占比约10%。数据分析师小A首先删除了所有缺失值的样本,建立了回归模型。然后用某种方法进行了缺失值处理后,重新建立了回归模型,发现模型的VIF值较之前有了很大的增幅。请问小A有可能采用的那种方法进行的缺失值处理?( )

分析:VIF、Variance Inflation Factor,又称为方差膨胀系数,用来衡量多元线性回归模型中的多重共线性程度,它表示回归系数估计量的方差与假设自变量间不线性相关时方差相比的比值。

  • VIF值如果全部小于10(严格是5),则说明模型不存在多重共线性。

  • VIF值大于10小于100则存在较强的多重共线性。

  • VIF值大于100则存在严重的多重共线性。

一般解决办法:

  1. 手动移除共线性自变量

  2. 逐步回归法

  3. 增加样本容量

  4. 岭回归

  5. 使用因子分析合并变量

所以此时处理缺失值最好的方式是使用模型方式填补,均值填补、忽略缺失值的极大似然估计都不属于模型方式。

    29. 逻辑回归和SVM的联系与区别,正确的是?

分析:区分:

  1. 逻辑回归通过输出预测概率后根据阈值进行类别判断,SVM则直接输出分割超平面(MMH),然后使用0/1函数对距离分类,不能直接输出概率值,如果要SVM输出概率值则要求特殊处理,可根据距离大小归一化概率输出。

  2. 逻辑回归可以根据多阈值进行多分类,SVM则无法直接处理多分类问题(推广后可以)。

  3. SVM在训练过程中只需要支持向量,依赖的训练样本量小,而逻辑回归则需要所有的训练样本,训练时开销更大。

  4. 逻辑回归(LR)是参数模型,SVM是非参数模型。

    30. 类别型数据的处理方式有?

分析:分箱是数值型特征的处理方式。

    31. 决策树中对于节点的不纯度的衡量指标有?

分析:决策树模型中节点不纯度指标主要有三:错分率、Gini指数、熵

    32. 决策树有哪些常用的启发函数?

    33. 决策树的算法需考虑哪两个重点?

    34. 决策树当中在做特征选择的过程中用的什么来描述不纯度

    35. 决策树(Decision Tree)算法,通常可以用来解决何种问题?

    36. 假定某同学使用Navie Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是?

分析:主要原因是存在重复的类别后,破坏了原本的独立性假设,NB的核心在于所有分类之间是独立的,这样才可以使用概率拆分。参考:https://blog.csdn.net/xcsdnj2713/article/details/101690421arrow-up-right

  • 朴素贝叶斯NB

    • 优点

      • 发源于古典数学理论,有稳定的分类效率

      • 对小规模数据表现很好,能处理多分类任务,还适合增量训练,尤其是数据超出内存,可以一批批去增量训练。

      • 对缺失数据不敏感,算法简单,常用于文本分类

      • 对结果解释容易理解

    • 缺点

      • 需要计算先验概率

      • 分类决策存在错误率

      • 对输入数据的表现形式很敏感

      • 由于使用了样本属性独立性假设,所以如果属性相关联会表现不好

  • 决策树

    • 优点

      • 简单直观,生成的决策树很直观

      • 基本不需预处理,也不需要提前归一化处理缺失值

      • 使用决策树预测的代价很低

      • 相对于神经网络之类的黑盒分类模型,决策树在逻辑上可解释更强

      • 对异常点的容错能力好,健壮性高

      • 可以交叉验证剪枝选择模型提高泛化能力

    • 缺点

      • 容易过拟合导致泛化能力不强,可通过设置节点最小样本数和限制树的深度改进

      • 决策树会因为样本发生一点点改动就导致整个树结构剧烈改变,可通过集成学习方法解决

      • 寻找最优的决策树一直是一个NP难题,通过启发式方法容易陷入局部最优,可通过集成学习方法解决

      • 比较复杂的关系,决策树很难学习,如异或,这种就只有走神经网络了

      • 如果特征样本比例过大,生成的决策树容易偏向这些特征,调整样本权重来改善

  • SVM

    • 优点

      • 解决高维特征的分类问题和回归问题很有效,在特征维度大于样本数时依然有很好的效果

      • 仅仅使用一部分支持向量来做超平面决策,无需依赖全部数据

      • 有大量核函数可使用,从而可以很灵活解决各种非线性的分类回归问题

      • 样本量不是海量数据时,分类准确度高、泛化能力强

    • 缺点

      • 对缺失数据很敏感

      • 非线性问题的核函数选择没有通用标准,无法找到最合适的核函数

      • SVM在样本量很大时,核函数映射维度很高时,计算量过大,不太适用

      • 如果特征维度远大于样本数,则SVM表现一般

    37. 集成学习分哪几种?

    38. 集成方法中的提升法(Boosting),可用在下列哪些方法中?

    39. 基于内容的推荐算法生成推荐的过程主要依靠( )

分析:基于内容的算法的核心步骤:

  1. 内容的特征提取

  2. 用户偏好计算

  3. 内容召回

  4. 物品排序

    40. 机器学习中L1正则化和L2正则化的区别是

    41. 回归模型中存在多重共线性你如何来解决这个问题?

    42. 关于支持向量机(Support Vector Machine)的叙述,下列何者正确

分析:SVM学习分类器的复杂度一般表示训练阶段的复杂度,取决于特征的维度,而并非数据本身的维度。

    43. 关于稀疏标识,下面说法正确的是:

    44. 关于强化学习的说法,哪些是正确的?

    45. 关于拟合度,正确的是

    46. (非机器学习)关于面向对象编程语言的特点,以下正确的是

    47. 关于决策树正确的是

分析:标准公式:Entropy(t)=i=0c1p(it)log2p(it)Entropy(t) = - \sum\limits_{i=0}^{c-1} p(i|t) \log_2 p(i|t)

    48. 关于决策规则的说法,哪些是正确

    49. 关于层次聚类,下列说法不正确的是

分析:很直观的一种算法,一层一层进行聚类从下而上把小的Cluster合并聚集,也可以从上而下将大的Cluster进行分割(一般从下而上用法更多)。

最后更新于