机器学习-01

    1. 自然语言处理属于哪个学科领域?

    2. 下列关于因子分析与主成分的描述正确的是?

分析:主成分分析(Principal Component Analysis,PCA)是通过将原始变量转换为原始变量的线性组合,在保留主要信息基础上,达到简化和降维的目的,理论上主成分数量相对于原始数量更少。因子分析(Factor Analysis,FA)是一种数据简化技术,通过研究众多变量的内部依赖关系,探求观测数据的基本结构,并用少数的假想变量(因子)来表示原始数据。因子并非原始变量的简单取舍,而是一种新的综合、而且各个因子之间也没有线性关系。

    3. 下列关于判定系数R^2的描述正确的是?

分析

  • SST:总平方和

  • SSR:回归平方和

  • SSE:残差平方和 R2=SSRSSE=1SSESSTR^2 = \frac{SSR}{SSE} = 1 - \frac{SSE}{SST},所以SSE越小,R2R^2越大。

    4. 下列关于逻辑回归正确的是?

分析:逻辑回归如果要解决多分类问题,可采用OVR和OVO方法,它本质是使用回归的方式解决分类问题。OVR = One Vs Rest、OVO = One Vs One。

    5. 下列关于聚类挖掘技术的说法中,正确的是?

分析:组内距离小(同类相似度大)、组间距离大(异类相似度小)。

    6. 下列关于方差分析的描述中,不正确的是?

分析:方差分析(ANOVA)又称变异数分析,用于两个或两个以上样本均数差别的显著性校验,所以不是比较各组总体方差是否相等,而是不等。

    7. 下列关于单因素方差分析阐述正确的是?

分析:利用了方差比较的方法分析,通过假设检验过程来判断多个因素是否对因变量产生显著性影响,单因素分析是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。

    8. 下列关于大数据的分析理念的说法中,正确的是?

分析:数据大而全,走绝对数据。

    9. 下列关于Ridge和Lasso正确的是?

分析

  • Ridge计算所有参数平方和,L2范数,岭回归;

  • Lasso则计算所有参数绝对值之和,L1范数,Lasso回归。

    10. 下列关于K-Means聚类算法说法正确的有?

    11. 下列对信贷场景中的评分卡说法正确的有?

    12. 关于标准化得分的论述正确是?

分析:不是所有的模型都需要统一量纲,这个很容易理解。

    (题目有误)13. 关于SVM的损失函数正确的是?

    14. 关于Kmeans的优缺点正确的是?

分析:K-Means计算速度很快,这是优点,缺点如下:

  • 对离群值十分敏感

  • 并不是一个最优方案(不一定能找到最优解)

  • 只能处理数值型数据

    15. 根据购物篮分析的目标,最有用的规则是那些具有高支持度、信度和提升度的规则,除此之外,也需要参考Lift(提升度),以下关于“Lift”说法正确的是

    16. 对原始的KMeans来说,以下正确的是

分析:聚类算法,无标签值,算法的目的就是计算出每一类的标签值。

    17. 对与数据集来说的话,如果出现共线性,以下说法正确的是

分析:此处最小二乘法通常指普通最小二乘法,这种算法是不可以处理共线性问题的,一旦有共线性,必须要有理有据,如VIF过高,此时就只能使用Ridge、Lasso来处理。

    18. 对于Ridge和Lasso来说,下列正确的是

    19. 对于原始Kmeans的缺陷来说,以下正确的是

    20. 对于一个多分类模型,可以如何选择训练集?

    21. 对于信息增益,决策树分裂节点,下面说法正确的是?

分析:信息熵代表随机变量的复杂度(不确定度)、条件熵代表在某一个条件下,随机变量的复杂度,而决策树的信息增益就是:信息熵+条件熵;所以决策树算法中,关键就是每次选择一个特征,特征有多个,按什么标准来选择特征后,信息增益最大(信息不确定性减少的程度最大)。错误:纯度越高,表示不确定的信息越少,所以更少的信息就可以区分,根本不需要更多的信息;反之纯度低,内部的信息熵更大,这种情况下不确定的信息越多,才需要更多的信息区分。

    22. 对于说法正确的是

分析:主成分分析本质是切换坐标系,然后去掉一些方差很小的坐标轴,所以PCA的目的并不是特征选择,而是特征抽取,抽取出来的特征是上帝视角,而这些特征人无法发现。它的理论是:在信号处理中认为信号具有较大的方差,而噪声具有较小的方差,信噪比就是信号与噪声的方差比,越大越好,大的比值更容易区分信号和噪声

    23. 对于决策树来说,过拟合是什么现象

分析:和过拟合无关。

    24. 对于多项式和高斯贝叶斯来说正确的是

分析:朴素贝叶斯有三个常用模型:高斯贝叶斯、多项式贝叶斯、伯努利贝叶斯,贝斯分类可以除了可以处理连续型特征,同样可以处理类别型特征。

  • 「连续」高斯分布:在贝叶斯分类中,高斯模型就是用来处理连续型特征变量的,当使用此模型时,我们会假定特征属于高斯分布,然后基于训练样本计算特征均值和标准差,这样就可以得到此特征下每一个属性值的先验概率。

  • 「分类」多项式分布:与高斯分布相反,多项式模型主要适用于离散特征的先验概率计算,简单来说就是贝叶斯定理求条件概率+拉普拉斯平滑。

  • 「文本分类」伯努利分布:在伯努利模型中,所有特征的取值都会变成0或1,如果特征本身并不是0或1,则会自动设定某个阈值,将低于阈值地设为0,高于阈值地设为1,从而将特征0-1化。然后在所有训练样本中计算0-1的概率,作为特征的条件概率。

    25. 对于SVM来说,正确的是?

分析:SVM训练速度很慢,它是一种知名的二元线性/非线性分类方法,它使用一个非线性转换将原始数据映射到高维度的特征空间中,然后在高维度特征空间中找出一个最佳线性分割超平面(MMH)将两类数据分开。所以SVM无法直接支持多分类,如果要支持多分类有两种解决办法:

  • One-Against-Rest

  • One-Against-One

    26. 对于KNN算法来说,缺点是什么

    27. 对于KNN来说,它的缺点是什么

分析:常用算法

    28. 对于KMeans来说正确的是

    29. 对于Kmeans来说,下列正确的是

分析:Kmeans是聚类算法,无监督学习,它会不断迭代计算以达到最终聚类的效果,但不产生任何中间结果。

    30. 对数值字段做离散化,有哪些优点

    31. 从方向上,逐步回归可以分为以下几类

分析:逐步回归是使用模型方式做特征选择的其中一种,模型方式做特征选择主要目的是解决特征的共线性(Collinearity)问题:

  • 决策树:Decision Tree

  • 随机森林

  • XGBoost

  • 逻辑回归中的逐步回归

    • 向前法(Forward),逐步选择

    • 向后法(递归,Backward),逐步删除

    • 双向法(Bi-Direcation)

    32. 超参数有哪些调优方法

分析:四种主流超参数优化方法(主要和搜索最佳超参数相关):

  • 传统/手动调参

  • 网格搜索

  • 随机搜索

  • 贝叶斯搜索

    33. 贝叶斯信念网络(BBN)有如下哪些特点?

    34. 按照远近程度来聚类需要明确两个距离?

    35. XGBoost中对树进行剪枝的方法?

    36. XGBoost实例(非Sklearn API)里如何查看特征重要性?

    37. XGBoost模型已经过拟合的解决办法有?

分析:XGBoost训练模型时,如果过拟合可采用下边方式调参:

  • 控制模型的复杂度(主要是降低树模型的复杂度)

    • 减小max_depth参数

    • 增大min_child_weight参数,该值越大则一片叶子上节点数量越少

  • 增加随机性,使得模型在训练时对噪声不敏感,如:subsample, colsample_bytree

  • 减小学习率learning rate,同时增加estimator参数。

    38. XGBoost防止过拟合的方法有?

    39. XGBoost处理不平衡数据的方法有?

分析:对不平衡的数据进行训练时,通常会考虑一下如何处理不平衡数据能使训练出来的结果较好,能想到的比较基础的方法是过采样和下采样来环节数据中正负样本比。

  • 使用SMOTE方式处理样本均衡

  • 调整scale_pos_weight参数处理样本均衡

    40. word2vec中的Skip-Gram模型和CBOW模型的主要区别是?

分析:CBOW和Skip-Gram互逆。

    41. ROC曲线是基于( )来判断逻辑回归模型的效果

分析:ROC曲线的轴:

  • X轴:1 - Specificity(特异度),FPR

  • Y轴:Sensitivity(灵敏度),TPR

    42. Kmeans算法的优化,关于BiKmeans以下正确的是

    43. Kmeans迭代的核心思想是

    44. C4.5算法继承了ID3算法的优点,并在以下哪几方面对ID3算法进行了改进?

    45. bagging生效的必要条件有哪些?

分析集成学习思路是在对新的示例进行分类时,把若干单个分类器集成起来,通过对多个分类器的分类结果进行某种组合来决定最终分类,以取得比单个分类器更好的性能,如果把单个分类器比作一个决策者的话,集成分类就等价于多个决策者共同进行一项决策。 袋装(Bagging)又称为自助聚类(Bootstrap AGGregatING),它是一种根据均匀概率分布从数据集中重复抽样(有放回)的技术,为每一个基分类器都构造出一个和训练集同样大小但不相同的训练集,从而训练不同的基本分类器。

    46. Apriori算法的计算复杂度受( )影响

    47. ABC公司的数据团队为了预测销售量,进行了一次多元线性回归,模型结果无效,可能的原因有

    48. 数据挖掘项目分析中,我们需要

    49. 20Newsgroups数据集是机器学习研究中常用的标准数据集,它使用20个Usenet新闻单位上几个月发布的18828个消息,共18828个文件,如果要对该数据集使用mahout进行文本分类,错误的做法是

最后更新于