机器学习-04

    1. Xgboost通常使用哪种模型作为算法的基分类器

分析:CART(Classficiation And Regression Tree)分类回归树,是一种构建二元分类的回归树算法,多数情况下,XGBoost将CART回归树作为基分类器(Tree-based Booster),它不断生成新的回归树。

    2. Transformer 模型使用的哪种注意力机制(参考Transformer模型

    3. ROC曲线的横坐标为____,纵坐标为____。

分析 标准答案有问题,此处应该是A不是B

    4. (无图,题错)ROC曲线的y轴,实际上可以由每个阈值下混淆矩阵的()计算而来

    5. N-Gram的优点

    6. (题目错)NewSQL数据库的特征不包含

    7. Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是?

    8. Naive Bayes是属于数据挖掘中的什么方法?

    9. Navie Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:

    10. Logit值的上下界是多少

    11. KNN作为距离类有监督学习模型,以距离来衡量观测的相似度,下面哪些特征需要在建模之前转变成哑变量?

分析:哑变量又称虚拟变量(Dummy Variable)、虚设变量、名义变量,用来反应质的属性的一个人工变量,也是量化过后的自变量,通常取值为0或1,引入哑变量可使线性回归模型变得更复杂,但对问题描述更简单,哑变量的作用:

  • 分离异常因素的影响

  • 检验不同属性类型对因变量的作用

  • 提高模型的精度

    12. K-NN最近邻方法在哪种情况下效果较好

存疑

    13. KNN和KMeans算法分别属于哪类机器学习模型

    14. KNN和Kmeans算法都属于哪类模型

    15. GloVe模型与word2vec、fastText模型相比的特点是

分析:Glove根据原始句子计算词贡献度矩阵,关键词顺序就是在文章中的原始顺序,将稀疏矩阵转换成稠密矩阵,Word2Vec是生成词向量,而Glove引入了概率模型计算贡献度。

    16. fastText模型与word2vec、Glove模型相比的特点是

    17. CRF(条件随机场)和HMM(隐马尔可夫模型)之间的主要区别是什么?

分析:参考:https://zhuanlan.zhihu.com/p/88690315arrow-up-right CRF是判别模型,对问题的条件概率分布建模 HMM是生成模型,对联合概率的分布建模(HMM可以看做CRF的一种特殊情况)

    18. C4.5算法主要解决的是什么问题

    19. bootstrap数据是什么意思?(提示:考“bootstrap”和“boosting”区别)

「起点」下边问题重复,保留原始

    20. bootstrap数据的意思是

    21. bootstrap数据的含义是

    22. bootstrap抽样法是如何操作的?

「终点」

    23. boosting算法中的结构比较类似与电路中的哪种结构?

    24. BIRCH是一种:

分析:BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)全称利用层次方法的平衡迭代规约聚类法,适用于数据量大,类别K比较多的情况。

    25. BalanceCascade算法是基于何种算法之上的算法

    26. Apriori算法,最有可能可用来解决以下哪个问题?

    27. AprioriAll算法,可用来解决何种问题?

    28. 因子分析与主成分分析相比,其优势在于

    29. 以下不属于线性回归假设前提条件的是

分析:线性回归的假设前提:

  • X和Y变量之间存在线性关系

  • 错误项Error是正态分布的

  • 错误术语彼此独立

  • 同方性:误差项具有恒定的方差

  • 最小多重直线度

    30. 主成分分析中,下列哪种数据预处理过程是必须做的

    31. 因子分析中,使用主成分法进行什么计算

    32. “apple”和“angle”之间的编辑距离是?(参考:K-最近邻:KNNarrow-up-right

    33. 最原始的最小二乘法的算法的缺点是什么?

    34. 主成分个数选择的大致标准是

    35. 主成分分析优劣的判断标准是

    36. 直线回归方程 y = a + bx 中的 b 称为回归系数,回归系数的作用是

    37. 支持向量机(SVM)算法,通常可以用来解决何种问题?

    38. 正则化的惩罚有

    39. 针对K均值算法的缺点,以下哪个选项是正确的?

    40. 在整个随机森林的算法过程中,以下哪两个随机过程可使随机森林很大程度上避免了拟过拟合现象的出现?

    41. 在一个二分类的分类预测问题中,如果二分类中的某一类占比超过80%,那么可以考虑哪些方法去改进?

    42. 在消费者分类中,以下哪几项属于RFM分析模型()

    43. 在线性回归的模型中

    44. 在文本数据上,以下哪些词编码的方法有考虑到一个词与前后词之间的关系?

    45. 在统计模式识别分类问题中,当先验概率未知时,可以使用()?

缺分析

    46. 在评价不平衡问题分类的度量方法有如下几种?

    47. 在逻辑回归模型中,我们时常对连续变量进行离散化处理,这么做可能会出现以下哪些结果。

    48. 在聚类分析中,为了使不同量纲、不同取值范围的数据能够放在一起进行比较,通常需要对原始数据进行变换处理。常用的变换算法有

    49. 在建立回归方程时,往往需要经过一系列的统计检验,下面说法正确的是

    50. 下列关于主成分分析的表述正确的有

分析:高度相关就造成共线了,所以高度相关是明显错误

最后更新于