机器学习-05
最后更新于
这有帮助吗?
最后更新于
这有帮助吗?
1. 关于支持向量机SVM,下列说法错误的是
分析:参考:
2. 关于正则化和特征选择,下面说法正确的是
分析:关于Lasso/Ridge
范数
L2
L1
内容
平方和
绝对值
鲁棒性
稍差
更好
原理
唯一求解
基于特征选择
矩阵
平滑矩阵
稀疏矩阵
先验分布
Gaussian分布
Laplace分布
参数
不会太大或太小
某些参数为0
3. 关于香农熵,以下判断错误的是?
4. 关于梯度下降的优缺点描述不正确的是
分析:某些算法中学习率可动态调整。
5. 关于特征值与特征向量不正确的是
6. 关于随机森林描述不正确的是
7. 关于缺失值说法错误的是
分析:显然不对,缺失值不包含任何信息时有两种处理方法:当满足条件空值也是行为的一种呈现时,即使缺失数据占整个字段所有数据的比例大于50%,这种情况需要引入指示变量(Indicator Variable)而不是直接删除。
8. 关于缺失值,下列说法不正确的是
9. 关于密度函数说法错误的是
10. 关于逻辑回归对特征进行离散化,说法错误的是?
11. 关于决策树模型的说法,以下错误的是
12. 关于聚类分析效果的评估,下述描述中正确的是
分析: 轮廓系数(Sihouette Coefficient)是聚类效果好坏的一种评价方式,最佳值为1,最差为-1,接近0表示重叠的集群,负值表示样本已经分配给错误聚类,不同的聚类应该是相似的。
取值越接近1则说明聚类性能越好
接近-1则说明聚类性能越差 B和D的描述有偏差,C明显错误,B中是平均距离不是直接距离,D中只是说明聚类性能好,但不代表样本点距离和其他簇之间的距离大(性能好包括组间距离大、组内距离小),反推没有任何逻辑关系。
13. 关于机器学习中的训练集和测试集,以下观点错误的是?
14. 关于方向导数和梯度说法不正确的是
15. 关于对数值类型的特征做归一化的说法正确的是
16. 关于处理非平衡数据,下列说法中错误的是
17. 关于层次聚类,下列说法正确的是
18. 关于标准化的作用描述错误的是
19. 关于标准化得分的论述不正确的是
20. 关于ROC曲线下列说法错误的是
分析:ROC是根据特异性和敏感度构造的曲线图
21. 关于LogisticRegression和Logit说法错误的是
22. 关于Lasso回归,以下正确的是
分析:Lasso使用的L1范式、可以做特征选择,由于是绝对值计算,不可以使用梯度下降求解。
23. 关于KS曲线,下面描述错误的是
分析:K-S曲线,又称为洛伦兹曲线,实际上K-S曲线来源和本质与ROC曲线是一直的:
ROC曲线使用了真正率(TPR)和假正率(FPR)做横轴
K-S曲线则使用真正率(TPR)和假正率(FPR)做纵轴
KS值就是两条曲线之间最大间隔距离,KS值越大表示模型的区分能力越强
24. 关于KNN与K-means算法描述正确的是
分析:
K-Means是聚类算法,无监督学习
K-Means不是在数据集中找离它最近的点(最少目的不是)
KNN没有前期训练过程
25. 关于KNN算法,下面哪种说法是错误的
分析:必须设定K值,既然是超参数是必须指定k的,不指定k的话无法执行该算法
25. 关于KMeans聚类效果的评估,下面哪种说法是正确的
27. 关于KMeans聚类算法,下面哪种说法是错误的
分析:质心的选取以及数量会影响K-Means聚类算法的效果,在执行该算法时,聚类数目是通过分析找出来的,确定最佳聚类数目是一个十分重要的问题。
28. 关于ID3算法中描述错误的是
分析:ID3算法是多叉树,比较喜欢字段分支多的场景。
29. 关于F1score下列说法正确的是
30. 关于 logit 回归和SVM不正确的是
分析:Logit回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比先验概率和似然函数的乘积,Logit仅仅是极大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率。
31. 构造多分类模型时,在变量粗筛阶段,以下哪个方法最适合对连续型变量进行粗筛
32. 构成社会网络有三个基本要素,下列何者不包括在内
33. 个体之间的相似性主要用哪种数据挖掘方法
34. 分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于()问题
35. 对于随机森林下面说法正确的是:
分析:第二个和第三个都错了,Boosting是有依赖的,而随机森林以树的最终预测结果投票得到综合结果,所以相互之间没有任何依赖。
36. 对于随机森林和GradientBoosting Trees,下面说法正确的是:
37. 对于任一频繁项目集(Frequent Itemset)X,根据Apriori Principle以下何者说法不正确?
38. 对于缺失值,以下说法正确的是?
39. 对于离群值,一般采用什么方法处理
40. 对于k折交叉验证,以下对k的说法正确的是
41. 对于KNN来说,如果K值 = 1的话,以下正确的是
42. 对数几率回归(Logistics Regression)和一般回归分析有什么区别?
43. 「材料题」在分类问题中,我们经常会遇到正负样本数量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是
44. 在多项式贝叶斯当中,以下正确的是
45. 在对数据进行预处理时,应该怎样处理类别型特征
46. 在层次聚类中,可以用来定义两个类之间距离的方法有
47. 在采用最小二乘法进行回归方程估计的时候,对一个变量的回归系数进行T检验,发现检验统计量对应的相伴概率为0.056,那么在如下哪些显著性水平下该检验是显著的
48. 影响聚类算法效果的主要原因有
分析:二者公式: 将在进行泰勒展开: 因此熵可以近似转换成 注意此处是近似转换,不是等价,所以二者公式不相同。
分析:特征向量的定义: 那么: 再使用是一个结论:上边式子如果有非零解,那么:,于是就得到了对应的特征方程,这个特征方程只有一个未知数,而最高有次,所以只可能有个特征值,因此也只能对应个特征向量,不可能出现个特征向量。 换句话说:个维向量一定相关,维线性空间最多有个线性无关的向量。
分析:决策树的数量越大,随机森林算法鲁棒性越强、精确度也越高。随机森林基分类器使用了CART分类回归树,采用样本随机和特征随机,重复该步骤建立棵CART书店,这些树都要完全生成并且不被剪枝,最后形成森林,最终是根据这些树的预测结果投票,决定样本最后类别,不是根据分类误差投票。
分析:密度函数处理的是连续型随机变量,不是离散型。
分析:方向导数本质上研究的是函数在某点处沿某个特定方向上的变化率问题,梯度反应的是空间变量变化趋势的最大值和方向。参考: 直观理解:梯度向量是方向导数最大的方向,也就是曲面上最陡峭的方向,所以可以理解梯度是方向导数中的一种特殊情况。
分析:参考:。 SMOTE(Synthetic Minority Oversampling Technique)合成少数类过采样技术,它是基于随机过程采样算法的一种改进方案,由于随机过程采样采用简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合问题,即使得模型学习到的信息过于特别而不够泛化,SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中:
对于少数类中的每个样本,以欧式距离为标准计算它到少数类样本中所有样本距离,得到近邻
根据样本不平衡的比例设置一个采样比例以确定采样倍率,对于每个少数类样本,从其金陵中随机选择若干样本,假设近邻为
对于每个随机选出的近邻,分别与原样本按公式构建新的样本。
分析:F1的表达式:,它基于召回率和精确率,并且可以计算多分类,取值范围是0 ~ 1。
分析:Apriori Principle规则:任何频繁项集的子集也一定会被频繁购买,所以频繁项目集的子集一定是频繁项目集。