机器学习-08
最后更新于
这有帮助吗?
最后更新于
这有帮助吗?
1. 以下哪个算法控制需要先填补
2. 以下哪个是聚类分析所关心的重点?
3. 以下哪个评估指标比较不适合用来评估类别不平衡算法的效能?
分析:参考: 对于类别平衡的数据,一般都可以使用准确率(Accuracy)来评估,也就是(1-误分率)作为一般的评估标准,这种评估标准的假设:数据是平衡的,正例和反例的重要性一样,二分类器的阈值是0.5,这种情况下,用准确率来对分类器进行评估是合理的。 但是如果出现了类别不平衡,准确率意义就不大了,所以需要使用主流的评估方法
ROC曲线,全名Receiver Operating Curve
Precision-Recall Curve,和ROC类似,但定义有所不同
Precision-n:另外一种方法,强制将分类阈值设定得恰好n个正离分类器的精确率
Average Precision:平均精度,描述了Precision的一般表现,异常检测中会经常使用
直接使用Precision也是一种想法,此时假设分类器的阈值是0.5。
4. 以下哪个模型对变量是否标准化不敏感?
分析:
树形结构不需要做归一化,因为数值缩放不影响分裂点的位置,对树模型的结构不造成影响,按照特征值进行排序的,排序的顺序也不会变化,所属分支和分裂点就不会有所不同。
概率模型也不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率,如决策树、随机森林。
而像Adaboost、SVM、LR、KNN、K-Means之类的最优化问题就需要做归一化
而且树模型是不能进行梯度下降的,因为构建树模型(回归树)寻找最优点时是通过寻找最优分裂点完成的,而树模型是阶跃的,阶跃点不可求导,并且求导没有意义,也就不需要归一化,所以树模型(回归时)寻找最优点是通过寻找最优分裂点完成的。
5. 以下哪个决策规则的算法是基于决策树的算法来产生规则?
6. 以下哪个聚类方法又叫快速聚类法
7. 以下哪个分类方法所产生的模型会给不同的输入变量不同的权重?
8. 以下哪个方法可以缓解内生性问题
9. 以下哪个方法可以返回df表中所有字段缺失值的数量情况?
10. 以下哪个方法的运行结果在0~1之间?
11. 以下哪个不是语音识别中会用到的算法?
分析:语音识别不会使用聚类,所以不考虑轮廓系数
12. 以下描述中关于聚类算法的描述错误的是
13. 以下两种描述分别对应哪两种对分类算法的评价标准( )
第一种:警察抓小偷,描述警察抓的人中有多少个是小偷的标准
第二种:描述有多少比例的小偷给警察抓了的标准
14. 以下何者为分割式聚类算法?
15. 以下何者是机器学习元算法?
16. 以下何者不是CNN常见的网络层?
分析:Recurrent Layer是RNN的层,不是CNN的层
convolutional layer:卷积层
pooling layer:池化层(汇聚层)
fully connected layer:全连接层
17. 以下关于主题模型LDA说法正确的是
18. 以下关于逻辑回归的说法正确的是
19. 一下关于层次聚类的描述中,错误的是
20. 以下方法可以改变数据量纲的是
21. 以下对K-Means聚类算法解释正确的是
分析:K-Means算法的核心就是之前指定要分多少类,然后随机挑选质心再不断迭代更新,所以无法自动识别类的个数,能自动识别的通常是层次聚类。
22. 以下不属于因子分析计算过程的步骤有
分析:因子分析计算步骤
确认待分析的原始变量是否适合做因子分析(估计子载荷矩阵)
构造因子变量
利用旋转法使因子变量具有可解释性
计算每个样本因子变量的得分
23. 以下不属于分类器评价或比较尺度的有?
分析:标准答案B有问题,模型描述的简洁度不属于分类器评价或比较尺度。
24. 下列对于IV值的说法错误的是
25. 下列等宽(Equal-Width-Interval)装箱法的描述,何者正确
26. 下列不是SVM核函数的是
27. 下关于一元线性回归分析中( y = b0 + b1x + ε )的假定,描述错误的是
28. 我们想在大数据集上训练决策树,为了使用较少时间,我们可以
29. 我们建立一个5000个特征,100万数据的机器学习模型,我们怎么有效地应对这样的大数据训练
30. 文章中重要的词叫关键词,不重要的词称为?
31. 文本生成不可以使用下面哪种技术实现
分析:带注意力机制的编解码结构都可以做生成,包括对抗网络GAN。
32. 文本分类任务常用的损失函数是
33. 为比较多组数据的分布特征,下列图形最适合的是
34. 挖掘序列模式(Sequential Pattern)是要找出
35. 通过聚集多个分类器的预测来提高分类准确率的技术称为
36. 数据挖掘中,主成分算法的应用场景不包括
37. 数据挖掘的发展历程,下列何者是正确的
A.数据统计
B.数据挖掘
C.数据查询
D.数据搜集
38. 数据科学家可能会同时使用多个算法(模型)进行预测,并且最后把这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是
存疑
39. 输入一张人脸影像,在人脸影像数据库中,比对找出所有相同的人脸影像是何种技术?
40. 使用预训练语言模型的好处有哪些?
41. 使用余弦相似度时,结果等于1表示两个向量
夹角为0度,结果等于1,意味着方向相同,两个线段重合
夹角为90度,结果等于0,意味着方向形成直角,方向完全不相似
夹角180度,结果等于-1,意味着方向正好相反
42. 使用历史数据构造训练(Train)集、验证(Validation)集和检验(Test)集后,使用哪个数据来训练模型?
43. 实际应用中,关于主成分数量K的取值,下列说法错误的是
44. 社交媒体平台是文本数据最直观的呈现形式,假设你有一个微博社交媒体完整语料库,你会如何创建一个标签的模型?
45. (材料丢失)「材料题」上面右图是对K-Means聚类K值的拾取方法,它的评估指标是使用
46. 三个逻辑回归模型A、B、C,AUC分别为0.53、0.72、0.8,那么我们一般认为这三个模型哪个的预测能力更强
分析:参考下边表格
0
<20%
=50%
无区别能力
0 ~ 40%
20% ~ 30%
50% ~ 70%
模型区别能力极差
40% ~ 60%
30% ~ 50%
70% ~ 80%
可接受的区别能力
60% ~ 80%
50% ~ 75%
80% ~ 90%
非常好的区别能力
80% ~ 100%
> 75%
90% ~ 100%
可能模型适配过度
47. 如下哪些不是最近邻分类器的特点?
48. (题目重复)如何利用「体重」以简单贝氏分类(Naive Bayes)预测「性别」?
49. 如何利用「体重」以简单贝氏分类(Naive Bayes)预测「性别」?
分析:参考: PART决策树实际上是一种利用不完整的决策树在数据集中提取规则的算法。算法最初的原理来源于割治的思想:先建立一条规则,将规则所覆盖的实例祛除,然后递归为剩余的实例建立规则,直到没有剩余的实例。而创建一条规则的过程就是在当前的实例集上创建一个完整的决策树,然后将覆盖实例最多的叶子节点转换成一条规则,然后丢弃决策树。
分析:LDA是一种监督学习的降维技术,它的每个数据集都有类别输出,这个和PCA不同,PCA不考虑样本类别输出的无监督降维技术,LDA简单说是:投影后类内方差最小、类间方差最大。我们要将数据在低纬度上投影,投影后希望每一种类别数据的投影点尽可能接近,而不同类别的数据的类别中心之间距离尽可能大。 对比上图,直观上右图比左图的投影效果好,因为右图红蓝数据较为集中,且类别之间距离更明显,左图在边界处数据还比较混杂,这就是LDA的主要思想,在实际应用中,数据通常是多个类别,原始数据也是超二维的,投影后也不一定是支线,而是一个低维度超平面。
分析:余弦相似度用来计算两个向量的夹角: 两条线段之间形成一个夹角