机器学习-06

1. 如果原数据没有缺失值，想要使用KNN算法来建立有监督学习模型，以下操作过程错误的是？

A.字段量纲差别大，做归一化工作
B.检查“是否约会成功”字段的分布特征
C.如果标签字段分布不均匀，选择交叉验证方法的时候，最好使用StratifiedKFold
D.无论标签分布如何，选择交叉验证方法或划分训练集、测试集方法的时候，方法随意选择即可

2. 如果某个特征（feature）有大量的异常值，那么可以采用以下哪些方法处理？

①盖帽法
②离散化
③转化为分类变量

A.①②③
B.①②
C.②③
D.①③

3. 如果没有任何业务经验，在系统聚类方法中如何决定分类数量最合理？

A.半偏R方的大小
B.树形图中两个类之间树枝的长度的大小
C.a和b都对
D.a和b都不对

4. 人脸识别算法分为四个步骤，分别是：

(a)人脸定位（face detection）
(b)人脸确认（face verification）
(c)人脸校准（face alignment）
(d)人脸鉴别（face identification）
请问下列何者顺序正确

A.(d)(c)(a)(b)
B.(a)(d)(b)(c)
C.(c)(b)(d)(a)
D.(a)(c)(b)(d)

分析：人脸识别系统组成：参考：https://www.sohu.com/a/315130755_120141421
人脸图像采集：不同人脸图像通过摄像头采集下来，包括静态图像、动态图像、不同位置、不同表情等方面都可以采集出来，这个过程中会包含人脸检测（Face Detection），它用于人脸识别的预处理，在图像中精确定位人脸的位置和大小：如直方图特征、颜色特征、模板特征、结构特征、Haar特征等。
人脸图像预处理：对于人脸图像预处理的检测结果，对图像进行最终服务于特征提取的过程。原始图像由于各种限制和干扰，往往不能直接使用，所以需要对它进行灰度校正、噪声过滤等图像预处理（Face Alignment），主要包括人脸的：光线补偿、直方图均衡化、归一化、几何校正、滤波以及锐化等处理。
人脸图像特征提取：主要分视觉特征、像素统计特征、图像变换系数特征、图像代数特征，这步主要做人脸特征提取也称人脸表征，它是对人脸进行建模的过程：基于知识的标准方法；基于代数特征或统计学的标准方法。
人脸图像匹配与识别：提取人脸图像特征数据与数据库中存储的特征模板进行搜索匹配，通过一个阈值，超过这个阈值则把匹配得到的结果输出，这一过程分为两类：1）确认，一对一进行图像比较过程（Face Verification）；2）辨认，一对多进行图像匹配对比过程（Face Identification）。

5. 缺失值处理属于的哪一个阶段？

A.业务理解
B.建模预测
C.数据清洗
D.模型修正

6. 判断一张影响中是否有人脸的存在，且回报出所有找到的人脸是何种技术？

A.人脸侦测
B.人脸识别
C.人脸追踪
D.以上皆非

7. 「材料题」判断决策树模型的好坏我们会使用信息熵或基尼系数对节点进行不纯度的度量。在当前的模型中，我们可以看出。

A.第一次划分后，x1 < w10 时不是最纯的状态，还需要继续划分
B.第一次划分后，x1 < w10 时是最纯的状态，不需要继续划分
C.第一次划分后，x1 > w10 时是最纯的状态，不需要继续划分
D.第二次划分后，x2 < w20 时不是最纯的状态，还需要继续划分

8. 能将人/事/时/地撷取出来的技术称之为？

A.分词
B.词性标注
C.命名实体识别
D.概念标订

分析：命名实体识别（Named Entity Recognition，简称NER），又称为专名识别，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名称，它包括：
实体边界识别
确定实体类别（人名、地名、机构名或其他）

9. 哪种基于语法的文本句法分析方法可以用于名词短语检测、动词短语检测、主语检测和宾语检测？

A.词性标注（Part-Of-Speech Tagging）
B.依存语法分析（Dependency Parsing）和句法分析（Constituency Parsing）
C.Skip Gram 和 N-Gram 抽取
D.连续词袋模型

参考：机器学习-03 中的依存语法分析笔记。

10. 哪个算法最容易受异常值的影响？

A.感知机模型
B.逻辑回归模型
C.线性回归模型
D.SVM模型

缺解析

11. 目前文本生成学术上比较关注的技术是

A.GAN
B.seq2seq
C.self-attention
D.CNN

分析：GAN全称是Generative Adversarial Network，生成对抗网络：
Generative学习一个生成式模型
Adversarial使用对抗的方法训练模型
Networks使用神经网络
GAN模型是一种通过对抗的方式去学习数据分布的生成式模型，核心思想就是生成式网络G（Generator）和判别网络D（Discriminator）不断博弈来达到生成真数据的目的所以适合做文本生成类的任务

12. 某互联网金融企业系统建立一套小额借贷违约风险识别模型，即识别出哪些贷款可能违约，目前其拥有的历史贷款数据70万条，变量分别为年龄（数值）、职业（分类）、月收入（数值）、是否有房（分类）、贷款利率（数值）、月还款（数值）、历史累计贷款（数值）、历史累计违约次数（数值）、是否违约（分类），其中变量“是否违约”标识这笔贷款最终是否发生违约，是分类变量。那么下边说法错误的是

A.“建模之前应该先用描述性统计的方法刻画特征数据”
B.“建模的之前需要考虑正负样本比例”
C.“由于需要对贷款违约的影响因素进行归因，应该使用多元线性回归分析”
D.“这个问题可以用逻辑回归进行分析”

分析：分类问题不可使用线性回归

13. 某超市研究销售记录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？

A.关联规则发现
B.聚类
C.分类
D.自然语言处理

14. （大数据，出题错）默认情况下，YARN支持下边那个调度器。

A.Fair Scheduler
B.Capacity Scheduler
C.FIFO调度器
D.DRT调度器

15. 模型出现高偏差的时候，我们如何优化模型？

A.在特征空间中减少特征
B.在特征空间中增加特征
C.增加数据点
D.以上所有

分析：高偏差和高方差基本意味着数据欠拟合，模型过于简单，复杂度不够，一般的解决办法：
尝试获得更多特征（增加特征）
尝试增加多项式特征
尝试减少正则化程度（减小正则项对模型的约束，让模型更自由）

16. 逻辑回归属于

A.无监督学习
B.有监督学习
C.半监督学习
D.非监督学习

17. 逻辑回归模型中计算得到的发生概率p，一般作为

A.绝对概率
B.相对概率
C.绝对概率的自然对数
D.相对概率的自然对数

缺解析

18. 逻辑回归模型经常需要设置不同优化算法，以下说法正确的是

A."lbfgs"慢但稳健
B."newton-cg"不能处理多分类，但比lgfgs快
C."sag"处理大型的列和行、二分类
D.以上都对

19. 逻辑回归比较擅长处理的测量

A.因变量是二分类型
B.自变量是连续型
C.自变量是二分类型
D.因变量是多分类型

20. 逻辑回归（logistics regression）和一般回归分析有什么区别

A.对数几率回归是设计用来预测事件可能性的
B.对数几率回归可以用来度量模型拟合程度
C.对数几率回归可以用来估计回归系数
D.以上所有

21. 逻辑回归（Logistics Regression）算法，可用来解决何种问题

A.分类（Classification）
B.聚类（Clustering）
C.关联（Association）
D.序列模式（Sequential Pattern）

22. （非三级）零售分析仪表板包含一小部分数据集，包括“销售”，“项目”和“商店”，您已将“类别”字段从“项目”数据集中拖到了报表画布上。现在，您要为用户提供选择一个、多个或所有类别的选项，以过滤报表上的视觉效果。您应该从可视化窗格中选择哪个元素？

A.多行卡
B.树状图
C.切片器
D.表

23. 集成方法中的随机森林（Random Forest），是下列哪个方法的延伸？

A.决策树
B.神经网络
C.贝氏分类法
D.以上均可

24. 基于密集向量（1.0,0.0,3.0）创建一个LabeledPoint，设其标识值为1.0，以下正确的选项为

A.val pos = LabeledPoint(1.0, Vectors.dense(1.0,0.0,3.0))
B.var pos = LabeledPoint(1.0, (1.0,0.0,3.0))
C.var pos = LabeledPoint(Vectors.dense(1.0,0.0,3.0), 1.0)
D.var pos = LabeledPoint((1.0,0.0,3.0),1.0)

缺分析

25. 基于Boosting的集成学习，其代表算法不包括

A.Adaboost
B.GBDT
C.XGBOOST
D.随机森林

26. 基于Bagging的集成学习，其代表算法有

A.Adaboost
B.GBDT
C.XGBOOST
D.随机森林

27. 机器学习一般可以分为两类，一种是有监督，一种是无监督。下面对于有监督和无监督说法正确的是

A.有监督包括回归和降维任务；无监督包括聚类和分类任务
B.有监督包括分类和降维任务；无监督包括聚类和回归任务
C.有监督包括回归和分类任务；无监督包括聚类和降维任务
D.有监督包括分类和聚类任务；无监督包括回归和降维任务

28. 机器学习是借助数学模型理解数学，那么最重要的原材料就是数据。可见数据在机器学习中的作用，下列关于数据的要求不正确的是

A.数据需要包含尽可能多的信息，可以不跟学习任务有。
B.对于监督学习中的分类问题，数据偏斜不能过于严重，不同类别的数据数量不要有数个数量级的差距
C.建模前需要评估数据样本的量级，估算模型学习对内存的消耗
D.如果数据量太大可以考虑减少训练成本、降维或者使用分布式机器学习系统

分析：部分模型对数据本身要求很高，所以单纯说不和学习任务有关是不对的。

29. 机器翻译指的是

A.将任一人类语言转换成另外语言
B.将人类语言转换成机器语言
C.将任意人类语言转换成英语
D.将机器语言转换成人类语言

30. 机器翻译发展过程中没有出现的技术是

A.基于规则的技术
B.基于统计的技术
C.基于深度学习的方法
D.基于人工的方法

机器翻译比较适合哪种RNN的变体来实现

A.1 V N
B.N V N
C.N V M
D.2 V N

分析：参考：https://blog.csdn.net/Jeremy_lf/article/details/104798044/ RNN的基本结构
1 v 1： $y = f(Wx + b)$ ，最基本的单层网络
1 v n: 两种结构（选项A）
从图像生成文字，此时输入X就是图像特征，输出的Y就是一段句子
从类别生成语音或音乐
n v n：经典的RNN结构（选项B）：输入和输出序列必须是等长
计算视频中每一帧的分类标签
输入为字符，输出为下一个字符的概率，著名的Char RNN，用来生成文章、诗歌。参考：http://karpathy.github.io/2015/05/21/rnn-effectiveness/
n v 1：这种结构通常用来处理序列分类问题，输入一段文字判别它所属类别，输入一个句子判断情感倾向，输入一段视频判断类别。
n v m（选项C）：输入、输出为不等长的序列，这种结构是Encoder-Decoder架构，也称为Seq2Seq，是RNN一个重要的变种。应用场景
机器翻译：最经典应用，这个结构也是机器翻译领域最先提出
文本摘要：输入一段文本序列，输出这段文本序列的摘要
阅读理解：将输入的文章和问题分别编码，再对其解码得到问题的答案
语音识别：输入是语音信号序列，输出是文字类别
最后2 V N实际就是N V N的特殊情况，没有单独一说。

32. 混淆矩阵（Confusion Matrix）最可能用来检验哪种模型的结果？

A.一元线性回归
B.朴素贝叶斯
C.K-Means
D.关联规则

分析：A是预测模型；B是分类模型；C是聚类模型；D是关联分析，混淆矩阵主要评估分类模型。

33. 混淆矩阵（Confusion Matrix）（）部分的数字越大越好？

A.主对角线
B.主对角线下方（不含主对角线）
C.主对角线上方（不含主对角线）
D.除主对角线外的所有区域

34. 回归模型中残差图的横坐标和纵坐标说法正确的是

A.横坐标是因变量，纵坐标是自变量
B.横坐标是预测变量，纵坐标是因变量
C.横坐标是预测变量，纵坐标是残差
D.横坐标是预测变量，纵坐标是自变量

35. 回归分析中定义的解释变量和被解释变量正确的是

A.解释变量和被解释变量都是随机变量
B.解释变量为非随机变量，被解释变量为随机变量
C.解释变量和被解释变量都为非随机变量
D.解释变量为随机变量，被解释变量为非随机变量

分析：
解释变量称为“说明变量”、“可控制变量”，是经济计量模型中的自变量——按照一定的规律对模型中作为因变量的经历变量产生影响，并对因变量的变化原因做出解释和说明。
被预测变量，又称被解释变量，多见于回归分析中，相当于实验研究中的因变量，回归分析中的变量关系不像实验研究中的变量之间因果关系明确，因而多称为预测变量和被预测变量。

36. 行为评分卡的使用场景处于

A.贷前
B.贷中
C.贷后
D.都适用

37. 广为流传的“啤酒与尿布”的故事，其背后的模型实际上是哪一类？

A.分类（Classification）
B.分群（Clustering）
C.关联（Association）
D.预测（Prediction）

38. 层次聚类中，聚类的变量类型是

A.连续变量
B.分类变量
C.两者都可以
D.不确定

39. 测试（Test）集通常用来

A.计算模型中的参数
B.预测未知数据
C.比较不同模型的预测准确度、以便选择模型
D.构建模型

40. 不是文本生成主要的应用场景

A.文本分类
B.文本摘要
C.句子压缩
D.文本复写

41. 不是文本表示的方式是

A.One-Hot编码
B.Encoder-Decoder
C.word2vec
D.glove

42. 标准化只是将原始数据进行线性变换，没有改变数据的分布形态，只是使数据的均值变为____，标准差变为____

A.0,1
B.1,0
C.0,0
D.1,1

分析：从上述归一化和标准化可以看出，转换后均值和方差都发生了改变：
均值发生改变可理解成数据的坐标进行了平移转换，均值其实也是随之一样转换。
方差的改变是因为数据都压缩在了更小的范围内，所以方差都变小了

43. 编码器-解码器模型在预测时市场使用哪种搜索手段？

A.贪婪搜索
B.束搜索
C.穷举搜索
D.二分搜索

44. 编码器-解码器结构解决的问题是？

A.输入长度固定、输出长度不固定问题
B.输入和输出长度不固定问题
C.输入长度不固定，输出长度固定问题
D.输入和输出长度都固定问题

45. 半监督学习的说法哪一个是错的？

A.半监督学习有两个样本集，一个有标记，一个没有标记
B.半监督学习侧重于在有监督的分类算法中加入无标记样本来实现分类
C.需要半监督学习的原因是对数据进行分类标记的代价很高
D.以上皆非

分析：半监督学习主要是在有标签数据、无标签数据混合成的迅联数据中使用深度学习算法，不存在两个样本集一说，详细可参考：https://zhuanlan.zhihu.com/p/33196506。

46. XGBoost实例（非sklearnAPI）里用什么方法查看最后各个树的信息

A.to_DataFrame()
B.trees_to_dataframe
C.booster
D.feature_names

47. XGBoost实例（非sklearnAPI）中的那个特征重要性指标最好

A.weight
B.gain
C.total_gain
D.total_cover

上一页机器学习-05 下一页机器学习-07

最后更新于4年前