Level III模拟（一）

1. 对于分类器性的性能，我们需要不同的维度来进行综合度量。一下不属于分类器评价或比较尺度的有？

A.预测准确度
B.查全率
C.模型描述的简洁度
D.计算复杂度

2. 下面有关分类算法的准确率、查全率、F1值的描述，错误的是？

A.准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率
B.查全率是指检索出的相关文档数和文档库中的所有相关文档数的比率，衡量的是检索系统的查全率
C.正确率、查全率和F值取值都在0和1之间，数值越接近0，查准率或查全率就越高
D.为了解决准确率和查全率冲突问题，引入了F1分数

3. 回归树是可以用于回归的决策树模型，一个回归树对应着输入空间（即特征空间）的一个划分以及在划分单元上的输出值，以下哪个指标可用于回归树中的模型比较

A.Adjusted R2
B.F-meansure
C.AUC
D.Precision & Recall

4. 序列模式挖掘（sequence pattern mining）是指挖掘相对时间或其他模式出现频率高的模式，典型的应用还是限于离散型的序列。下列哪个选项不属于序列模式的时限约束？

A.最大跨越约束
B.主键约束
C.最小间隔和最大间隔约束
D.窗口大小约束

5. Apriori算法中，候选序列的个数比候选项集的个数大得多，产生更多候选的原因有？

A.一个项在项集中最多出现一次，但一个事件可以在序列中出现多次
B.一个事件在序列中最多出现一次，但一个项在项集中可以出现多次
C.次序在序列中和项集中都是重要的
D.序列不可以合并

分析：事件由项构成。

6. 考虑下面的频繁3-项集的集合：

{1,2,3}
{1,2,4}
{1,2,5}
{1,3,4}
{1,3,5}
{1,4,5}
{2,3,4}
{2,3,5}
{3,4,5}

假定数据集中只有5个项，采用合并策略，由候选产生过程得到4-项集不包括：

A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5

7. 广为流传的“啤酒与尿布”的故事，其北河的模型实际上是哪一类？

A.分类（Classification）
B.分群（Clustering）
C.关联（Association）
D.预测（Prediction）

8. Apriori算法，最有可能可用来解决以下哪个问题？

A.电子商务网站向顾客推荐商品的广告
B.信用卡欺诈识别
C.电信用户离网预警
D.预测GDP与工业产值之间的关系

9. 在聚类（Clustering）的问题中，若数据字段属性都是二元属性（Binary Variable），根据下表，下列何者是Jaccard Coefficient计算数据间距离的公式？

A. $d(i,j) = \frac{r+s}{q+r+s}$
B. $d(i,j) = \frac{r+s}{r+s+t}$
C. $d(i,j) = \frac{r+s}{q+s+t}$
D. $d(i,j) = \frac{r+s}{q+r+s+t}$

10. 以下哪个选项是分割式聚类算法

A-Kmeans
B.Centroid Method
C.Ward's Method
D.以上皆非

11. 在机器学习中，非监督学习主要用来分类，其中重要的两种就是聚类分析和主成分分析。下列哪个选项不是聚类分析的算法

A.Two-Step
B.FP-Growth
C.Centroid Method
D.Ward's Method

12. 下列哪种集成算法，会重复抽取训练数据集中的数据，且每笔被抽中的概率始终保持一致？

A.袋装法（Bagging）
B.提升法（Boosting）
C.随机森林法（Random Forest）
D.以上皆是

13. 提升方法（Boosting），是一种可以用来减小监督式学习中偏差的机器学习算法。基于Boosting的集成学习，其代表算法不包括？

A.Adaboost
B.GBDT
C.XGBOOST
D.随机森林

14. 集成学习（Bagging）也叫做boostrap aggregating，是在原始数据集选择S次后得到S个新数据集的一种技术，其代表算法有？

A.Adaboost
B.GBDT
C.XGBOOST
D.随机森林

15. 集成学习（Bagging）也叫做boostrap aggregating，是在原始数据集选择S次后得到S个新数据集的一种技术，其代表算法有？

A.分类（Classification）
B.聚类（Clustering）
C.关联（Association）
D.归因（Attribution）

16. 逻辑回归和支持向量机（SVM）都是经典的机器学习模型，逻辑回归和SVM的联系与区别，不正确的是？

A.二者都可以处理分类问题
B.二者都可以增加不同的正则化项
C.二者都是参数模型
D.SVM的处理方法是只考虑support vectors，也就是和分类最相关的少数点，去学习分类器

分析：参考：

17. 如何以类神经网络仿真逻辑回归（Logistic Regression）

A.输入层节点个数设定为3
B.隐藏层节点个数设定为0
C.输出层节点个数设定为3
D.隐藏层节点个数设定为1

18. 类神经网络（ANN），又称为人工神经网络，根据计算的连接路径连接信息处理的数学计算模型或者使用。在进行类神经网络之前，数据要如何做准备？

A.将所有数值属性转成类别属性
B.将所有类别属性直接使用0,1,2,3取代成数值型属性
C.将数值正规化于0到1之间
D.不需要任何准备

19. BP（back propagation）神经网络是1986年由Rumelhart和McClelland为首的科学家提出的概念，是一种按照误差逆向传播算法训练的多层前馈神经网络，是应用最广泛的神经网络。BP神经网络的训练顺序为何？

A.调整权重
B.计算误差值
C.利用随机的权重产生输出的结果

A.BCA
B.CAB
C.BAC
D.CBA

20. 在完整的机器学习流程中，数据标准化（Data Standardization）一直是一项重要的处理流程。不同模型对于数据是否标准化的敏感程度不同，以下哪个模型对变量是否标准化不敏感？

A.决策树
B.KNN
C.K-means
D.SVM

21. 在决策树算法中，ID3使用哪个度量来进行特征的选择？

A.信息熵
B.信息增益比
C.信息增益
D.Gini指数

22. 决策树由节点和边两种元素组成的结构，决策树中不包含以下哪一种节点？

A.根节点（root node）
B.内部节点（internal node）
C.外部节点（external node）
D.叶节点（leaf node）

23. 朴素贝叶斯分类器是一系列以假设特征之间强（朴素）独立下运用贝叶斯定理为基础的简单概率分类器。该分类器模型会给问题实例分配用特征值表示的类标签，类标签取自有限集合。下列选择不属于朴素贝叶斯分类器特点的是？

A.面对孤立的噪声点，朴素贝叶斯分类器是健壮的
B.面对无关属性，朴素贝叶斯分类器是健壮的
C.相关属性可能会降低朴素贝叶斯分类器的性能，因为这些属性，条件独立的假设已不成立
D.朴素贝叶斯分类不可以把连续的属性离散化

24. 贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。以下哪一个属于贝叶斯分类算法？

A.TAN
B.HMM
C.LSA
D.TWO-STEP

25. Skip-Gram模型的基础形式非常简单，为了更清楚地界解释模型，我们先从最一般的基础模型来看Word2Vec。Skip-Gram模型不包含以下哪一项？

A.输入层
B.池化层
C.输出层
D.隐藏层

26. 关于Skip-Gram模型，以下说法正确的是？

A.属于词袋模型的一种
B.模型的目标是最大化用当前的词预测上下文的词的生成概率
C.模型的目标是最大化通过上下文的词预测当前词生成概率
D.属于词集模型的一种

27. Word2vec，是一群用来产生词向量的相关模型，用来训练以重新建构语言学之词文本。Word2Vec包含哪两种模型？

A.CBOW模型和Skip-Gram模型
B.Bag-of-Words和Glove模型
C.LSA模型和CBOW模型
D.Glove模型和CBOW模型

28. 关于词嵌入模型，以下说法错误的是？

A.Glove模型属于词嵌入模型
B.Word2Vec模型属于词嵌入模型
C.词袋模型属于词嵌入模型
D.词嵌入模型基本假设是出现在相似的上下文中的词含义相似

29. 词袋模型（英语：Bag-of-words model）是个在自然语言处理和信息检索（IR）下被简化的表达模型。以下关于词袋模型（Bag of Word, BoW）的说法正确的是？

A.是一种在自然语言处理和信息检索（IR）下被简化的表达模型
B.词袋模型只能应用在文件分类
C.CBOW是词袋模型的一种
D.Glove模型是词袋模型的一种

30. IDF逆向文件频率（Inverse Document Frequency），IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。逆向文件频率IDF的相关说法，以下错误的是？

A.IDF表示一个词在文档中的分布情况
B.如果一个词没有集中出现在某些文档，则这个词越重要
C.如果一个词集中出现在某些文档，则这个词越重要
D. $IDF = log_{10}(\frac{文档总数}{包含该词的文档数})$

31. 自然语言处理工作中，在自动构建关键词（非控制字汇）时，经常采用的方法是？

A.Controlled Vocabulary（控制字汇）
B.Inversion of Terms（逐项反转）
C.Inverse Document Frequency（IDF）
D.Full-Text Scanning

32. 向量空间模型是信息检索技术，下面有关向量空间模型（VSM）的描述中，错误的是：

A.以向量来表示文档后，两者的夹角越小说明相似度越高
B.文本特征词的向量权重可通过TF-IDF实现，从而保留文本词序结构信息
C.在向量空间模型中，当有新文档加入时，需要重新计算特征词的权重
D.基于向量的文本相似度计算中，除了内积、Dice系数、夹角余弦，还可用Jaccard方法

33. 全文扫描、逐项反转、签名文件是信息检索技术中的基本检索法。信息检索技术中的签名文件（Signature File）指的是？

A.计算点与点之间的距离来找出和此查询相近似的文件并加以排序输出
B.利用余弦相似度求出文件的相似程度，并将文件依相似程度由大到小排序输出
C.将待查的字符串直接和原文字符串进行快速字符串比对
D.签名档利用重迭编码的技巧，将文件转换成一固定长度的签名以加速字符串比对。

34. 汉语自动分词是中文信息处理的重要基石，困扰汉语自动分词发展的原因有很多，对歧义字段的排除是待解决的几个难题之一。以下哪一项不属于多义词的歧义排除经典算法？

A.基于规则的算法
B.基于概率统计模型的算法
C.规则和统计相结合的算法
D.基于协同过滤算法

35. Word2vec，是一群用来产生词向量的相关模型，这些模型为浅而双层的神经网络，用来训练以重新构建语言学之词文本。关于word2vec模型，下面说法不正确的是：

A.得到的词向量维度小，可以节省存储和计算资源
B.考虑了全局语料库的信息
C.无法解决多义词的问题
D.可以表示词与词之间的关系

36. 信息撷取与检索（Information Extraction & Retrieval）以及文本挖掘（Text Mining）的基础是？

A.文本分析
B.文本检索
C.文本查询
D.文本拼接

37. 在自然语言处理中常常使用词嵌入法，所谓词嵌入法，是将文本转换为较低维度空间的矢量表示，以下描述中错误的是：

A.词嵌入法中的常用方法为tf-idf
B.是指讲一个词语（word）转换为一个向量（vector）表示
C.所谓 word2vec，是指学习一个映射f，它可以将单词变成向量表示：vec = f(word)
D.词嵌入英文名为word2vec

38. 监督特征学习中，被标记过的数据被当做特征来学习，以下不属于监督特征学习的是：

A.神经网络
B.多层感知器
C.监督字典学习
D.矩阵分解

39. 在PCA的计算步骤过程中，有一步是将特征向量按对应特征值大小从上到下按行排列成矩阵，这里特征值代表了什么

A.特征值代表了特征和原特征的相关性大
B.特征值代表了对应特征的方差小
C.特征值代表了对应特征的方差大
D.特征值代表了对应特征的方差比较平稳，所以信息量大

40. 在PCA转换过程中，用到了协方差，以下关于协方差的描述正确的是

A.协方差可以表示两个变量之间的互信息
B.协方差为0时，代表两个变量完全独立
C.协方差可以表示两个变量的相关性
D.协方差大，意味着两个数字之间存在相关关系越大

41. 现实中往往很多数据是线性不可分的，因此我们需要引入核函数把数据映射到高维度而达到线性可分。KPCA成为核主成分分析，核主成分分析解决了PCA存在的什么问题？

A.PCA的最大化方差理论有时候不适用
B.PCA是一种线性降维方法，无法挖掘非线性关系
C.核主成分分析更加复杂因此效果更好
D.核主成分分析中的特征值计算更加快速

42. 使用带L1惩罚项的逻辑回归模型进行特征选择，以下选择中错误的是：

A.L1惩罚项的逻辑回归模型倾向于筛选出比较少的特征
B.L1惩罚项降维的原理在于保留多个对目标值具有同等相关性的特征中的一个
C.相比较树模型，L1惩罚的逻辑回归选择出的特征不具有线性相关性
D.是嵌入法中的一种

43. 一下关于递归特征消除法（RFE）的描述中错误的是？

A.递归消除特征法使用一个基模型来进行多轮训练，每轮训练后，消除若干权值系数的特征，再基于新的特征集进行下一轮训练。
B.RFE的稳定性很大程度上取决于迭代时底层用的哪种模型
C.递归特征消除法就是对所有特征进行遍历删除不符合条件的，保留符合条件的
D.如果在迭代时使用未正则和的LR模型，那么递归特征消除法也是不稳定的

44. 卡方检验是检验定性自变量对定性因变量的相关性，卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，以下关于卡方检验的描述中错误的是

A.实际观测值与理论推断值之间的偏离程度就决定卡方值的大小
B.卡方值越大，说明实际观测值和理论推断之偏差程度越大
C.卡方检验是一种假设检验
D.卡方检验主要针对连续变量

45. 逆向文本频率（inverse document frequency，IDF）是一个词语普遍重要性的度量，在关键词的撷取中为什么要引入逆向文本频率IDF呢？

A.在越多的文章中出现过，说明重要性越高，则进行加权
B.在越多的文章中出现过的次数越多，说明对我们的分析和统计没什么帮助，利用该数值进行降权
C.一个词在一篇文章中出现的次数越多，说明越重要，利用该指数进行加权
D.一个词如果是常用词，则统计时说明很重要，进行加权

46. 特征缩放是对输入数据进行标准化所需的重要预处理之一，关于min-max特征缩放的描述错误的是：

A.会将数据缩放到0-1范围之内
B.如果数据存在异常值，数据缩放效果很可能不好
C.作用是将不同量纲数据的量纲进行统一
D.缩放后数据标准差为1

47. 常见的缺失值填充法有填充默认值、均值、众数等方式。下面可以对分类的缺失值填充的方法是？

A.均值
B.中位数
C.众数
D.最小值

48. 特征工程是将原始数据转化为特征的过程，这些特征可以更好地向预测模型描述潜在问题，从而提供模型对未见数据的准确性。以下不属于特征工程的涵盖范围的是

A.特征转换
B.特征存储
C.特征选择
D.特征学习

49. 随机森林（Random Forest，简称RF）拥有广泛的应用前景，从市场营销到医疗保健保险，既可以用来做市场营销的模拟的建模，统计客户来源，保留和流失，也可以用来预测疾病的风险和患病者的易感性。以下关于随机森林描述中错误的是：

A.随机森林是一种集成算法
B.随机森林是有多棵决策树共同构成
C.随机森林算法通常可以防止过拟合
D.随机森林算法中的基分类器都是回归树

分析：随机森林算法基分类器通常使用CART分类回归树，但也可以自己选择。

50. XGBoost是“极端梯度提升”（eXtrame Gradient Boosting）的简称，下面关于XGBoost算法描述错误的是

A.Xgboost是在GBDT的基础上改造而来的
B.Xgboost是一个提升算法
C.Xgboost中的基分类器只能是树模型
D.GBDT在模型训练时只使用了代价函数的一阶导数信息，XGBoost对代价函数进行二阶泰勒展开

51. 数据泛化把较低层次的概念用较高层次的概念替换来汇总数据。以下对于数据泛化描述错误的是：

A.数据泛化针对的对象是类别型字段
B.用老、中、青分别代替（20-35，36-50，51-70）的年龄区间值
C.用省代替市是一种数据泛化
D.将连续的年龄值变成区间范围是数据泛化

52. 关联规则挖掘的目的是在数据项目中找出所有的并发关系，以下可用作数据挖掘分析中的关联规则算法有

A.决策树、对数回归、关联模式
B.K均值法、SOM神经网络
C.Apriori算法，FP-Tree算法
D.RBF神经网络、K均值法、决策树

53. 不同类型的机器学习模型，所使用的模型评价指标也有所不同。一般情况下，以下哪些指标不用于聚类模型评价

A.正确率Accuracy
B.簇间不相似度
C.ARI
D.轮廓系数Silhouette Coefficient

54. 无监督学习和监督学习是机器学习最基本的两种类型，下列哪些算法属于无监督学习（Unsupervised Learning）的算法？

A.CART
B.Apriori
C.ARIMA
D.Bayes Net

55. 很多研究问题时常常需要估算不同样本之间的相似度度量（Similarity Measurement），这时通常采用的方法就是计算样本间的“距离”（Distance）。采用什么样的方法计算距离很是讲究，甚至关系到分类的正确与否。两个点在坐标系上的绝对轴距总和指的是？

A.欧式距离
B.曼哈顿距离
C.汉明距离
D.杰卡德距离

56. 在KNN算法上进行预测概率的推估时，会采用哪一种方法，以保证每一类的预测概率不为0

A.数据正规化（Data Normalization）
B.拉普拉斯修正法（Laplace Correction）
C.数据一般化（Data Generalization）
D.以上皆非

57. 数据准备方法是在评估模型性能之前对整个数据集进行处理，这会导致数据泄漏的问题，而在数据清洗过程中（缺失值、异常值），以下哪个做法是正确的？

A.运用验证数据集中变量的统计量对训练集中的变量进行数据清洗
B.运用验证数据集中变量的统计量对验证集中的变量进行数据清洗
C.运用训练数据集中变量的统计量对验证集中的变量进行数据清洗
D.以上均不对

58. 知识发掘处理（Knowledge Discovery Process）的执行顺序，下列何者是正确的

A.数据清洗
B.数据选择
C.数据编码
D.数据扩充
E.数据挖掘
F.结果呈现

A.D -> C -> A -> B -> E -> F
B.A -> B -> C -> D -> E -> F
C.D -> A -> C -> B -> E -> F
D.B -> A -> D -> C -> E -> F

59. 数据挖掘起始于20世纪下半叶，是在当时多个学科发展的基础上发展起来的。关于数据挖掘的发展历程，下列何者是正确的：

A.数据统计
B.数据挖掘
C.数据查询
D.数据搜集

A.D -> C -> A -> B
B.A -> B -> C -> D
C.D -> A -> C -> B
D.C -> D -> A -> B

60. 数据挖掘结合了数据库、人工智能、机器学习、统计学、高性能计算、模式识别、神经网络、数据可视化、信息检索和空间数据分析等多个领域的理论和技术。关于数据挖掘下列说法不正确的是

A.数据挖掘能够从海量信息中发现有价值的信息，并吧数据转换成有组织的知识
B.数据挖掘是在大型数据存储库中，自动地发现有用信息的过程
C.数据挖掘需要数据库系统提供有效的存储、索引和查询处理支持。
D.数据挖掘并不需要并行、分布式计算

61. 集成学习方法是机器学习领域中用来提升分类算法准确率的技术，主要包括Bagging和Boosting即装袋和提升。集成方法中的提升法（Boosting），可以用在下列哪些方法中？

A.决策树
B.神经网络
C.贝氏分类法
D.逻辑回归

62. 下列选项哪些是通过聚集多个分类器的组合来提高分类准确率的技术？

A.袋装法（Bagging）
B.提升法（Boosting）
C.支持向量机（Support Vector Machine）
D.随机森林（Random Forest）

63. BP神经网络中，神经元节点中的激活函数（Activation Function）可以是以下哪些？

A.逻辑函数（Sigmoid）
B.双曲正切函数（tanh）
C.线性整流函数（ReLU）
D.带泄漏修正线性单元（Leaky ReLU）

64. 不同的神经网络架构方式会建立出不同的模型，以下哪些模型是神经网络的变形？

A.逻辑回归（Logistic Regression）
B.线性回归（Linear Regression）
C.贝叶斯分类（Bayes Net）
D.非线性回归（Nonlinear Regression）

65. 类神经网络（ANN），又称人工神经网络，根据计算的连接路径连接信息处理的数学计算模型或者使用，下列选项哪些是类神经网络的缺点？

A.无法得知最佳解
B.模型准确度低
C.知识结果是隐性的，缺乏解释能力
D.训练模型的时间长

66. 下列关于决策树分类算法的说法正确的是？

A.树长的太高容易过拟合
B.树长的太高容易欠拟合
C.可以通过剪枝限制过拟合
D.可解释性强

67. 决策树模型是一种描述对实例进行分类的树形结构，决策树由节点（node）和有向边（directed edge）组成，决策树中包含以下哪些节点？

A.内部节点（Internal Node）
B.外部节点（External Node）
C.根节点（Root Node）
D.叶节点（Leaf Node）

68. 决策树在长成的过程中极易出现过拟合的情况，导致泛化能力低，我们可以用哪种方式来避免决策树过度适配（Overfitting）的问题。

A.利用修建法来限制树的深度
B.利用盆栽法规定每个节点下的最小的记录数目
C.利用逐步回归法来删除部分数据
D.目前并无适合的方法来处理这问题

69. 决策树归纳是从类标记的迅联数据构建决策树，属于分类领域。遍历根节点到全部节点的路径，每条路径都属于一个元组分类。决策树归纳算法重要特点有？

A.决策树归纳是一种构建分类模型的非参数方法
B.已开发的构建决策树技术不需要昂贵的计算代价，即使训练集非常大，也可以快速建立模型
C.决策树相对容易解释，特别是小型的决策树
D.冗余属性不会对决策树的准确率造成太大的影响

70. C4.5算法是由Ross Ouinlan开发的用于生产决策树的算法，该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。下列对C4.5算法的描述正确的是？

A.每个节点的分支度只能为2
B.使用gain ratio作为节点分割的依据
C.可以处理数值型态的字段
D.可以处理空值的字段

71. 决策树归纳法ID3是人工智能机器学习中发展较快的一种归纳学习算法，决策树归纳的学习算法必须解决下面两个问题是？

A.如何分裂训练记录？
B.概率为0的问题
C.如何停止分裂过程？
D.数值型字段离散化

72. 支持向量机（SVM）在很多分类问题上曾经取得了当时最好的性能，使用非线性核的支持向量机可以处理线性不可分的问题。仅仅通过一个简单的核函数映射，就能达到如此好的效果。下列哪些是SVM的核函数（Kernel Function）？

A.Linear
B.RBF
C.Sigmoid
D.Polynomial

73. 非结构化文本就是自然状态下的文本，结构化文本就是向量化文本，是计算机语言可以识别的文本表示。以下哪些属于非结构化转结构化数据-词的表示法？

A.词袋模型（Bag of Word, Bow）
B.Glove
C.TF-IDF
D.Word2Vec（Skip-Gram & CBOW）

74. 自然语言处理方法中，IDF的含义是什么？

A.IDF代表着信息量
B.IDF越大代表这个词越重要，也越是我们想要的关键词
C.IDF越大代表这个词索引价值也越低
D.由IDF的大小我们可以得知一个词的重要程度

75. NLP为（Neuro-Linguistic Programming）是对人类主观经验的研究。以下属于NLP任务的有：

A.生成式任务：比如机器翻译、文本摘要、写诗造句、看图说话等
B.句子关系判断：比如QA、自然语言推理等
C.分类任务：比如文本分类、情感计算等
D.序列标注：比如中文分词，词性标注，命名实体识别，语义角色标注等

76. 文本标识方法通过某种形式将文本字符串表示成计算机所能处理的数值向量。下面关于文本标识说法正确的是：

A.常用的文本表示方式有：离散式标识和分布式表示
B.TF-IDF模型是分布式表示方式
C.GLOVE模型得到的词向量不能解决多义词的问题
D.ELMO模型训练的词向量可以解决多义词的问题

77. N-Gram模型是一种语言模型（Language Model，LM），语言模型是一个基于概率的判别模型，它的输入是一句话（单词的顺序序列），输出是这句话的概率，即这些单词的联合概率(joint probability）。关于N-Gram的说法正确的是？

A.N-Gram的有点是不需要进行中文分词
B.当N够大时，所有正确的分词均会出现于N-Gram中
C.噪声少，可以与许多资源结合
D.N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义

78. 文本是由特定的人进行编撰的，文本的语义结构不可避免地会反映出什么？

A.人的特定立场
B.人的特定观点
C.人的特定价值
D.人的特定利益

79. 机器学习领域中所谓的降维就是指采用某种映射方法，将原高纬控件中的数据点映射到低纬度的控件中。对于数据降维的描述正确的是

A.降维会让模型表现更差
B.降低维度肯定会损失一些信息
C.降维能提高训练速度
D.降维能用于数据可视化

80. 特征选择就是单纯地从提取到的所有特征中选择部分特征为训练集特征，以下哪些方法是特征选择中的常用方法？

A.嵌入式方法
B.融合法
C.包裹式
D.过滤法

81. Filter过滤法过滤方法通常用作预处理步骤，特征选择完全独立于任何机器学习算法。以下属于过滤式特征选择的方案有

A.方差选择
B.相关系数法
C.卡方检验
D.基于惩罚项的特征选择

82. 对数变换是我们在处理特征工程当中常用的处理方法，以下关于对数变换的描述正确的是：

A.对数函数可以对大数值范围进行压缩
B.对数变换对于重尾分布的数据，可以使较短的尾部编程较长的尾部
C.对数函数可以对小数值范围进行拓展
D.在对数变换后，特征分布更像是高斯分布了

83. 以下属于特征工程中包含内容的是

A.特征选择
B.降维
C.特征编码
D.特征构造

84. 特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程，从而提高对未知数据预测的准确性，通过特征工程我们希望去除掉数据中的：

A.多余特征
B.重复特征
C.与目标属性相关的特征
D.与输入属性将相关的特征

85. 在对缺失数据进行处理前，了解数据缺失的机制和形式是十分必要的。以下属于数据缺失机制的是

A.完全随机缺失
B.非随机缺失
C.条件随机缺失
D.非概率随机缺失

86. 以下几项中，可以归于知识发掘处理（Knowledge Discovery Process）中的数据清洗阶段的有

A.异常值处理
B.缺失值处理
C.预测结果可视化输出
D.理解业务背景

87. 以下算法中，属于无监督算法的是

A.K-Means
B.PCA
C.随机森林
D.KNN

88. 机器学习的常用方法，主要分为有监督学习（Supervised Learning）和无监督学习（Unsupervised Learning）。以下哪些算法是有监督学习算法

A.朴素贝叶斯
B.决策树
C.Apriori算法
D.SOM算法

89. 数据挖掘并不是数学或者统计某单一传统学科所研究的方向，数据挖掘接纳吸收了很多其他领域的思想，其中包括

A.来自统计学的抽样、估计和假设检验
B.信息论、信号处理
C.可视化和信息检索
D.最优化，进化计算

90. 数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。以下操作行为不属于数据挖掘的是

A.预测一位新的顾客是否会在一家百货公司消费100元以上
B.使用数据库管理系统查找个别的记录
C.通过因特网的搜索引擎查找特定的Web页面
D.银行预测一位贷款客户是否会发生违约

根据下边混淆矩阵（Confusion Matrix），回答

91. 对于属性值YES的响应率（Precision）应如何计算

A.A / (A+B)
B.A / (A+C)
C.C / (A+C)
D.B / (A+B)

92. 对于属性值YES的查全率（Recall）应如何计算

A.A / (A+B)
B.A / (A+C)
C.C / (A+C)
D.B / (A+B)

我们有一个来自于大众点评的数据，数据集保存了用户对商家的点评数据，每个商家有一个点评数据，假设我们的任务是使用协同过滤方法预测某用户给商家的打分，点评数量会是一个非常拥有的特征，因为人气和高评分之间有很强的相关性。现在我们将点评数量的分布绘制出来，如图所示：

93. 根据点评数量数据分布，需要对数据进行离散化，请问该数据需要离散化的原因是：

A.数据国语集中在较小的部分
B.数据存在明显的离群值
C.数据不符合正态分布
D.数据的分布不连续

94. 在这个分布中，数量的否是不是很均匀，如果我们想要让离散化后的每个分箱中的数量接近，应该使用的分箱方法是：

A.对数分箱
B.人工分箱
C.等深分箱
D.等宽分箱

在MNIST数据集中包含了从0-9数字的手写体图像，初始图像是28像素 * 28像素，我们希望构建预测模型预测图像中的数字，请根据题干回答一下问题

95. 如果想要对图像进行降维，这里我们使用PCA对图像维度进行压缩，PCA是以什么来判断某一个坐标轴当中信息量的多少

A.均值
B.方差
C.变异系数
D.四分位差

96. 请问选项中不是PCA转换计算流程的步骤是

A.样本集标准化
B.样本集矩阵中心化
C.计算样本矩阵的协方差矩阵C
D.求样本集矩阵的协方差矩阵的特征值和特征向量

假设词典中包括词{的确、王公、实在、在理、公子}以及所有单字集合，请分别给出句子“王公子说的确实在理”的FMM和BMM分词结果

97. FMM分词结果为？

A.王公/子/说/的确/实在/理
B.王/公子/说/的/确实/在理
C.王公子/说/的/确实/在理
D.王公子/说的/确实/在理

98. BMM分词结果为？

A.王公/子/说/的确/实在/理
B.王/公子/说/的/确实/在理
C.王公子/说/的/确实/在理
D.王公子/说的/确实/在理

根据以下混淆矩阵和ROC曲线，回答以下两题：

99. ROC曲线的X轴，实际上可以由每个阈值下混淆矩阵的（）计算而来

A.D / (C+D)
B.D / (A+D)
C.B / (B+C)
D.C / (B+C)

100. ROC曲线的y轴，实际上可以由每个阈值下混淆矩阵的（）计算而来

A.A / (A+B)
B.A / (A+D)
C.B / (B+C)
D.C / (B+C)

请根据Apriori算法回答以下问题：

101. 利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度，上述购物篮中产生支持度不小于3的候选3-项集，在候选2-项集中需要剪枝的是

A.啤酒、尿布
B.啤酒、面包
C.面包、尿布
D.啤酒、牛奶

针对Apriori Principle的原理，请回答以下题目

102. 假设长度为2的频繁项目集（Frequent ItemSet）有{A,B}, {A,E}, {B,D}, {B,F}, {D,F}, {D,G}，请问以下那一个是长度为3的候选项目集？

A.{A,B,E}
B.{D,F,G}
C.{B,D,F}
D.以上皆非

上一页机器学习-10 下一页Level III模拟（二）

最后更新于3年前

这有帮助吗？