Level III模拟(一)

    1. 对于分类器性的性能,我们需要不同的维度来进行综合度量。一下不属于分类器评价或比较尺度的有?

    2. 下面有关分类算法的准确率、查全率、F1值的描述,错误的是?

    3. 回归树是可以用于回归的决策树模型,一个回归树对应着输入空间(即特征空间)的一个划分以及在划分单元上的输出值,以下哪个指标可用于回归树中的模型比较

    4. 序列模式挖掘(sequence pattern mining)是指挖掘相对时间或其他模式出现频率高的模式,典型的应用还是限于离散型的序列。下列哪个选项不属于序列模式的时限约束?

    5. Apriori算法中,候选序列的个数比候选项集的个数大得多,产生更多候选的原因有?

分析:事件由项构成。

    6. 考虑下面的频繁3-项集的集合:

  • {1,2,3}

  • {1,2,4}

  • {1,2,5}

  • {1,3,4}

  • {1,3,5}

  • {1,4,5}

  • {2,3,4}

  • {2,3,5}

  • {3,4,5}

    假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包括:

    7. 广为流传的“啤酒与尿布”的故事,其北河的模型实际上是哪一类?

    8. Apriori算法,最有可能可用来解决以下哪个问题?

    9. 在聚类(Clustering)的问题中,若数据字段属性都是二元属性(Binary Variable),根据下表,下列何者是Jaccard Coefficient计算数据间距离的公式?

    10. 以下哪个选项是分割式聚类算法

    11. 在机器学习中,非监督学习主要用来分类,其中重要的两种就是聚类分析和主成分分析。下列哪个选项不是聚类分析的算法

    12. 下列哪种集成算法,会重复抽取训练数据集中的数据,且每笔被抽中的概率始终保持一致?

    13. 提升方法(Boosting),是一种可以用来减小监督式学习中偏差的机器学习算法。基于Boosting的集成学习,其代表算法不包括?

    14. 集成学习(Bagging)也叫做boostrap aggregating,是在原始数据集选择S次后得到S个新数据集的一种技术,其代表算法有?

    15. 集成学习(Bagging)也叫做boostrap aggregating,是在原始数据集选择S次后得到S个新数据集的一种技术,其代表算法有?

    16. 逻辑回归和支持向量机(SVM)都是经典的机器学习模型,逻辑回归和SVM的联系与区别,不正确的是?

分析:参考:机器学习-03

    17. 如何以类神经网络仿真逻辑回归(Logistic Regression)

    18. 类神经网络(ANN),又称为人工神经网络,根据计算的连接路径连接信息处理的数学计算模型或者使用。在进行类神经网络之前,数据要如何做准备?

    19. BP(back propagation)神经网络是1986年由Rumelhart和McClelland为首的科学家提出的概念,是一种按照误差逆向传播算法训练的多层前馈神经网络,是应用最广泛的神经网络。BP神经网络的训练顺序为何?

  • A.调整权重

  • B.计算误差值

  • C.利用随机的权重产生输出的结果

    20. 在完整的机器学习流程中,数据标准化(Data Standardization)一直是一项重要的处理流程。不同模型对于数据是否标准化的敏感程度不同,以下哪个模型对变量是否标准化不敏感?

    21. 在决策树算法中,ID3使用哪个度量来进行特征的选择?

    22. 决策树由节点和边两种元素组成的结构,决策树中不包含以下哪一种节点?

    23. 朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。下列选择不属于朴素贝叶斯分类器特点的是?

    24. 贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。以下哪一个属于贝叶斯分类算法?

    25. Skip-Gram模型的基础形式非常简单,为了更清楚地界解释模型,我们先从最一般的基础模型来看Word2Vec。Skip-Gram模型不包含以下哪一项?

    26. 关于Skip-Gram模型,以下说法正确的是?

    27. Word2vec,是一群用来产生词向量的相关模型,用来训练以重新建构语言学之词文本。Word2Vec包含哪两种模型?

    28. 关于词嵌入模型,以下说法错误的是?

    29. 词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。以下关于词袋模型(Bag of Word, BoW)的说法正确的是?

    30. IDF逆向文件频率(Inverse Document Frequency),IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。逆向文件频率IDF的相关说法,以下错误的是?

    31. 自然语言处理工作中,在自动构建关键词(非控制字汇)时,经常采用的方法是?

    32. 向量空间模型是信息检索技术,下面有关向量空间模型(VSM)的描述中,错误的是:

    33. 全文扫描、逐项反转、签名文件是信息检索技术中的基本检索法。信息检索技术中的签名文件(Signature File)指的是?

    34. 汉语自动分词是中文信息处理的重要基石,困扰汉语自动分词发展的原因有很多,对歧义字段的排除是待解决的几个难题之一。以下哪一项不属于多义词的歧义排除经典算法?

    35. Word2vec,是一群用来产生词向量的相关模型,这些模型为浅而双层的神经网络,用来训练以重新构建语言学之词文本。关于word2vec模型,下面说法不正确的是:

    36. 信息撷取与检索(Information Extraction & Retrieval)以及文本挖掘(Text Mining)的基础是?

    37. 在自然语言处理中常常使用词嵌入法,所谓词嵌入法,是将文本转换为较低维度空间的矢量表示,以下描述中错误的是:

    38. 监督特征学习中,被标记过的数据被当做特征来学习,以下不属于监督特征学习的是:

    39. 在PCA的计算步骤过程中,有一步是将特征向量按对应特征值大小从上到下按行排列成矩阵,这里特征值代表了什么

    40. 在PCA转换过程中,用到了协方差,以下关于协方差的描述正确的是

    41. 现实中往往很多数据是线性不可分的,因此我们需要引入核函数把数据映射到高维度而达到线性可分。KPCA成为核主成分分析,核主成分分析解决了PCA存在的什么问题?

    42. 使用带L1惩罚项的逻辑回归模型进行特征选择,以下选择中错误的是:

    43. 一下关于递归特征消除法(RFE)的描述中错误的是?

    44. 卡方检验是检验定性自变量对定性因变量的相关性,卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,以下关于卡方检验的描述中错误的是

    45. 逆向文本频率(inverse document frequency,IDF)是一个词语普遍重要性的度量,在关键词的撷取中为什么要引入逆向文本频率IDF呢?

    46. 特征缩放是对输入数据进行标准化所需的重要预处理之一,关于min-max特征缩放的描述错误的是:

    47. 常见的缺失值填充法有填充默认值、均值、众数等方式。下面可以对分类的缺失值填充的方法是?

    48. 特征工程是将原始数据转化为特征的过程,这些特征可以更好地向预测模型描述潜在问题,从而提供模型对未见数据的准确性。以下不属于特征工程的涵盖范围的是

    49. 随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销的模拟的建模,统计客户来源,保留和流失,也可以用来预测疾病的风险和患病者的易感性。以下关于随机森林描述中错误的是:

分析:随机森林算法基分类器通常使用CART分类回归树,但也可以自己选择。

    50. XGBoost是“极端梯度提升”(eXtrame Gradient Boosting)的简称,下面关于XGBoost算法描述错误的是

    51. 数据泛化把较低层次的概念用较高层次的概念替换来汇总数据。以下对于数据泛化描述错误的是:

    52. 关联规则挖掘的目的是在数据项目中找出所有的并发关系,以下可用作数据挖掘分析中的关联规则算法有

    53. 不同类型的机器学习模型,所使用的模型评价指标也有所不同。一般情况下,以下哪些指标不用于聚类模型评价

    54. 无监督学习和监督学习是机器学习最基本的两种类型,下列哪些算法属于无监督学习(Unsupervised Learning)的算法?

    55. 很多研究问题时常常需要估算不同样本之间的相似度度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离很是讲究,甚至关系到分类的正确与否。两个点在坐标系上的绝对轴距总和指的是?

    56. 在KNN算法上进行预测概率的推估时,会采用哪一种方法,以保证每一类的预测概率不为0

    57. 数据准备方法是在评估模型性能之前对整个数据集进行处理,这会导致数据泄漏的问题,而在数据清洗过程中(缺失值、异常值),以下哪个做法是正确的?

    58. 知识发掘处理(Knowledge Discovery Process)的执行顺序,下列何者是正确的

  • A.数据清洗

  • B.数据选择

  • C.数据编码

  • D.数据扩充

  • E.数据挖掘

  • F.结果呈现

    59. 数据挖掘起始于20世纪下半叶,是在当时多个学科发展的基础上发展起来的。关于数据挖掘的发展历程,下列何者是正确的:

  • A.数据统计

  • B.数据挖掘

  • C.数据查询

  • D.数据搜集

    60. 数据挖掘结合了数据库、人工智能、机器学习、统计学、高性能计算、模式识别、神经网络、数据可视化、信息检索和空间数据分析等多个领域的理论和技术。关于数据挖掘下列说法不正确的是

    61. 集成学习方法是机器学习领域中用来提升分类算法准确率的技术,主要包括Bagging和Boosting即装袋和提升。集成方法中的提升法(Boosting),可以用在下列哪些方法中?

    62. 下列选项哪些是通过聚集多个分类器的组合来提高分类准确率的技术?

    63. BP神经网络中,神经元节点中的激活函数(Activation Function)可以是以下哪些?

    64. 不同的神经网络架构方式会建立出不同的模型,以下哪些模型是神经网络的变形?

    65. 类神经网络(ANN),又称人工神经网络,根据计算的连接路径连接信息处理的数学计算模型或者使用,下列选项哪些是类神经网络的缺点?

    66. 下列关于决策树分类算法的说法正确的是?

    67. 决策树模型是一种描述对实例进行分类的树形结构,决策树由节点(node)和有向边(directed edge)组成,决策树中包含以下哪些节点?

    68. 决策树在长成的过程中极易出现过拟合的情况,导致泛化能力低,我们可以用哪种方式来避免决策树过度适配(Overfitting)的问题。

    69. 决策树归纳是从类标记的迅联数据构建决策树,属于分类领域。遍历根节点到全部节点的路径,每条路径都属于一个元组分类。决策树归纳算法重要特点有?

    70. C4.5算法是由Ross Ouinlan开发的用于生产决策树的算法,该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。下列对C4.5算法的描述正确的是?

    71. 决策树归纳法ID3是人工智能机器学习中发展较快的一种归纳学习算法,决策树归纳的学习算法必须解决下面两个问题是?

    72. 支持向量机(SVM)在很多分类问题上曾经取得了当时最好的性能,使用非线性核的支持向量机可以处理线性不可分的问题。仅仅通过一个简单的核函数映射,就能达到如此好的效果。下列哪些是SVM的核函数(Kernel Function)?

    73. 非结构化文本就是自然状态下的文本,结构化文本就是向量化文本,是计算机语言可以识别的文本表示。以下哪些属于非结构化转结构化数据-词的表示法?

    74. 自然语言处理方法中,IDF的含义是什么?

    75. NLP为(Neuro-Linguistic Programming)是对人类主观经验的研究。以下属于NLP任务的有:

    76. 文本标识方法通过某种形式将文本字符串表示成计算机所能处理的数值向量。下面关于文本标识说法正确的是:

    77. N-Gram模型是一种语言模型(Language Model,LM),语言模型是一个基于概率的判别模型,它的输入是一句话(单词的顺序序列),输出是这句话的概率,即这些单词的联合概率(joint probability)。关于N-Gram的说法正确的是?

    78. 文本是由特定的人进行编撰的,文本的语义结构不可避免地会反映出什么?

    79. 机器学习领域中所谓的降维就是指采用某种映射方法,将原高纬控件中的数据点映射到低纬度的控件中。对于数据降维的描述正确的是

    80. 特征选择就是单纯地从提取到的所有特征中选择部分特征为训练集特征,以下哪些方法是特征选择中的常用方法?

    81. Filter过滤法过滤方法通常用作预处理步骤,特征选择完全独立于任何机器学习算法。以下属于过滤式特征选择的方案有

    82. 对数变换是我们在处理特征工程当中常用的处理方法,以下关于对数变换的描述正确的是:

    83. 以下属于特征工程中包含内容的是

    84. 特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高对未知数据预测的准确性,通过特征工程我们希望去除掉数据中的:

    85. 在对缺失数据进行处理前,了解数据缺失的机制和形式是十分必要的。以下属于数据缺失机制的是

    86. 以下几项中,可以归于知识发掘处理(Knowledge Discovery Process)中的数据清洗阶段的有

    87. 以下算法中,属于无监督算法的是

    88. 机器学习的常用方法,主要分为有监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)。以下哪些算法是有监督学习算法

    89. 数据挖掘并不是数学或者统计某单一传统学科所研究的方向,数据挖掘接纳吸收了很多其他领域的思想,其中包括

    90. 数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。以下操作行为不属于数据挖掘的是

根据下边混淆矩阵(Confusion Matrix),回答

    91. 对于属性值YES的响应率(Precision)应如何计算

    92. 对于属性值YES的查全率(Recall)应如何计算

我们有一个来自于大众点评的数据,数据集保存了用户对商家的点评数据,每个商家有一个点评数据,假设我们的任务是使用协同过滤方法预测某用户给商家的打分,点评数量会是一个非常拥有的特征,因为人气和高评分之间有很强的相关性。现在我们将点评数量的分布绘制出来,如图所示:

    93. 根据点评数量数据分布,需要对数据进行离散化,请问该数据需要离散化的原因是:

    94. 在这个分布中,数量的否是不是很均匀,如果我们想要让离散化后的每个分箱中的数量接近,应该使用的分箱方法是:

在MNIST数据集中包含了从0-9数字的手写体图像,初始图像是28像素 * 28像素,我们希望构建预测模型预测图像中的数字,请根据题干回答一下问题

    95. 如果想要对图像进行降维,这里我们使用PCA对图像维度进行压缩,PCA是以什么来判断某一个坐标轴当中信息量的多少

    96. 请问选项中不是PCA转换计算流程的步骤是

假设词典中包括词{的确、王公、实在、在理、公子}以及所有单字集合,请分别给出句子“王公子说的确实在理”的FMM和BMM分词结果

    97. FMM分词结果为?

    98. BMM分词结果为?

根据以下混淆矩阵和ROC曲线,回答以下两题:

    99. ROC曲线的X轴,实际上可以由每个阈值下混淆矩阵的( )计算而来

    100. ROC曲线的y轴,实际上可以由每个阈值下混淆矩阵的( )计算而来

请根据Apriori算法回答以下问题:

    101. 利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度,上述购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的是

针对Apriori Principle的原理,请回答以下题目

    102. 假设长度为2的频繁项目集(Frequent ItemSet)有{A,B}, {A,E}, {B,D}, {B,F}, {D,F}, {D,G},请问以下那一个是长度为3的候选项目集?

最后更新于