Level III模拟(二)
1. 以下哪个指标不能用于线性回归中的模型比较:
2. ROC曲线一般指接受者操作特征曲线。接受者操作特性曲线是指在特定刺激条件下,以被试在不同判断标准下所得的虚报概率P(y/N)为横坐标,以击中概率P(y/SN)为纵坐标,画得的各点的连线。在使用ROC曲线判断模型的优劣时,以下哪个叙述是正确的?
3. 机器学习中的分类模型有逻辑回归、朴素贝叶斯、决策树、支持向量机、随机森林、梯度提升树等分类算法。一般情况下,以下哪些指标不用于分类模型中的模型评价:
4. 关于序列模式的说法,下列选项不正确的是?
分析:选项C说反了。
5. 序列模式挖掘(sequence pattern mining)是指挖掘相对时间或其他模式出现频率高的模式,典型的应用还是限于离散型的序列。序列模式中关于序列的说法不正确的是?
6. 假设{BCE}为一频繁项目集(Frequent Itemset),则根据Apriori Principle以下何者不是自频繁项目
7. 有一条关联规则为A->B,此规则的置信水平(confidence)为60%,则代表:
8. 关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。以下关于关联分析的是:
9. 聚类分析是指将数据对象的集合分组为由类似的对象组成的多个类的分析过程,以下哪个是聚类分析所关心的重点?
10. BIRCH是以下哪种算法的简称?
11. 系统聚类法(hierarchical cluster method)又称“分层聚类法”,是聚类分析的一种方法,而在系统聚类中R2是指
12. 以下文本特征向量化的方法中属于词嵌入模型的是?
13. 多层感知机和单层感知机一样,是一种人工神经网络,多层感知机解决了单层感知机不能解决的什么问题?
14. 随机森林(Random Forest)是一种集成算法(Ensemble Learning),它属于Bagging类型,通过组合多个弱分类器,最终结果通过投票或取均值,使得整体模型的结果具有较高的精确度和泛化性能。集成算法中的随机森林(Random Forest),是下列哪个方法的延伸?
15. 加入我们使用非线性可分的SVM目标函数作为最优化对象,我们怎么保证模型线性可分?
16. 可解释性是人类能够理解决策原因的程度。机器学习模型的可解释性越高,人就越容易理解为什么做出某些决定或预测。下列哪种算法的可解释最差?
17. 卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。卷积神经网络中Dropout层的作用是?
18. BP神经网络是一种多层的前馈神经网络,其主要的特点是:信号是前向传播的,而误差是反向传播的。BP神经网络可以有几层隐藏层?
19. 逻辑回归Logistic Regression和神经网络都可以进行多类别分类,那么如何以类神经网络仿真逻辑回归?
20. 决策树建模时一个必要的步骤是决策树的修剪,下列哪个选项不是决策树需要修剪的原因?
21. 下列哪个决策树的算法采用盆栽法(Bonsai Technique)由上而下(Top-Down)的方式来剪枝?
22. 在决策树算法的学习过程中,信息增益(Information Gain)是特征选择的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,决策树中的信息增益的计算是用来?
23. 朴素贝叶斯(Naive Bayes)是基于贝叶斯定理与特征条件独立假设的分类方法,可以用来预测何种数据型态?
24. 朴素贝叶斯(Naive Bayes)是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是
25. CBOW和Skip-Gram都是在word2vec中用于将文本进行向量表示的实现方法,关于Skip-Gram模型与CBOW模型的描述,以下正确的是
26. CBOW模型根据某个中心词前后A个连续的词,来计算中心词出现的概率,即用上下文预测目标词,模型结构简易。CBOW模型不包含以下哪一项?
27. Word2Vec是Google在2013年开源的一款词向量化的高效工具,主要包含两个模型:连续词贷模型(continuous bag of words,简称CBOW)跳字模型(skip-gram)。关于CBOW模型,以下说法错误的是?
28. Glove模型标识的语义词向量相似度尽可能接近在统计贡献矩阵中统计相似度,并且不同共现的词有不同权值。关于GloVe模型的描述,以下正确的是?
29. 词袋模型(Bag-of-words model)是个在自然语言处理和信息检索(IR)下辈简化的表达模型,以下关于词袋模型的说法错误的是?
30. TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。关于TF与IDF,以下说法正确的是
31. 词频(Term Frequency)是自然语言处理算法中非常常见的一个概念,关于词频(Term Frequency)的说法,以下错误的是?
32. 自然语言处理工作中,在关键词提取的时候,有一类叫“Stop Words”的词语,其含义是什么?
33. 关于信息检索技术中的全文扫描(Full-Text Scanning)技术的缺点,说法正确的是?
34. 关于统计式分词的缺点,以下说法错误的是
35. 计算机分词的研究、可略分为法则式分词法和统计式粉刺发,这两种分词的方法都需依赖词典的辅助。而关于统计式分词,以下说法正确的是?
36. “从众多的文档中把一些内容相似的文档聚为一类的技术,同类的文本相似度较大,而不同类的文本相似度较小”以上描述的是什么自然语言处理方法?
37. 卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。关于CNN网络的有点,说法不正确的是?
分析:捕捉长期信息是循环神经网络的特点,不是卷积神经网络的特点。
38. 神经网络的特点是端到端的学习,以下对于神经网络和特征工程的描述错误的是
39. 关于多层神经网络特征学习,以下描述错误的是
40. PCA即主成分分析技术,又称为分量分析技术,其原理中第一步应该做的是:
41. 特征降维一般有两类:特征选择和特征抽取,以下属于常用的特征降维方法的有
42. PCA是一种常用的降维方法,以下关于PCA的描述中错误的是
43. 如果要使用方差选择法,选择所有方差大于1的特征,要求代码能直接返回结果,以下代码中正确的是
44. 在sklearn中,有很多API可以用来进行特征选择,下面不属于用于特征选择的API的是?
45. Filter过滤方法通常用作预处理步骤,特征选择完全独立于任何机器学习算法。以下哪个方法属于过滤式特征选择
46. 在特征工程里,特征编码是很重的一块,在特征编码时,会将一列特征变成多列的方法是:
47. 在百万歌曲数据集中(Million Song Dataset)包含某个用户对某一首歌的听歌次数,如果我们将超过1的数值转换成1,否则转换成0,这属于特征处理中的什么方案:
48. 在数据科学过程中的有效属性(或字段)的形式称为特征,以下不属于数据科学中常用特征的为:
49. 缺失值从缺失的分布来讲可以分为完全随机确实、随机确实和完全非随机确实。随机确实指的是
50. KNN缺失值填补中描述中正确的是
51. KNN填补缺失值利用的是什么原理
52. 和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier或 NBC)发源于古典教学理论,有着坚实的数学基础。朴素贝叶斯分类是属于数据挖掘中的什么方法?
53. 亚马逊(Amazon)作为推荐引擎的鼻祖,其推荐的核心是通过数据挖掘算法和比较用户的消费偏好与其他用户进行对比,借以预测用户可能感兴趣的商品。亚马逊网站中所做的书籍推荐(Also Bought),是利用下列何种算法?
54. AprioriAll算法本质上是Apriori算法思想的扩张,而AprioriAll算法可用来解决何种问题?
55. 线性回归(Linear Regression)算法,可以用来解决哪种问题?
56. K均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法。在k均值聚类算法里,当邻近度函数采用以下哪种距离的时候,合适的置信是簇中各点的中位数?
57. 缺失值是指粗糙数据中由于缺少信息而造成的数据删失或截断等问题。缺失值(NULL Value)的处理是在知识发掘(Knowledge Discovery Process)中的哪一个阶段?
58. 知识发掘处理(Knowledge Discovery Process)的执行顺序,下列何者是正确的
A.数据清洗
B.数据选择
C.数据编码
D.数据扩充
E.数据挖掘
F.结果呈现
59. 数据挖掘融合了数据库、人工智能、机器学习、统计学、高性能计算、模式识别、神经网络、数据可视化、信息检索和空间数据分析等多个领域的理论和技术。下列哪选项不属于数据挖掘
60. 进入21世纪,数据挖掘已经成为一门比较成熟的交叉学科,并且数据挖掘技术也伴随着信息技术的发展日益成熟起来。关于数据挖掘,下列说法不正确的是
61. 支持向量机是在统计学习理论的基础上发展起来的一种机器学习方法,它基于结构风险最小化原则,能有效地解决学习问题,具有良好的推广性能和较好的分类精确性,通常可以用来解决何种问题
62. 在整个随机森林的算法过程中,以下哪两个随机过程可使随机森林很大程度上避免了过拟合现象的出现
63. 可以降低产生频繁项集计算复杂度的方法有?
64. 请问要符合什么条件才可被称为关联规则?
65. Apriori算法是常用的用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合,找出这些集合的模式有助于我们做一些决策。Apriori算法的计算复杂度受( )影响
66. K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。下列有关K-means算法的叙述何者有误?
67. 以下哪些算法,可以用神经网络去构造?
68. 决策树建模时一个必要步骤是决策树的修剪,下列选项是决策树需要修剪的原因的有?
69. 决策树归纳算法可以为哪种类型的属性提供表示属性测试条件和其对应输出的方法
70. 决策树(Decision Tree)是一种简单易用的非参数分类器,通常可以用来解决何种问题?
71. 朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器。朴素贝叶斯分类器一般具有如下特点。
72. 有监督学习是从标签化训练数据集中推断出函数的机器学习任务。以下算法中,属于有监督算法的是
73. 奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法。以下关于奇异值分解算法的说法,正确的是?
74. 文件语意的抽象层次可以是以什么为单位?
75. 在中文的自然语言处理工作中,以下属于建立关键词的程序是?
76. 以下关于自然语言处理的逐项凡转法的说法,正确的是?
77. 法则式分词是一种机械分词方法,主要通过维护词典,在切分语句时,将语句的每个字符串与词典中的词进行逐一匹配,找到则切分,否则不切分。在分词技术中,关于法则式分词的说法正确的是?
78. 自然语言处理(NLP)是计算机科学、人工智能、语言学关注计算机和人类(自然)语言之间的相互作用的领域。以下选项属于自然语言处理方法的是?
79. 在机器学习中,特征学习或表征学习是学习一个特征的技术集合:将原始数据转换成能够被机器学习来有效开发的一种形式。特征学习主要可以分为两类,是哪两类?
80. 包裹式特征选择法的特征选择过程与学习器相关,使用学习器的性能作为特征选择的评价准则,选择最有利于学习器性能的特征子集。以下对于包裹式特征选择中正确的是
81. 特征选择(Feature Selection)和特征提取(Feature Extraction)是特征工程(Feature Engineering)的两个重要子内容。需要做特征选择工作的两个主要原因是
82. 无量纲化,也称为数据的规范化,是指不同指标之间由于存在量纲不同致其不具可比性,故首先需将指标进行无量纲化,消除量纲影响后再进行接下来的分析。sklearn中一些无量纲化的常见操作方法有:
83. TF-IDF(term frequency-inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,tf-idf中的tf和idf代表了什么含义?
84. 假设我们要做一个图像识别工作,以下哪个属于特征
85. 数据缺失是众多影响数据质量的因素中最常见的一种,如果处理不好缺失数据,就会直接影响分析结果的可靠性,进而达到不分析的目的。以下可以用作缺失值填补的模型是:
86. 机器学习算法有很多,有分类、回归、聚类、推荐、图像识别领域等等,下列哪些算法可以用于分类问题?
87. 对于随即缺失和非随机缺失,直接删除记录是不合法的。而对于离散型变量使用以下哪个统计量进行缺失值填补较合适?
88. 如果整个数据分析模型完成后,发现效果不良,考虑从哪些步骤入手改进?
89. 无监督算法(unsupervised learning)属于机器学习(machine learning)的一种,下列哪些算法为不监督机器学习法?
90. 以下哪些数据挖掘工具,在数据处理以及建模时是不需要编程的?
由于竞争加剧,某电信公司用户流失情况日趋严重,为了更好的预测用户的未来流失的可能性,数据分析团队准备建立客户流失的预测模型,用于提前了解用户流失的倾向,进行提前挽留和客户关怀,结合客户流失建模过程中的具体问题,请回答以下题目:
91. 建模过程中,X变量的设计非常重要,在流失模型中常用的RFM变量是指以下哪几个常用变量
92. 以下关于数据诊断清洗的说法哪些是正确的
在乳腺癌数据集当中有30个数值型特征,分别代表了30个光片上面的特征,其中包含平均半径、平均光滑度,平均紧凑度等,但数据的量纲不同,请回答以下问题:
93. 以下模型中有哪一个是不需要统一量纲的?
94. 在L2归一化方法中,以下描述不正确的是
在一组学校学生信息数据中,有一列数据是血型,如图所示:
95. 如果我们直接将某列有序变量进行顺序数值编码,存在的问题是
96. 为了解决有序编码中存在的问题,我们可以采用one-hot编码方式,one-hot编码中,原来一共有4个不同的血型,那么编码之后一般来说会拆分成几列
假设有句子“他说的确实在理”,对这句话进行分词。
97. 中文分词是NLP任务中重要的一步,如果对“他说的确实在理”利用结巴进行全切分,其结果为?
98. 如果第二步选择Viterbi动态规划,那么第三步如果使用统计分词方法,将会选择以下什么作为切分结果?
最后更新于
这有帮助吗?