机器学习-09
1. 在缺失值处理时,我们可以使用missForest方法进行缺失值的填补,关于missForest方法,下面错误的是
分析:MissForest思路:利用已知变量数据当做特征,将缺失变量当做标签,其中在标签中有数值的数据为训练集,缺失数据标签部分为测试机,然后通过随机森林去更新缺失值。列对应变量、行对应于观测值,它是随机森林算法的另一种基于机器学习的数据插补法。
2. (二级题)在区间估计的时候,如果其他条件不变,提高抽样估计的置信水平,其精确度将
3. 在朴素贝叶斯当中,什么是先验概率
4. 在评价多元线性回归模型拟合程度的时候,我们主要查看( )的数值
5. 在评价多元线性回归模型拟合程度的时候,我们主要查看( )的数值
6. 在欧式空间中,到所有样本点的欧式距离的平方和最小的点是
7. 在某回归模型中,数据分析员希望探索分类变量各类别之间增长率的差异,采用以下哪种方法比较合适?
8. 在模型评估过程中,有哪些主要的验证方法
9. 在逻辑回归中需要做哑变量处理的数据类型是
10. 在逻辑回归分析中,使用的估计方法是
分析:最大似然估计,是通过已知的结果反推出导致最大结果的参数,极大似然估计是概率论在统计学中的应用,它提供了一种给定观察数据来评估模型参数的方法,即:模型已确定、参数未确定。通过若干次实验,利用实验的某个参数使得样本出现的概率最大,称为极大似然估计。逻辑回归有标签,即从已知结果入手去推导能够获得最大概率的结果参数,只要找到这个参数,那么该模型就可以较为准确地预测数据了。
11. 在考虑长距离依赖方面,下面哪个模型效率最高
12. 在决策树算法中,ID3使用哪个度量来进行特征的选择
13. 在进行数据分析时,经常要分割训练集、测试集,并且还要考虑数据预处理、特征抽取、特征工程等,那么要仔细分析这些步骤之间的相互联系。关于训练集、测试集、数据预处理、特征工程,请回答以下问题关于缺失值填充与训练集、测试集的关系,下面正确的操作是
14. 在基本K均值算法里,当邻近度函数采用以下哪种距离的时候,合适的质心是簇中各点的中位数?
15. 在基本K均值算法里,当邻近度函数采用( )的时候,合适的质心是簇中各点的中位数?
16. 在获取训练(Train)集时,一般使用什么方法
17. 在回归模型中,通过最小化真实值和预测值之间的SSE来求解参数的方法叫做
18. 在关联分析中,频繁项集的评估标准不包括
19. 在二分类的问题上,一般是以何值做为分类概率的门坎值
20. 一个词越常出现在多篇文章中,其IDF会越接近
分析:IDF是逆向文本概率,这个值是词语普遍性的重要性度量,越常出现在多篇文章反而证明该词不一定重要,所以IDF值越小
21. 一般情况下,以下哪些指标不用于聚类模型评价
22. 一般情况下,以下哪些指标不用于分类模型中的模型评价
23. 一般,K-NN最近邻算法在( )情况下效果较好
24. (题目重复)亚马逊(Amazon)网站中所作的书籍推荐(Also Bought),是利用下列何种算法
25. 亚马逊(Amazon)网站中所作的书籍推荐(Also Bought),是利用下列何种算法
哑变量变换主要解决的问题,说法错误的是
27. 修正的R方相对于R方的改进在于
28. 小王为了运用逻辑回归进行反欺诈识别,直接从数据库中运用简单随机抽样的方法进行抽样,并得到了10000条样本,其中7000作为训练,3000作为测试,在测试集中小王的正负样本整体预测准确率为99.7%,下边表述错误的是
29. 下面有关向量空间模型(VSM)的描述中,错误的是
30. 下面有关分类算法的精确率、召回率、F1值的描述,错误的是?
31. 下面哪种是Attention的结构方式
缺解析
32. 下面哪种不是RNN的变体
33. 下面哪一项不是自然语言处理的基础任务?
34. 下面哪项技能可用于单词归一化,即把单词转换为其基本形式?
1.词形还原(Lemmatization)
2.Levenshtein
3.词干提取(Stemming)
4.深测法(Soundex)
35. 下面哪个统计机器学习模型可以用于文本分类
36. 下面哪个过程不属于方法论描述的数据挖掘阶段
37. 下面哪个工具库主要用来中文分词
38. 下面哪个变量属于名义变量
39. 下面关于知识图谱的说明中,正确的是:
40. 下边关于贝叶斯分类器描述错误的是
分析:贝叶斯分类是先验概率。
41. 下面关于ID3算法中描述错误的是
42. 下面关于 bagging 和 boosting 说法正确的是
43. 下列应用比较合适使用RNN模型N V 1变体实现的是
44. 下列应用比较适合使用RNN模型1 V N变体实现的是
45. 下列选项中不属于无监督分箱法的是
46. 下列属于无监督学习的是
47. 下列属于定量数据的是
48. 下列哪种模型可以被用于解决文本相似度问题?
49. 下列哪种分类算法的训练结果最难以被人解读
50. 下列哪种方法常用来预测连续独立变量
最后更新于
这有帮助吗?