机器学习-09

    1. 在缺失值处理时,我们可以使用missForest方法进行缺失值的填补,关于missForest方法,下面错误的是

分析:MissForest思路:利用已知变量数据当做特征,将缺失变量当做标签,其中在标签中有数值的数据为训练集,缺失数据标签部分为测试机,然后通过随机森林去更新缺失值。列对应变量、行对应于观测值,它是随机森林算法的另一种基于机器学习的数据插补法。

    2. (二级题)在区间估计的时候,如果其他条件不变,提高抽样估计的置信水平,其精确度将

    3. 在朴素贝叶斯当中,什么是先验概率

    4. 在评价多元线性回归模型拟合程度的时候,我们主要查看( )的数值

    5. 在评价多元线性回归模型拟合程度的时候,我们主要查看( )的数值

    6. 在欧式空间中,到所有样本点的欧式距离的平方和最小的点是

    7. 在某回归模型中,数据分析员希望探索分类变量各类别之间增长率的差异,采用以下哪种方法比较合适?

    8. 在模型评估过程中,有哪些主要的验证方法

    9. 在逻辑回归中需要做哑变量处理的数据类型是

    10. 在逻辑回归分析中,使用的估计方法是

分析:最大似然估计,是通过已知的结果反推出导致最大结果的参数,极大似然估计是概率论在统计学中的应用,它提供了一种给定观察数据来评估模型参数的方法,即:模型已确定、参数未确定。通过若干次实验,利用实验的某个参数使得样本出现的概率最大,称为极大似然估计。逻辑回归有标签,即从已知结果入手去推导能够获得最大概率的结果参数,只要找到这个参数,那么该模型就可以较为准确地预测数据了。

    11. 在考虑长距离依赖方面,下面哪个模型效率最高

    12. 在决策树算法中,ID3使用哪个度量来进行特征的选择

    13. 在进行数据分析时,经常要分割训练集、测试集,并且还要考虑数据预处理、特征抽取、特征工程等,那么要仔细分析这些步骤之间的相互联系。关于训练集、测试集、数据预处理、特征工程,请回答以下问题关于缺失值填充与训练集、测试集的关系,下面正确的操作是

    14. 在基本K均值算法里,当邻近度函数采用以下哪种距离的时候,合适的质心是簇中各点的中位数?

    15. 在基本K均值算法里,当邻近度函数采用( )的时候,合适的质心是簇中各点的中位数?

    16. 在获取训练(Train)集时,一般使用什么方法

    17. 在回归模型中,通过最小化真实值和预测值之间的SSE来求解参数的方法叫做

    18. 在关联分析中,频繁项集的评估标准不包括

    19. 在二分类的问题上,一般是以何值做为分类概率的门坎值

    20. 一个词越常出现在多篇文章中,其IDF会越接近

分析:IDF是逆向文本概率,这个值是词语普遍性的重要性度量,越常出现在多篇文章反而证明该词不一定重要,所以IDF值越小

    21. 一般情况下,以下哪些指标不用于聚类模型评价

    22. 一般情况下,以下哪些指标不用于分类模型中的模型评价

    23. 一般,K-NN最近邻算法在( )情况下效果较好

    24. (题目重复)亚马逊(Amazon)网站中所作的书籍推荐(Also Bought),是利用下列何种算法

    25. 亚马逊(Amazon)网站中所作的书籍推荐(Also Bought),是利用下列何种算法

  1. 哑变量变换主要解决的问题,说法错误的是

    27. 修正的R方相对于R方的改进在于

    28. 小王为了运用逻辑回归进行反欺诈识别,直接从数据库中运用简单随机抽样的方法进行抽样,并得到了10000条样本,其中7000作为训练,3000作为测试,在测试集中小王的正负样本整体预测准确率为99.7%,下边表述错误的是

    29. 下面有关向量空间模型(VSM)的描述中,错误的是

    30. 下面有关分类算法的精确率、召回率、F1值的描述,错误的是?

    31. 下面哪种是Attention的结构方式

缺解析

    32. 下面哪种不是RNN的变体

    33. 下面哪一项不是自然语言处理的基础任务?

    34. 下面哪项技能可用于单词归一化,即把单词转换为其基本形式?

  • 1.词形还原(Lemmatization)

  • 2.Levenshtein

  • 3.词干提取(Stemming)

  • 4.深测法(Soundex)

    35. 下面哪个统计机器学习模型可以用于文本分类

    36. 下面哪个过程不属于方法论描述的数据挖掘阶段

    37. 下面哪个工具库主要用来中文分词

    38. 下面哪个变量属于名义变量

    39. 下面关于知识图谱的说明中,正确的是:

    40. 下边关于贝叶斯分类器描述错误的是

分析:贝叶斯分类是先验概率。

    41. 下面关于ID3算法中描述错误的是

    42. 下面关于 bagging 和 boosting 说法正确的是

    43. 下列应用比较合适使用RNN模型N V 1变体实现的是

    44. 下列应用比较适合使用RNN模型1 V N变体实现的是

    45. 下列选项中不属于无监督分箱法的是

    46. 下列属于无监督学习的是

    47. 下列属于定量数据的是

    48. 下列哪种模型可以被用于解决文本相似度问题?

    49. 下列哪种分类算法的训练结果最难以被人解读

    50. 下列哪种方法常用来预测连续独立变量

最后更新于