机器学习-10

    1. 下面有关分类算法的精确率、召回率、F1值的描述,错误的是

    2. 主成分分析算法认为数据的信息是包含在( )中

    3. 主成分分析计算分为根据相关系数和( )两种方式

    4. 知识发掘处理(Knowledge Discovery Process)的执行顺序,下列何者是正确的

  • A:数据清洗

  • B:数据选择

  • C:数据编码

  • D:数据扩充

  • E:数据挖掘

  • F:结果呈现

    5. 在预测性数据分析中,当解释变量为分类变量,被解释变量是连续变量时,所采用的分析技术是:

    6. 在因子分析中,为了帮助解释因子,我们可以使用

    7. 在一个维的空间中,最好的检测离群点的方法是

    8. 在线性回归模型中,如果判定系数越大,下列说法错误的是

分析:判定系数(Coefficient of Determination),也称为可决系数或决定系数,是指在线性回归中,回归平方和与总离差平方和的比值,数值等于相关系数的平方,它是对估计的回归方程拟合优度的度量。在统计学中用于度量因变量的变异中可自由变量解释部分所占的比例,由此来判断统计模型的解释力。判定系数只能说明列入模型的所有解释变量对因变量的联合程度的影响,不说明模型中单个解释变量的影响程度。

    9. 在线性回归后,要检验残差中是否还存在信息(高次项、异方差等),如何绘制回归模型的残差图最快速有效

    10. 在线性回归分析中,使用的估计方法是

此题系统答案有错,参考009部分的答案以及网上参考答案,线性回归分析使用的是最小二乘法,逻辑回归和多元线性回归使用的是极大似然法。

    11. 在系统聚类中R2是指:

    12. 在文本特征表示方法中,下面说法正确的是

缺分析

    13. 在文本分类任务中,下面哪些措施可以有效提升分类准确率

    14. 在使用线性回归模型(OLS)时,无需特别关注的情况是

    15. 在使用某些模型前,需要使用降维方法来减少变量个数,以下哪些模型不能用来降维

    16. (题目重复)在使用历史数据构造训练(Train)集、验证(Validation)集和检验(Test)集时,训练数据集的作用在于

    17. 在使用历史数据构造训练(Train)集、验证(Validation)集和检验(Test)集时,测试数据集的作用在于

    18. 在使用对应分析方法时,( )会帮助提升结果的有效性

    19. 在使用ROC曲线判断模型的优劣时,以下哪个叙述是正确的

    20. 在使用K-Means进行异常消费行为识别时,不能对数据进行的处理步骤是

    21. 在缺失值处理时,我们可以使用均值填补、中位数填补、missForest方法填补等,关于missForest方法,下面错误的是

    22. 在二分类的问题上,一般是以何值作为分类概率的门坎值

    23. 在处理后台数据时,有一列客户输入变量名为“您的爱好”,共有5个不同的选项,但是有70%左右的客户这一项的数据没有填写,那么那一项的处理方式更合理

    24. 在KNN算法上进行预测概率的推估时,会采用哪一种方法,以保证每一类的预测概率不为0

    25. 在K-means聚类分析中,当聚类效果不能令人满意时,下列说法中不正确的是

    26. 与独热向量表示方法相比,词向量标识的优势是

    27. 有一条关联规则为 A -> B,此规则的置信水平(Confidence)为60%,则代表:

    28. 有一条关联规则为 A -> B,此规则的信赖度(Confidence)为60%,则代表:

    29. (数学问题)有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性 SVM 分类器的分类面方程是

    30. 斜率为:-1/((3+1)/(2-0)) = - 1/2;中点为:(1,2);所以,分类超平面为:x+2y=5;有关随机梯度下降法说法正确的是

    31. 有关回归模型表达正确的是

    32. 用于分类与回归应用的主要算法有

    33. 用来表示numpy中的缺失值的是

    34. 用简单随机重复抽样方法抽取样本单位,要使置信度从90%(1.65)提高到95%(1.96)说法正确的是

参考必要样本容量的计算

    35. 因子分析中,使用主成分法进行什么计算

    36. (非数据分析题)以责任感、胜任感和成就感为特征的马斯洛激励理论的层次称为:

    37. 以下有关数据挖掘与统计的算法区别正确的是

    38. 一下叙述正确的是

    39. 以下说法正确的是

    40. 以下说法正确的是:一个机器学习模型,如果在训练集上有较高准确率,就可以完全说明这个分类器是好的

  • 如果增加模型复杂度,那么模型的测试错误率总是会降低

  • 如果增加模型复杂度,那么模型的训练错误率总是会降低

  • 如果减少模型复杂度,那么模型的测试错误率总会提高

    41. 一下属于因子分析计算过程的步骤有

    42. 一下属于关联分析的是

    43. 以下是哪一个聚类算法的算法流程:

  • ①构造K-最近邻图。

  • ②使用多层图划分算法划分图。

  • ③repeat:合并关于相对互联性和相对接近性而言,最好地保持簇的自相似性的簇。

  • ④until:不在有可以合并的簇,

缺分析

    44. 以下容易受到极端值影响的是

    45. 以下哪种方法不能用于特征选择?

    46. 以下那一个是贝氏分类法的模型?

分析:TAN算法解决了条件之间的部分属性依赖的问题。 互信息:信息论中一个很有用的信息度量,它可以看出是一个信息量里包含了另一个随机变量的信息量。朴素贝叶斯假设概率相互独立,没有考虑互信息,而TAN算法就是为了解决这个问题二诞生,它的实现并不简单,先要计算各个属性对应的互信息,要进行贝叶斯网络的构建(TAN中最难的部分)

  1. 根据各个属性对应的互信息值降序排列,依次取出其中节点对,遵循不产生环路的原则,构造最大权重跨度树,直到选择完n-1条边为止(因为总共n个属性节点,n-1条边可确定),按照互信息之从高到低选择的原因就是要保留关联性更高的关联依赖性的边。

  2. 上述过程构成的是一个无向图,接下来为整个无向图确定边的方向,选择任意一个属性节点做根,由根节点向外的方向为属性节点之间的方向。

  3. 为每个属性节点添加父节点,父节点就是分类属性节点,至此贝叶斯网络构造完成。

    47. 以下哪些算法是基于规则的分类器?

    48. 以下哪些算法是分类算法

    49. 以下哪些领域会涉及到统计学的应用

    50. 以下哪些分类方法可以较好地避免样本的不平衡问题?

    51. 以下哪些不是评估估计量的方面

    52. 以下哪项关于决策树的说法是错误的?

    53. 以下哪个指标可以用于回归树中的模型比较

    54. 以下哪个指标不能用于线性回归中的模型比较

    55. 以下哪个算法是决策规则的算法

    56. 以下哪个算法是过采样的算法?

    57. 以下哪个算法是Google测量中心性的算法?

最后更新于