机器学习-06

    1. 如果原数据没有缺失值,想要使用KNN算法来建立有监督学习模型,以下操作过程错误的是?

    2. 如果某个特征(feature)有大量的异常值,那么可以采用以下哪些方法处理?

  • ①盖帽法

  • ②离散化

  • ③转化为分类变量

    3. 如果没有任何业务经验,在系统聚类方法中如何决定分类数量最合理?

    4. 人脸识别算法分为四个步骤,分别是:

  • (a)人脸定位(face detection)

  • (b)人脸确认(face verification)

  • (c)人脸校准(face alignment)

  • (d)人脸鉴别(face identification)

    请问下列何者顺序正确

分析:人脸识别系统组成:参考:https://www.sohu.com/a/315130755_120141421arrow-up-right

  1. 人脸图像采集:不同人脸图像通过摄像头采集下来,包括静态图像、动态图像、不同位置、不同表情等方面都可以采集出来,这个过程中会包含人脸检测(Face Detection),它用于人脸识别的预处理,在图像中精确定位人脸的位置和大小:如直方图特征、颜色特征、模板特征、结构特征、Haar特征等。

  2. 人脸图像预处理:对于人脸图像预处理的检测结果,对图像进行最终服务于特征提取的过程。原始图像由于各种限制和干扰,往往不能直接使用,所以需要对它进行灰度校正、噪声过滤等图像预处理(Face Alignment),主要包括人脸的:光线补偿、直方图均衡化、归一化、几何校正、滤波以及锐化等处理。

  3. 人脸图像特征提取:主要分视觉特征、像素统计特征、图像变换系数特征、图像代数特征,这步主要做人脸特征提取也称人脸表征,它是对人脸进行建模的过程:基于知识的标准方法;基于代数特征或统计学的标准方法。

  4. 人脸图像匹配与识别:提取人脸图像特征数据与数据库中存储的特征模板进行搜索匹配,通过一个阈值,超过这个阈值则把匹配得到的结果输出,这一过程分为两类:1)确认,一对一进行图像比较过程(Face Verification);2)辨认,一对多进行图像匹配对比过程(Face Identification)。

    5. 缺失值处理属于的哪一个阶段?

    6. 判断一张影响中是否有人脸的存在,且回报出所有找到的人脸是何种技术?

    7. 「材料题」判断决策树模型的好坏我们会使用信息熵或基尼系数对节点进行不纯度的度量。在当前的模型中,我们可以看出。

    8. 能将人/事/时/地撷取出来的技术称之为?

分析:命名实体识别(Named Entity Recognition,简称NER),又称为专名识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名称,它包括:

  1. 实体边界识别

  2. 确定实体类别(人名、地名、机构名或其他)

    9. 哪种基于语法的文本句法分析方法可以用于名词短语检测、动词短语检测、主语检测和宾语检测?

参考:机器学习-03 中的依存语法分析笔记。

    10. 哪个算法最容易受异常值的影响?

缺解析

    11. 目前文本生成学术上比较关注的技术是

分析:GAN全称是Generative Adversarial Network,生成对抗网络:

  1. Generative学习一个生成式模型

  2. Adversarial使用对抗的方法训练模型

  3. Networks使用神经网络

GAN模型是一种通过对抗的方式去学习数据分布的生成式模型,核心思想就是生成式网络G(Generator)和判别网络D(Discriminator)不断博弈来达到生成真数据的目的 所以适合做文本生成类的任务

    12. 某互联网金融企业系统建立一套小额借贷违约风险识别模型,即识别出哪些贷款可能违约,目前其拥有的历史贷款数据70万条,变量分别为年龄(数值)、职业(分类)、月收入(数值)、是否有房(分类)、贷款利率(数值)、月还款(数值)、历史累计贷款(数值)、历史累计违约次数(数值)、是否违约(分类),其中变量“是否违约”标识这笔贷款最终是否发生违约,是分类变量。那么下边说法错误的是

分析:分类问题不可使用线性回归

    13. 某超市研究销售记录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?

    14. (大数据,出题错)默认情况下,YARN支持下边那个调度器。

    15. 模型出现高偏差的时候,我们如何优化模型?

分析:高偏差和高方差基本意味着数据欠拟合,模型过于简单,复杂度不够,一般的解决办法:

  1. 尝试获得更多特征(增加特征)

  2. 尝试增加多项式特征

  3. 尝试减少正则化程度(减小正则项对模型的约束,让模型更自由)

    16. 逻辑回归属于

    17. 逻辑回归模型中计算得到的发生概率p,一般作为

缺解析

    18. 逻辑回归模型经常需要设置不同优化算法,以下说法正确的是

    19. 逻辑回归比较擅长处理的测量

    20. 逻辑回归(logistics regression)和一般回归分析有什么区别

    21. 逻辑回归(Logistics Regression)算法,可用来解决何种问题

    22. (非三级)零售分析仪表板包含一小部分数据集,包括“销售”,“项目”和“商店”,您已将“类别”字段从“项目”数据集中拖到了报表画布上。现在,您要为用户提供选择一个、多个或所有类别的选项,以过滤报表上的视觉效果。您应该从可视化窗格中选择哪个元素?

    23. 集成方法中的随机森林(Random Forest),是下列哪个方法的延伸?

    24. 基于密集向量(1.0,0.0,3.0)创建一个LabeledPoint,设其标识值为1.0,以下正确的选项为

缺分析

    25. 基于Boosting的集成学习,其代表算法不包括

    26. 基于Bagging的集成学习,其代表算法有

    27. 机器学习一般可以分为两类,一种是有监督,一种是无监督。下面对于有监督和无监督说法正确的是

    28. 机器学习是借助数学模型理解数学,那么最重要的原材料就是数据。可见数据在机器学习中的作用,下列关于数据的要求不正确的是

分析:部分模型对数据本身要求很高,所以单纯说不和学习任务有关是不对的。

    29. 机器翻译指的是

    30. 机器翻译发展过程中没有出现的技术是

  1. 机器翻译比较适合哪种RNN的变体来实现

分析:参考:https://blog.csdn.net/Jeremy_lf/article/details/104798044/arrow-up-right RNN的基本结构

  1. 1 v 1y=f(Wx+b)y = f(Wx + b),最基本的单层网络

  2. 1 v n: 两种结构(选项A

  3. 从图像生成文字,此时输入X就是图像特征,输出的Y就是一段句子

  4. 从类别生成语音或音乐

  5. n v n:经典的RNN结构(选项B):输入和输出序列必须是等长

  6. 计算视频中每一帧的分类标签

  7. 输入为字符,输出为下一个字符的概率,著名的Char RNN,用来生成文章、诗歌。参考:http://karpathy.github.io/2015/05/21/rnn-effectiveness/arrow-up-right

  8. n v 1:这种结构通常用来处理序列分类问题,输入一段文字判别它所属类别,输入一个句子判断情感倾向,输入一段视频判断类别。

  9. n v m选项C):输入、输出为不等长的序列,这种结构是Encoder-Decoder架构,也称为Seq2Seq,是RNN一个重要的变种。应用场景

  10. 机器翻译:最经典应用,这个结构也是机器翻译领域最先提出

  11. 文本摘要:输入一段文本序列,输出这段文本序列的摘要

  12. 阅读理解:将输入的文章和问题分别编码,再对其解码得到问题的答案

  13. 语音识别:输入是语音信号序列,输出是文字类别

最后2 V N实际就是N V N的特殊情况,没有单独一说。

    32. 混淆矩阵(Confusion Matrix)最可能用来检验哪种模型的结果?

分析:A是预测模型;B是分类模型;C是聚类模型;D是关联分析,混淆矩阵主要评估分类模型。

    33. 混淆矩阵(Confusion Matrix)( )部分的数字越大越好?

    34. 回归模型中残差图的横坐标和纵坐标说法正确的是

    35. 回归分析中定义的解释变量和被解释变量正确的是

分析

  • 解释变量称为“说明变量”、“可控制变量”,是经济计量模型中的自变量——按照一定的规律对模型中作为因变量的经历变量产生影响,并对因变量的变化原因做出解释和说明。

  • 被预测变量,又称被解释变量,多见于回归分析中,相当于实验研究中的因变量,回归分析中的变量关系不像实验研究中的变量之间因果关系明确,因而多称为预测变量和被预测变量。

    36. 行为评分卡的使用场景处于

    37. 广为流传的“啤酒与尿布”的故事,其背后的模型实际上是哪一类?

    38. 层次聚类中,聚类的变量类型是

    39. 测试(Test)集通常用来

    40. 不是文本生成主要的应用场景

    41. 不是文本表示的方式是

    42. 标准化只是将原始数据进行线性变换,没有改变数据的分布形态,只是使数据的均值变为____,标准差变为____

分析:从上述归一化和标准化可以看出,转换后均值和方差都发生了改变:

  1. 均值发生改变可理解成数据的坐标进行了平移转换,均值其实也是随之一样转换。

  2. 方差的改变是因为数据都压缩在了更小的范围内,所以方差都变小了

    43. 编码器-解码器模型在预测时市场使用哪种搜索手段?

    44. 编码器-解码器结构解决的问题是?

    45. 半监督学习的说法哪一个是的?

分析:半监督学习主要是在有标签数据、无标签数据混合成的迅联数据中使用深度学习算法,不存在两个样本集一说,详细可参考:https://zhuanlan.zhihu.com/p/33196506arrow-up-right

    46. XGBoost实例(非sklearnAPI)里用什么方法查看最后各个树的信息

    47. XGBoost实例(非sklearnAPI)中的那个特征重要性指标最好

最后更新于