深度学习
1. 在训练课并行度方面,下面哪个模型效率最高?
2. 在神经网络的分类模型当做,最后输出层构造通常是使用以下哪个函数作为激活函数?
3. 在进行类神经网络以前,数据要如何做准备?
4. 在进行类神经网络以前,数据要如何做准备?
5. 以下关于人工神经网络(ANN)的描述错误的有?
分析:神经网络的成功依赖于高质量标记的训练数据,如果训练数据中存在标记错误(噪声)会大大降低模型在干净测试数据上的准确性,所以对训练数据需要一定的策略来加强神经网络训练的鲁棒性,而不是天生具有面对噪声的鲁棒性,如果天生具有抗噪能力,就不会有DAE的说法了。
6. 一个LSTM单元有几个输入
7. 下面哪项是 GPT 预训练模型的特点?
8. 下面哪项是 ELMO 预训练模型的特点?
9. 下面哪项是 BERT 预训练模型的特点?
10. 下面关于注意力机制的描述中,正确的是:
分析:和普通编解码器的区别并非将输入信息编码成问题,在原始编解码器中,上下文变量对于解码阶段的时间步骤是一样的,它成为了该模型的一个瓶颈,于是我们希望不同时间步骤的解码能够依赖和它相关的上下文信息,即解码阶段往往不需要整个序列的输入,而是有所侧重,这是注意力模型和Encoder-Decoder的区别。
分析:软性注意力(Soft Attention)是关注所有输入向量在注意力分布之下的期望,而硬性注意力(Hard Attention)则是只关注某一个输入变量,上述说法反了。
分析:通常我们描述的Attention Machine(注意力机制)通常指的是Soft Attention(软性注意力),因为它是参数化的、而且可导、也可以被嵌入到模型中直接训练,梯度可以经过Attention Mechanism模块反向传播到模型其他部分;相反Hard Attention是一个随机过程,一句概率采样选择隐状态的某部分计算,而不是整个编码器的隐状态。所以目前更多研究和应用倾向于使用Soft Attention,可直接求导、也可进行梯度的反向传播。
11. 下边关于深度学习未来发展的表述中,不正确的是:
自然语言常用技术分类:模式匹配技术、语法驱动分析技术、语义文法、格框架约束分析技术、系统文法、功能文法、故事文法。错误:单纯说某一个分类取得发展概念太含糊。
12. 下面关于深层网络模型的介绍中,表述正确的是:
分析:池化层(Pooling)又称为欠采样或下采样,主要目的是用于特征降维、压缩数据和参数的数量、减小过拟合,从而提高模型的容错性。最大池化层(MaxPooling)主要用于提取特征纹理,它可以保留纹理特征;平均池化层(AvgPooling)主要用于保留背景信息,即保留了整体的数据特征。
分析:网络深度的增加引起的问题:1)梯度消失问题;2)退化问题(准确率饱和迅速下降)。所以ResNet主要用来解决网络退化问题:1)它是一个残差网络学习架构,相对于让一些堆叠直接学习的原始特征,让对叠层去拟合残差映射;2)它增加了
Short Connections
——即增加了恒等映射,这样残差为0时,使得网络性能不会下降(性能并不会提升),引入它不会增加额外的计算复杂度,所以它的目的是防止网络退化。
分析:空间金字塔化可以使任意大小的特征图都能转换成固定大小的特征向量并送入全连接层,它可以提取固定大小的特征送到全连接层;整体架构:
输入图像 -> 卷积层提取特征 -> 空间金字塔池化提取固定特征 -> 全连接层
,如果您希望金字塔的某一层输出个特征,那么就需要窗口大小为:,所以任意尺寸的说法过于理论化。
13. 下面关于感知机的说法中正确的是
14. 下面关于RNN的描述中,错误的是
分析:BPTT是对循环层的训练算法,它的基本原理和BP算法一样的,同样包含了三个核心步骤:1)前向计算每个神经元的输出值;2)反向计算每个神经元的误差值,它是误差函数对神经元的加权输入偏导数;3)计算每个权重的梯度,最后用梯度下降算法更新权重。错误:向前计算而不是向后计算。
15. 下面关于LSTM的描述中,错误的是
16. 下面关于CNN的描述中,错误的是
分析:前半句是对的,对图像(不同数据窗口数据)和滤波矩阵(一组固定的权重)做内积的操作就是所谓的「卷积」,而滤波矩阵可选择。
17. 下面不属于自然语言处理应用实践的是
18. 下面不属于自然语言处理基础技术的是
19. 下面不属于自然语言处理核心技术的是
20. 下面不属于自然语言处理发展历程的是
21. 文本挖掘是哪种技术的整合?
22. 生成式对抗网络中两个模型的关系可以比喻为下列何者?
分析:GAN,Generative Adversarial Networks生成式对抗网络主要包含生成模型Generative Model和判别模型Discriminative Model的相互博弈学习产生更好的输出,所以二者必须互逆并有对抗效果
生成模型:给定一张猫图片,生成一张新的猫图片(新图片不在数据集中)
判别模型:给定一张图,判断这张图中的动物是猫还是狗
23. 神经网络通过什么方式来实现非线性关系的划分?
24. 神经网络是由很多个什么组合而成的?
25. 如何以类神经网络仿真逻辑回归(Logistic Regression)
26. 如何以类神经网络仿真罗吉斯回归(Logistic Regression)
27. 卷积神经网络(CNN)中Dropout层的作用是?
28. 检索式模型和生成式模型是建立聊天机器人的两个主流方式,下面哪个选项分别包含检索式模型和生成式模型的例子
29. 关于神经网络的概念,以下说法正确的是
分析:ReLU全称Rectified Linear Unit,该函数是一个发散函数,可以解决梯度消失问题,所以导致梯度消失的说法有误。
分析:前半句是对的,ReLU函数的缺点是所有负值被截断为0,从而导致特征丢失,所以它要求学习率不能太高,学习率太高会使得网络中很多神经元失效,即很多神经元的激活函数结果值为0,所以一般设置很小的学习率,如
0.005
。
分析:AdaGrad算法借鉴了正则化思想,引入了累积梯度的概念,并且自适应调整每个参数的学习率;RMSProp是对AdaGrad算法的改进,把AdaGrad中对历史梯度求和改成了对历史梯度求平均(非严格意义平均值),然后使用这个均值代替AdaGrad累加的梯度和当前梯度加权再更新。
30. 关于神经网络的说法中正确的是
分析:RBF径向基网络隐藏层的神经元激活函数就是RBF,它使用RBF作为隐藏单元的隐含层空间,这样可以将输入的矢量直接映射到输出空间,只有输入层、单层隐藏层、输出层三层。但是它构成的并非是循环神经网络,而是一个前馈神经网络。
缺分析
缺分析
31. 关于深度学习模型训练,以下说法错误的是
分析:引入正则化是通过参数的范数使其不要太大,在一定程度上可以减少过拟合,和欠拟合没有关系,一般过拟合时,拟合函数系数往往很大,拟合函数要顾及每一个点,最终形成拟合函数波动很大,在某些很小区间里,函数值的变化很剧烈——引起函数在某些小区间里导数值(绝对值)非常大,由于自变量值可大可小,所以只有在系数很大时才可以保证到数值很大。
32. 关于深度学习模型训练,以下说法错误的是
分析:NIN的两个特性:1)MLP代替GLM,GLM就是广义线性模型,而MLP是指在卷积操作时把线性操作变为多层感知机;2)Global Average Pooling主要为了解决全连接层参数过多的问题。
33. 关于深度学习的说法中,下面说法正确的是
分析:后半句是对的,批规范化会使得深度神经网络训练过程中的每一层神经网络的输入保持相同分布,这是BN的核心思想,但是BN分四步:
求每一个训练批次数据的均值
求每一个训练批次数据的方差
使用求得的均值和方差对该批次的训练数据做归一化,获得0-1分布。其中εε是为了避免除数为0时所使用的微小正数。
「引入新参数」:尺度变换和偏移:将xi乘以γ调整数值大小,再加上β增加偏移后得到yi,这里的γ是尺度因子,β是平移因子。这一步是BN的精髓,由于归一化后的xi基本会被限制在正态分布下,使得网络的表达能力下降。为解决该问题,我们引入两个新的参数:γ,β。 γ和β是在训练时网络自己学习得到的。
分析:梯度下降法是最早最简单,也是最为常用的最优化方法。梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全局解。一般情况下,其解不保证是全局最优解,梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为是”最速下降法“。最速下降法越接近目标值,步长越小,前进越慢。所以不是快速达到目标值,无法保证全局最优解。
34. 关于多层前向BP网络的特点,不正确的是
分析:明显错误,学习速度很慢,残差计算
35. 感知机里如何判断误分类点
分析:数学表达式:
36. 对于神经网络的说法,下面正确的是?
37. 当倒传递类神经网络无隐藏层,输出层只有一个节点,且使用Sigmoid函数的时候,倒传递神经网络会退化成?
38. 不是Seq2Seq中引入Attention原因是
分析:Seq2Seq(序列到序列)属于编解码器架构的一种,基本思想是使用两个RNN,一个做编码器、一个做解码器。编码器负责将输入序列压缩成指定长度的向量,该向量可以看做是这个序列的语义,解码器负责根据语义向量生成指定长度的序列。引入注意力机制的目的是解决两个缺点:
中间语义向量无法完全表达整个输入序列的信息
随着输入信息长度增加,由于向量长度固定,先前编码好的信息会被后来的信息覆盖,丢失很多信息。
39. RCNN算法分为三个步骤,分别是:
(a) Extract region proposals
(b) classify regions
(c) compute cann features
请问下列何者顺序正确?
分析:RCNN算法的步骤:
候选区域生成:一张图生成1K ~ 2K个候选区域
特征提取:针对每个候选区域,使用深度卷积网络提取特征(CNN)
类别判断:特征送入每一类的SVM分类器,判别是否属于该类
位置精修:使用回归器惊喜修正候选框位置
40. LSTM技术有几个门控单元
分析:LSTM——输入门、输出门、遗忘门,GRU只有两个门——重置门、更新门
41. CNN 取代RNN来做Attention出现在哪一年
42. BP神经网络可以有几层隐藏层?
43. BP神经网络的训练顺序为何?
A.调整权重
B.计算误差值
C.利用随机的权重产生输出结果
44. BERT 预训练模型的 fine-tuning 过程不能解决以下哪个任务?
45. 以下哪些算法,可以用神经网络去构造?
46. 以下哪个是神经网络中常用的激活函数?
47. 下面关于编码器和注意力机制的对比描述中,正确的是
48. 下列何者是类神经网络的缺点?
49. 关于深度学习的描述,以下说法错误的是:
50. 关于感知机正确的是
51. 关于感知机以下说法正确的是
分析:感知机无法处理XOR问题,自然不可以处理非线性可分的数据集,所以感知机算法使用的前提是数据集必须线性可分,否则无法使用,对比SVM,SVM则支持线性不可分的数据集。感知机通过梯度下降法来求误分类样本到超平面的距离确定参数取值,所以无法使用方差代替损失函数。
52. 对于感知机的算法来说
53. 不同的神经网络架构方式会建立出不同的模型,以下哪些模型是神经网络的变形?
分析:线性回归、逻辑回归、多元逻辑回归、非线性回归
54. BP神经网络中,神经元节点中的激活函数(Activation Function)可以是以下哪些?
最后更新于
这有帮助吗?