1. 最小化代价函数优化方法:BGD、SGD、MBGD、动量、NAG、Adagrad、AdaDelta、Adam、AMSGrad、牛顿法;
2. 前馈神经网络的隐藏单元不一定在所有的输入点上可微;
3. CNN最大池化能产生一定程度的平移不变性;
4. 向量范数表征向量空间的大小:
1. CNN:LeNet、AlexNet、VGGNet、GoogLeNet、ResNet
2. 数据增强技术:翻转、裁剪、缩放、颜色抖动、平移
3. Batch Size定义:一次训练所选取的样本数。
4. Batch Size影响:影响模型的优化程度和速度。同时其直接影响到GPU内存的使用情况,假如GPU内存不大,该数值最好设置小一点。使得梯度下降方向更加准确
5. 划分训练集、验证集、测试集:训练集:验证集:测试集的划分比例为6:2:2
6. 一阶优化方法:RMSProp
7. 深度学习关系图
1. 什么是深度学习:表达学习、可扩展的机器学习、生物神经网络的近似/粗略实现、人类的监督越来越少、多阶段的特征学习过程、相较于传统模式识别
2. 激活函数分类
1. 合理的稀疏比例:70~80%,屏蔽特征过多容易出现欠拟合。
2. 正则化在深度神经网络训练时的作用
正则化可以很好的解决模型过拟合的问题,常见的正则化方式有L2正则化和dropout,但是正则化是以牺牲模型的拟合能力来达到平衡的,因此在对训练集的拟合中有所损失。
3. L1正则化和L2正则化
L1正则化可以产生稀疏值矩阵,即产生一个稀疏模型,可以用于特征选择和解决过拟合。能够帮助模型找到重要特征,而去掉无用特征或影响甚小的特征。
L2 让所有特征的系数都缩小, 但不会减为0,它会使优化求解稳定快速。所以L2适用于特征之间没有关联的情况。
L2正则化可以防止模型过拟合;一定程度上,L1也可以防止过拟合
4. 激活函数的作用
激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,深层神经网络表达能力更强大,可以应用到众多的非线性模型中。
5. Sigmoid函数
特点:它能够把输入的连续实值变换为0和1之间的输出,特别的,如果是非常大的负数,那么输出就是0;如果是非常大的正数,输出就是1.
缺点:在深度神经网络中梯度反向传递时导致梯度爆炸和梯度消失,其中梯度爆炸发生的概率非常小,而梯度消失发生的概率比较大;Sigmoid 的 output 不是0均值;其解析式中含有幂运算,计算机求解时相对来讲比较耗时。
6. Relu函数
特点:解决了gradient vanishing问题 (在正区间);计算速度非常快,只需要判断输入是否大于0;收敛速度远快于sigmoid和tanh
缺点:ReLU的输出不是0均值;某些神经元可能永远不会被激活,导致相应的参数永远不能被更新。
7. AdaGrad算法
AdaGrad算法就是将每一个参数的每一次迭代的梯度取平方累加后在开方,用全局学习率除以这个数,作为学习率的动态更新。
其中,r为梯度累积变量,r的初始值为0。ε为全局学习率,需要自己设置。δ为小常数,为了数值稳定大约设置为10^-7
8. 优化算法的选择
如果输入数据是稀疏的,选择任一自适应学习率算法可能会得到最好的结果。无需调整学习率,选用默认值就可能达到最好的结果。
RMSprop, Adadelta, 和 Adam 非常相似,在相同的情况下表现都很好。
偏置校验让Adam的效果稍微比RMSprop好一点
进行过很好的参数调优的SGD+Momentum算法效果好于Adagrad/Adadelta
如果不知道选择哪种优化算法,就直接选Adam吧
9. 如何判断模型过拟合
模型在验证集合上和训练集合上表现都很好,而在测试集合上变现很差。过拟合即在训练误差很小,而泛化误差很大,因为模型可能过于的复杂,
10. 如何防止过拟合
Dropout:神经网络的每个单元都被赋予在计算中被暂时忽略的概率p,称为丢失率,通常将其默认值设置为0.5。然后,在每次迭代中,根据指定的概率随机选择丢弃的神经元。因此,每次训练会使用较小的神经网络。
提前停止:让模型在训练的差不多的时候就停下来,继续训练带来提升不大或者连续几轮训练都不带来提升的时候,这样可以避免只是改进了训练集的指标但降低了测试集的指标。
批量正则化:将卷积神经网络的每层之间加上将神经元的权重调成标准正态分布的正则化层,可以让每一层的训练都从相似的起点出发,而对权重进行拉伸,等价于对特征进行拉伸,在输入层等价于数据增强。
11. 特征图数
对于单通道图像,若利用10个卷积核进行卷积计算,可以得到10个特征图;
若输入为多通道图像,则输出特征图的个数依然是卷积核的个数(10个)
12. 多通道多个卷积核卷积计算:
图片:宽度:32,高度:32,图片的通道数D;
卷积核:大小5*5,处理的图片是D通道,因此卷积核是5*55*D。
卷积层维度变化:不填充,步长为1,输出的矩阵大小为32-5+1=28, 32-5+1=28, D
若填充,则分子部分改为:W-F+2*Padding
卷积后的值:D个channel的所有元素对应相乘后求和
池化层维度变化:大小2*2,步长2.因此输出大小为28/2=14,28/2=14,D
参数变化:(((kernel_size)* stride + 1)* filters)
1. 卷积计算过程
可参考21。
此例步长1,且未使用填充,即卷积层维度变化公式:
1.1、输入(8,8,3);4个卷积核(3,3,3,4);卷积后的输出Z0:(6,6,4),Z0的每个输出都是3个channel的所有元素对应相乘后求和;
1.2、 经ReLu激活(6,6,4);
1.3、 若有池化,池化层的计算与卷积层一样规则;
1. BP反向传播算法过程
残差:误差的偏导数
输出层→隐藏层:残差 = -(输出值-样本值) * 激活函数的导数
隐藏层→隐藏层:残差 = (右层每个节点的残差加权求和)* 激活函数的导数
更新权重:
输入层:权重增加 = 输入值 * 右层对应节点的残差 * 学习率
隐藏层:权重增加 = 当前节点的Sigmoid * 右层对应节点的残差 * 学习率
偏移值:权重增加 = 右层对应节点的残差 * 学习率
学习率:一个预先设置好的参数,用于控制每次更新的幅度。
1. 一个矢量化的例子:
1. 几个BP例子
卷积神经网络的层次结构及其作用
输入层->卷积层->激活层->池化层->全连接层
数据输入层:对原始数据进行初步处理,使卷积神经网络能有更好的效果
卷积层:提取特征
激活层:计算结果通过一个激活函数加一个非线性的关系,使能逼近任何函数
池化层:数据压缩,提取主要特征,降低网络复杂度
全连接层:分类器角色,将特征映射到样本标记空间,本质是矩阵变换
生成式模型和判别式模型的区别
生成式:由数据学习联合概率分布P(X,Y), 然后由P(Y|X)=P(X,Y)/P(X)求出概率分布P(Y|X)作为预测的模型,表示了给定输入X与产生输出Y的生成关系。从统计的角度表示数据的分布情况,反映同类数据本身的相似度,不关心判别边界。
判别式:由数据直接学习决策函数Y=f(X)或条件概率分布P(Y|X)作为预测模型,关心的是对于给定的输入X,应该预测什么样的输出Y。寻找不同类别之间的最优分类面,反映的是异类数据之间的差异。
“梯度下降”的定义
迭代法的一种,可用于求解最小二乘问题,让梯度中所有偏导函数都下降到最低点的过程。梯度下降法的计算过程就是沿梯度下降的方向求解极小值,也可以沿梯度上升方向求解最大值
简述和讨论“随机梯度下降算法”
1、随机梯度下降是每次迭代使用一个样本来对参数进行更新,使得训练速度加快。随机梯度下降算法是为了解决深度学习中多元目标函数的最优值问题。
2、随机是指每次迭代过程中,样本都要被随机打乱。训练模型的目的是使得目标函数达到极小值。
3、每次迭代并不是都向着整体最优化方向,导致梯度下降的波动非常大,更容易从一个局部最优跳到另一个局部最优,准确度下降
随机梯度下降算法终止条件
当前后两次迭代的差值小于某一值时,即收敛,迭代结束
Momentum算法
参数更新时在一定程度上保留之前更新的方向,同时又利用当前batch的梯度微调最终的更新方向,简言之就是通过积累之前的动量来加速当前的梯度。能够加速SGD收敛,抑制震荡。在梯度方向改变时,降低参数更新速度,从而减少震荡;在梯度方向相同时,加速参数更新, 从而加速收敛
比较最大似然估计(ML)与最大后验估计(MAP)的异同点.
最大后验估计 正比于 最大似然估计*先验概率
损失函数:样本的误差 ;代价函数:整个训练集上所有样本误差的平均
目标函数:代价函数 + 正则化项
Mini-batch SGD步骤
对一批数据取样;前向传播得到损失;反向传播计算梯度;使用梯度更新参数
Batch Normalization
通常插入在全连接层或卷积层后,在非线性之前。
1)归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度
迁移学习
通过从已学习的相关任务中转移知识来改进学习的新任务。
大数据与少标注的矛盾;大数据与弱计算的矛盾;普适化模型与个性化需求的矛盾;特定应用的需求
分类和回归问题比较适合做迁移学习的场景,有标签的源数据是最好的辅助。
RNN用途
语音识别;机器翻译;音乐生成;文本生成;文本生成;情感分类;DNA序列分析;视频行为识别;实体名字识别
激活函数图像
完整机器学习项目的流程
抽象成数学问题;获取数据;特征预处理与特征选;训练模型与调优;模型诊断;模型融合;上线运行
常见的分类算法
SVM、神经网络、随机森林、逻辑回归、KNN、贝叶斯
常见的监督学习算法
感知机、SVM、人工神经网络、决策树、逻辑回归
深度学习基础知识题库大全
1、梯度下降算法的正确步骤是什么?
a.计算预测值和真实值之间的误差
b.重复迭代,直至得到网络权重的最佳值
c.把输入传入网络,得到输出值
d.用随机值初始化权重和偏差
e.对每一个产生误差的神经元,调整相应的(权重)值以减小误差
A.abcde B.edcba C.cbaed D.dcaeb
解析:正确答案D,考查知识点-深度学习。
2、已知:
- 大脑是有很多个叫做神经元的东西构成,神经网络是对大脑的简单的数学表达。
- 每一个神经元都有输入、处理函数和输出。
- 神经元组合起来形成了网络,可以拟合任何函数。
- 为了得到最佳的神经网络,我们用梯度下降方法不断更新模型
给定上述关于神经网络的描述,什么情况下神经网络模型被称为深度学习模型?
A.加入更多层,使神经网络的深度增加
B.有维度更高的数据
C.当这是一个图形识别的问题时
D.以上都不正确
解析:正确答案A,更多层意味着网络更深。没有严格的定义多少层的模型才叫深度模型,目前如果有超过2层的隐层,那么也可以及叫做深度模型。
3、训练CNN时,可以对输入进行旋转、平移、缩放(增强数据)等预处理提高模型泛化能力。这么说是对,还是不对?
A.对 B.不对
解析:对。如寒sir所说,训练CNN时,可以进行这些操作。当然也不一定是必须的,只是data augmentation扩充数据后,模型有更多数据训练,泛化能力可能会变强。
4、下面哪项操作能实现跟神经网络中Dropout的类似效果?
A.Boosting B.Bagging C.Stacking D.Mapping
解析:正确答案B。Dropout可以认为是一种极端的Bagging,每一个模型都在单独的数据上训练,同时,通过和其他模型对应参数的共享,从而实现模型参数的高度正则化。
5、下列哪一项在神经网络中引入了非线性?
A.随机梯度下降
B.修正线性单元(ReLU)
C.卷积函数
D.以上都不正确
解析:正确答案B。修正线性单元是非线性的激活函数。
6.深度学习是当前很热门的机器学习算法,在深度学习中,涉及到大量的矩阵相乘,现在需要计算三个稠密矩阵 A,B,C 的乘积ABC,假设三个矩阵的尺寸分别为m∗n,n∗p,p∗q,且m < n < p < q,以下计算顺序效率最高的是()
A、 (AB)C
B、 AC(B)
C、 A(BC)
D、 所以效率都相同
正确答案是:A
首先,根据简单的矩阵知识,因为 A*B , A 的列数必须和 B 的行数相等。因此,可以排除 B 选项,
然后,再看 A 、 C 选项。在 A 选项中,m∗n 的矩阵 A 和n∗p的矩阵 B 的乘积,得到 m∗p的矩阵 A*B ,而 A∗B的每个元素需要 n 次乘法和 n-1 次加法,忽略加法,共需要 m∗n∗p次乘法运算。同样情况分析 A*B 之后再乘以 C 时的情况,共需要 m∗p∗q次乘法运算。因此, A 选项 (AB)C 需要的乘法次数是 m∗n∗p+m∗p∗q 。同理分析, C 选项 A (BC) 需要的乘法次数是 n∗p∗q+m∗n∗q。
7.输入图片大小为200×200,依次经过一层卷积(kernel size 5×5,padding 1,stride 2),pooling(kernel size 3×3,padding 0,stride 1),又一层卷积(kernel size 3×3,padding 1,stride 1)之后,输出特征图大小为
A、 95
B、 96
C、 97
D、 98
正确答案是:C
首先我们应该知道卷积或者池化后大小的计算公式,其中,padding指的是向外扩展的边缘大小,而stride则是步长,即每次移动的长度。
这样一来就容易多了,首先长宽一般大,所以我们只需要计算一个维度即可,这样,经过第一次卷积后的大小为: 本题 (200-5+2*1)/2+1 为99.5,取99;经过第一次池化后的大小为: (99-3)/1+1 为97;经过第二次卷积后的大小为: (97-3+2*1)/1+1 为97
8.神经网络模型(Neural Network)因受人类大脑的启发而得名
神经网络由许多神经元(Neuron)组成,每个神经元接受一个输入,对输入进行处理后给出一个输出,如下图所示。请问下列关于神经元的描述中,哪一项是正确的?
A、 每个神经元可以有一个输入和一个输出
B、 每个神经元可以有多个输入和一个输出
C、 每个神经元可以有一个输入和多个输出
D、 每个神经元可以有多个输入和多个输出
E、 上述都正确
正确答案是:E
答案:(E)每个神经元可以有一个或多个输入,和一个或多个输出。
9. 如果我们用了一个过大的学习速率会发生什么?
A、神经网络会收敛
B、不好说
C、都不对
D、神经网络不会收敛
正确答案是:D
学习率过大,会使得迭代时,越过最低点。
10. 在一个神经网络中,下面哪种方法可以用来处理过拟合?
A、Dropout
B、分批归一化(Batch Normalization)
C、正则化(regularization)
D、都可以
正确答案是:D
解析:
都可以。对于选项C,分批归一化处理过拟合的原理,是因为同一个数据在不同批中被归一化后的值会有差别,相当于做了data augmentatio。
11. 批规范化(Batch Normalization)的好处都有啥?
A、让每一层的输入的范围都大致固定
B、它将权重的归一化平均值和标准差
C、它是一种非常有效的反向传播(BP)方法
D、这些均不是
正确答案是:A
12. 下列哪个神经网络结构会发生权重共享?
A、卷积神经网络
B、循环神经网络
C、全连接神经网络
D、选项A和B
正确答案是:D
13. 下列哪个函数不可以做激活函数?
A、y = tanh(x)
B、y = sin(x)
C、y = max(x,0)
D、y = 2x
正确答案是:D
解析:
线性函数不能作为激活函数。
14. 假设我们有一个如下图所示的隐藏层。隐藏层在这个网络中起到了一定的降纬作用。假如现在我们用另一种维度下降的方法,比如说主成分分析法(PCA)来替代这个隐藏层。
那么,这两者的输出效果是一样的吗?
A、是
B、否
正确答案是:B
解析:
PCA 提取的是数据分布方差比较大的方向,隐藏层可以提取有预测能力的特征
15. 下图显示了训练过的3层卷积神经网络准确度,与参数数量(特征核的数量)的关系。
从图中趋势可见,如果增加神经网络的宽度,精确度会增加到一个特定阈值后,便开始降低。造成这一现象的可能原因是什么?
A、即使增加卷积核的数量,只有少部分的核会被用作预测
B、当卷积核数量增加时,神经网络的预测能力(Power)会降低
C、当卷积核数量增加时,导致过拟合
D、以上都不正确
正确答案是:C
解析:
网络规模过大时,就可能学到数据中的噪声,导致过拟合
16. 假设你需要调整超参数来最小化代价函数(cost function),会使用下列哪项技术?
A、穷举搜索
B、随机搜索
C、Bayesian优化
D、都可以
正确答案是:D
17. 在感知机中(Perceptron)的任务顺序是什么?
1、随机初始化感知机的权重
2、去到数据集的下一批(batch)
3、如果预测值和输出不一致,则调整权重
4、对一个输入样本,计算输出值
A、 1, 2, 3, 4
B、 4, 3, 2, 1
C、 3, 1, 2, 4
D、 1, 4, 3, 2
正确答案是:D
18. 构建一个神经网络,将前一层的输出和它自身作为输入。
下列哪一种架构有反馈连接?
A、循环神经网络
B、卷积神经网络
C、限制玻尔兹曼机
D、都不是
正确答案是:A
19. 如果增加多层感知机(Multilayer Perceptron)的隐藏层层数,分类误差便会减小。这种陈述正确还是错误?
A、正确
B、错误
正确答案是:B
解析:
并不总是正确。层数增加可能导致过拟合,从而可能引起错误增加。
20. 下列哪项关于模型能力(model capacity)的描述是正确的?(指神经网络模型能拟合复杂函数的能力)
A、隐藏层层数增加,模型能力增加
B、Dropout的比例增加,模型能力增加
C、学习率增加,模型能力增加
D、都不正确
正确答案是:A
解析:
A是对的,其它选项不确定
21. 在训练神经网络时,损失函数(loss)在最初的几个epochs时没有下降,可能的原因是?
A、学习率(learning rate)太低
B、正则参数太高
C、陷入局部最小值
D、以上都有可能
正确答案是:D
22. 深度学习与机器学习算法之间的区别在于,后者过程中无需进行特征提取工作,也就是说,我们建议在进行深度学习过程之前要首先完成特征提取的工作。这种说法是:
A、正确的
B、错误的
正确答案是: B
解析:
正好相反,深度学习可以自行完成特征提取过程而机器学习需要人工来处理特征内容。
23. 下列哪一项属于特征学习算法(representation learning algorithm)?
A、K近邻算法
B、随机森林
C、神经网络
D、都不属于
正确答案是:C
解析:
神经网络会将数据转化为更适合解决目标问题的形式,我们把这种过程叫做特征学习。
24. 提升卷积核(convolutional kernel)的大小会显著提升卷积神经网络的性能,这种说法是
A、正确的
B、错误的
正确答案是: B
解析:
卷积核的大小是一个超参数(hyperparameter),也就意味着改变它既有可能提高亦有可能降低模型的表现。
25. 阅读以下文字:
假设我们拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型,训练所用的数据集由汽车和卡车的照片构成,而训练目标是检测出每种车辆的名称(车辆共有10种类型)。现在想要使用这个模型来解决另外一个问题,问题数据集中仅包含一种车(福特野马)而目标变为定位车辆在照片中的位置。
A、除去神经网络中的最后一层,冻结所有层然后重新训练
B、对神经网络中的最后几层进行微调,同时将最后一层(分类层)更改为回归层
C、使用新的数据集重新训练模型
D、所有答案均不对
正确答案是: B
26. 假设你有5个大小为7x7、边界值为0的卷积核,同时卷积神经网络第一层的深度为1。此时如果你向这一层传入一个维度为224x224x3的数据,那么神经网络下一层所接收到的数据维度是多少?
A、218x218x5
B、217x217x8
C、217x217x3
D、220x220x5
正确答案是:A
27. 假设我们有一个使用ReLU激活函数(ReLU activation function)的神经网络,假如我们把ReLU激活替换为线性激活,那么这个神经网络能够模拟出同或函数(XNOR function)吗?
A、可以
B、不好说
C、不一定
D、不能
正确答案是:D
解析:
使用ReLU激活函数的神经网络是能够模拟出同或函数的。
但如果ReLU激活函数被线性函数所替代之后,神经网络将失去模拟非线性函数的能力。
28. 下列的哪种方法可以用来降低深度学习模型的过拟合问题?
1 增加更多的数据
2 使用数据扩增技术(data augmentation)
3 使用归纳性更好的架构
4 正规化数据
5 降低架构的复杂度
A、1 4 5
B、1 2 3
C、1 3 4 5
D、所有项目都有用
正确答案是:D
解析:
上面所有的技术都会对降低过拟合有所帮助
29.下图是一个利用sigmoid函数作为激活函数的含四个隐藏层的神经网络训练的梯度下降图。这个神经网络遇到了梯度消失的问题。下面哪个叙述是正确的?
A、第一隐藏层对应D,第二隐藏层对应C,第三隐藏层对应B,第四隐藏层对应A
B、第一隐藏层对应A,第二隐藏层对应C,第三隐藏层对应B,第四隐藏层对应D
C、第一隐藏层对应A,第二隐藏层对应B,第三隐藏层对应C,第四隐藏层对应D
D、第一隐藏层对应B,第二隐藏层对应D,第三隐藏层对应C,第四隐藏层对应A
正确答案是:A
解析:
由于反向传播算法进入起始层,学习能力降低,这就是梯度消失。换言之,梯度消失是梯度在前向传播中逐渐减为0, 按照图标题所说, 四条曲线是4个隐藏层的学习曲线, 那么第一层梯度最高(损失函数曲线下降明显), 最后一层梯度几乎为零(损失函数曲线变成平直线). 所以D是第一层, A是最后一层。
30.考虑某个具体问题时,你可能只有少量数据来解决这个问题。不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以用下面哪种方法来利用这个预先训练好的网络?
A、把除了最后一层外所有的层都冻结,重新训练最后一层
B、对新数据重新训练整个模型
C、只对最后几层进行调参(fine tune)
D、对每一层模型进行评估,选择其中的少数来用
正确答案是:C
解析:
如果有个预先训练好的神经网络, 就相当于网络各参数有个很靠谱的先验代替随机初始化. 若新的少量数据来自于先前训练数据(或者先前训练数据量很好地描述了数据分布, 而新数据采样自完全相同的分布), 则冻结前面所有层而重新训练最后一层即可; 但一般情况下, 新数据分布跟先前训练集分布有所偏差, 所以先验网络不足以完全拟合新数据时, 可以冻结大部分前层网络, 只对最后几层进行训练调参(这也称之为fine tune)。
31.在选择神经网络的深度时,下面哪些参数需要考虑?
1 神经网络的类型(如MLP,CNN)
2 输入数据
3 计算能力(硬件和软件能力决定)
4 学习速率
5 映射的输出函数
A、1,2,4,5
B、2,3,4,5
C、都需要考虑
D、1,3,4,5
正确答案是:C
解析:
所有上述因素对于选择神经网络模型的深度都是重要的。特征抽取所需分层越多, 输入数据维度越高, 映射的输出函数非线性越复杂, 所需深度就越深. 另外为了达到最佳效果, 增加深度所带来的参数量增加, 也需要考虑硬件计算能力和学习速率以设计合理的训练时间。
32.当数据过大以至于无法在RAM中同时处理时,哪种梯度下降方法更加有效?
A、随机梯度下降法(Stochastic Gradient Descent)
B、不知道
C、整批梯度下降法(Full Batch Gradient Descent)
D、都不是
正确答案是:A
解析:
梯度下降法分随机梯度下降(每次用一个样本)、小批量梯度下降法(每次用一小批样本算出总损失, 因而反向传播的梯度折中)、全批量梯度下降法则一次性使用全部样本。这三个方法, 对于全体样本的损失函数曲面来说, 梯度指向一个比一个准确. 但是在工程应用中,受到内存/磁盘IO的吞吐性能制约, 若要最小化梯度下降的实际运算时间, 需要在梯度方向准确性和数据传输性能之间取得最好的平衡. 所以, 对于数据过大以至于无法在RAM中同时处理时, RAM每次只能装一个样本, 那么只能选随机梯度下降法。
33.当在卷积神经网络中加入RAM (pooling layer)时,变换的不变性会被保留,是吗?
A、不知道
B、看情况
C、是
D、否
正确答案是:C
解析:
池化算法比如取最大值/取平均值等, 都是输入数据旋转后结果不变, 所以多层叠加后也有这种不变性。
34、基于二次准则函数的H-K算法较之于感知器算法的优点是()?
A、 计算量小
B、 可以判别问题是否线性可分
C、 其解完全适用于非线性可分的情况
正确答案是:B
解析:
HK算法思想很朴实,就是在最小均方误差准则下求得权矢量.
他相对于感知器算法的优点在于,他适用于线性可分和非线性可分得情况,对于线性可分的情况,给出最优权矢量,对于非线性可分得情况,能够判别出来,以退出迭代过程。
来源:@刘炫320,链接:http://blog.csdn.net/column/details/16442.html
35、在一个神经网络中,知道每一个神经元的权重和偏差是最重要的一步。如果知道了神经元准确的权重和偏差,便可以近似任何函数,但怎么获知每个神经的权重和偏移呢?
A、搜索每个可能的权重和偏差组合,直到得到最佳值
B、赋予一个初始值,然后检查跟最佳值的差值,不断迭代调整权重
C、随机赋值,听天由命
D、以上都不正确的
正确答案是:B
解析:
答案:(B)
选项B是对梯度下降的描述。
36、神经网络模型(Neural Network)因受人类大脑的启发而得名
神经网络由许多神经元(Neuron)组成,每个神经元接受一个输入,对输入进行处理后给出一个输出,如下图所示。请问下列关于神经元的描述中,哪一项是正确的?
37.下图所示的网络用于训练识别字符H和T,如下所示
A、
B、
C、
D、 可能是A或B,取决于神经网络的权重设置
正确答案是:D
解析:
不知道神经网络的权重和偏差是什么,则无法判定它将会给出什么样的输出。
38.在下面哪种情况下,一阶梯度下降不一定正确工作(可能会卡住)?
A、
B、
C、
正确答案是:B
解析:
这是鞍点(Saddle Point)的梯度下降的经典例子。另,本题来源于:https://www.analyticsvidhya.com/blog/2017/01/must-know-questions-deep-learning/
39.混沌度(Perplexity)是一种常见的应用在使用深度学习处理NLP问题过程中的评估技术,关于混沌度,哪种说法是正确的?
A、混沌度没什么影响
B、混沌度越低越好
C、混沌度越高越好
D、混沌度对于结果的影响不一定
正确答案是: B
40. 线性方程 (y = mx + c) 可以说是一种神经元吗?
A无可奉告
B 否
C 是
D 一派胡言
正确答案是: C
41. 使用两个简单的输入h1和h2, 最终的等式是
A. (h1 AND NOT h2) OR (NOT h1 AND h2) B. (h1 OR NOT h2) AND (NOT h1 OR h2)
C. (h1 AND h2) OR (h1 OR h2) D. None of these
答案:(A)
42. 卷积神经网络可以对一个输入完成不同种类的变换(旋转或缩放),这个表述正确吗?
A正确 B错误
答案:(B)数据预处理(也就是旋转、缩放)步骤在把数据传入神经网络之前是必要的,神经网络自己不能完成这些变换。
43. 训练神经网络过程中,损失函数在一些时期(Epoch)不再减小, 原因可能是:
1.学习率(Learning rate)太低2.正则参数太大3.卡在了局部最小值
哪些是可能的原因?
A. 1 and 2 B. 2 and 3 C. 1 and 3 D. 都不是
答案:(D) 以上原因都可能造成这个结果。
44. 训练好的三层卷积神经网络的精确度(Accuracy)vs 参数数量(比如特征核的数量)的图示如下; 从图中趋势可见,如果增加神经网络的宽度,精确度会增加到一个阈值,然后开始降低。这一现象的可能是什么原因是造成的?
A即便核数量(number of kernels)增加,只有一部分核被用于预测
B当核数量增加,神经网络的预测功效(Power)降低
C当核数量增加,其相关性增加,导致过拟合
D以上都不正确
答案:(C) 如C选项指出的那样,可能的原因是核之间的相关性。
45. 使用降维技术的网络与隐层网络总是有相同的输出吗?
A.是 B.否
答案:(B)因为PCA用于相关特征而隐层用于有预测能力的特征
46. 可以用神经网络对函数(y=1/x)建模吗?A.是B.否
答案:(A) 选项A是正确的,因为激活函数可以是互反函数
47. 我们不是想要绝对零误差,而是设置一个称为贝叶斯(bayes)误差(我们希望实现的误差)的度量。使用贝叶斯(bayes)误差的原因是什么?
A.输入变量可能不包含有关输出变量的完整信息B.系统(创建输入-输出映射)可以是随机的 C.有限的训练数据D.所有 答案:(D)想在现实中实现准确的预测,是一个神话,所以我们的希望应该放在实现一个“可实现的结果”上。
48. 在监督学习任务中,输出层中的神经元的数量应该与类的数量(其中类的数量大于2)匹配。对或错?A.正确B.错误 答案:(B)
它取决于输出编码。如果是独热编码(one-hot encoding) 则正确。但是你可以有两个输出囊括四个类,并用二进制值表示出来(00,01,10,11)。
49. Y = ax^2 + bx + c(二次多项式)这个方程可以用具有线性阈值的单个隐层的神经网络表示吗? A.是B.否 答案:(B)答案为否。因为简单来说,有一个线性阈值限制神经网络就会使它成为一个相应的线性变换函数。
50神经网络中的死神经元(dead unit)是什么?
A.在训练任何其它相邻单元时,不会更新的单元B.没有完全响应任何训练模式的单元
C.产生最大平方误差的单元D.以上均不符合 答案:(A)
51. 假设在ImageNet数据集(对象识别数据集)上训练卷积神经网络。然后给这个训练模型一个完全白色的图像作为输入。这个输入的输出概率对于所有类都是相等的。对或错?
A.正确 B.错误
答案:(B)将存在一些不为白色像素激活的神经元作为输入,所以类不会相等。
52. 当数据太大而不能同时在RAM中处理时,哪种梯度技术更有优势?
A.全批量梯度下降(Full Batch Gradient Descent )
B.随机梯度下降(Stochastic Gradient Descent) 答案:(B)
53.从上往下ABCD,下列哪项正确?
A.隐藏层1对应于D,隐藏层2对应于C,隐藏层3对应于B,隐藏层4对应于A
B.隐藏层1对应于A,隐藏层2对应于B,隐藏层3对应于C,隐藏层4对应于D
答案:(A)这是对消失梯度描述的问题。由于反向传播算法进入起始层,学习能力降低。
54. 对于分类任务,我们不是将神经网络中的随机权重初始化,而是将所有权重设为零。下列哪项是正确的?
A.没有任何问题,神经网络模型将正常训练
B.神经网络模型可以训练,但所有的神经元最终将识别同样的事情
C.神经网络模型不会进行训练,因为没有净梯度变化
D.这些均不会发生 答案:(B)
55. 开始时有一个停滞期,这是因为神经网络在进入全局最小值之前陷入局部最小值。为了避免这种情况,下面的哪个策略有效?
A.增加参数的数量,因为网络不会卡在局部最小值处
B.在开始时把学习率降低10倍,然后使用梯度下降加速算子(momentum)
C.抖动学习速率,即改变几个时期的学习速率
D.以上均不是
答案:(C)选项C可以将陷于局部最小值的神经网络提取出来。
56. 假设在训练时,你遇到这个问题。在几次迭代后,错误突然增加。您确定数据一定有问题。您将数据描绘出来,找到了原始数据有点偏离,这可能是导致出现问题的地方。你将如何应对这个挑战?
A.归一化B.应用PCA然后归一化C.对数据进行对数变换D.以上这些都不符合
答案:(B)首先您将相关的数据去掉,然后将其置零。
57. 影响神经网络的深度选择的因素:
神经网络的类型,例如:多层感知机(Multi-Layer Perceptrons, MLP),卷积神经网络(Convolutional Neural Networks, CNN)。输入数据。计算能力,即硬件和软件能力。学习率。输出函数映射。
31增加卷积核的大小对于改进卷积神经网络的效果是必要的吗? 否(要考虑数据集)
32. 感知机的正确顺序
1. 随机初始化感知机权重
2. 进入下一批数据集
3. 如果预测与输出不符,则调整权重
4. 对于采样输入,计算输出
怎样的顺序是正确的? 1, 4, 3, 2
32、下面哪个描述可以最好的描述early stopping?A
A在每一个训练epoch后在测试集上模拟网络,当归一化误差(generalization error)减小时停止训练
B 一种更快的后向传播方式,像是"Quickprop"算法
C 在权重值更新时上加一个动量项(momentum term),使训练能够更快地收敛
D 训练网络知道误差函数出现一个局部最小值