假设在一个深度学习网络中,批量梯度下降花费了大量时间时来找到一组参数值,使成本函数小。以下哪些方法可以帮助找到值较小的参数值?()
A.令所有权重值初始化为0
B.尝试调整学习率
C.尝试mini-batch梯度下降
D.尝试对权重进行更好的随机初始化
A.令所有权重值初始化为0
B.尝试调整学习率
C.尝试mini-batch梯度下降
D.尝试对权重进行更好的随机初始化
A.尝试使用Adam算法
B.尝试对权重进行更好的随机初始化
C.尝试调整学习率α
D.尝试mini-batch梯度下降
假设你有一个非常大的训练集合,如下机器学习算法中,你觉着有哪些是能够使用map-reduce框架并能将训练集划分到多台机器上进行并行训练的()。
A.逻辑斯特回归(LR),以及随机梯度下降(SGD)
B.线性回归及批量梯度下降(BGD)
C.神经网络及批量梯度下降(BGD)
D.针对单条样本进行训练的在线学习
A.随机梯度下降
B.设置Momentum
C.设置不同初始值
D.增大batchsize
A.当优化问题的数值解接近局部最优值时,随着目标函数解的梯度接近或变为零,通过最终迭代获得的数值解可能仅使目标函数局部最优,而不是全局最优
B.在深度学习优化问题中,经常遇到的是梯度爆炸或梯度消失
C.优化问题中设置的学习率决定目标函数能否收敛到局部最小值,以及何时收敛到最小值
D.一般来说,小批量随机梯度下降比随机梯度下降和梯度下降的速度慢,收敛风险较大
A.梯度方向是函数值下降最快方向
B.梯度下降算法是一种使得损失函数最小化的方法
C.梯度下降算法用来优化深度学习模型的参数
D.梯度反方向是函数值下降最快方向
A.AlexNet的网络结构和LeNet非常类似,但更深更大,并且使用了层叠的卷积层来获取特征
B.GoogLeNet的主要贡献是实现了一个bottleneck模块,能够显著地减少网络中参数的数量
C.ResNet使用了特殊的跳跃链接,大量使用了批量归一化,并在最后使用了全连接层
D.VGGNet的主要贡献是展示出网络的深度是算法优良性能的关键部分