题目内容
(请给出正确答案)
[多选题]
假设在一个深度学习网络中批处理梯度下降花费了太多的时间来找到一个值的参数值,该值对于成本函数J(W[1],b[1],…,W[L],b[L])来说是很小的值。以下哪些方法可以帮助找到J值较小的参数值()
A.尝试使用Adam算法
B.尝试对权重进行更好的随机初始化
C.尝试调整学习率α
D.尝试mini-batch梯度下降
查看答案
如果结果不匹配,请 联系老师 获取答案
A.尝试使用Adam算法
B.尝试对权重进行更好的随机初始化
C.尝试调整学习率α
D.尝试mini-batch梯度下降
假设你有一个非常大的训练集合,如下机器学习算法中,你觉着有哪些是能够使用map-reduce框架并能将训练集划分到多台机器上进行并行训练的()。
A.逻辑斯特回归(LR),以及随机梯度下降(SGD)
B.线性回归及批量梯度下降(BGD)
C.神经网络及批量梯度下降(BGD)
D.针对单条样本进行训练的在线学习
A.梯度消失
B.梯度爆炸
C.eLU函数作为激活函数g(.),在计算g(z)时,z的数值过大了
D.Sigmoid函数作为激活函数g(.),在计算g(z)时,z的数值过大了
A.贝叶斯算法
B.支持向量机算法
C.神经网络算法
D.决策树算法
A.批处理系统
B.分时操作系统
C.网络操作系统
D.分布式操作系统