表 2:给定环境在 MNIST 数据上用不同架构训练 10 epoch 5 次后的平均时间(秒)。所有架构都使用了 ReLU 作为激活函数,softmax 作为输出函数,交叉熵作为惩罚。 本文为机器之心编译,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |