博客
关于我
CVPR2023|清华大学提出GAM:神经网络“一阶平滑优化器”,显著提升模型“泛化能力”...
阅读量:798 次
发布时间:2023-04-05

本文共 966 字,大约阅读时间需要 3 分钟。

神经网络收敛位置平滑性与模型泛化能力研究

近年来,神经网络的收敛位置平滑性被证明与其泛化能力密切相关。清华大学崔鹏教授在CVPR2023 Highlight论文中提出了一阶平滑性概念,并提出了Gradient norm Aware Minimization (GAM)优化器,显著提升了模型的泛化能力。

收敛位置平滑性与模型泛化

大型神经网络在训练过程中对训练数据的拟合能力显著增强,但这并不意味着其在测试数据上的表现可靠。研究表明,过度拟合训练数据可能导致测试误差增加。残差连接的网络在loss landscape上表现出更高的平滑性,相比之下,传统网络的loss landscape则显著陡峭,具有许多尖锐的凸起和凹陷。

实验结果显示,平滑极值点(flat minima)的泛化能力强于尖锐极值点(sharp minima)。Nitish Shirish等人的研究进一步证明,平滑极值点的测试误差显著低于尖锐极值点。

一阶平滑性与优化器设计

现有零阶平滑性(SAM)在较大或较小的邻域内存在识别极值平滑性的难题。基于这一发现,我们提出了一阶平滑性(first-order flatness, FOF)的概念,通过约束参数邻域内最大梯度范数来更好地捕捉loss变化趋势。

GAM优化器在训练过程中同时优化预测误差和邻域内最大梯度范数。通过一次梯度上升近似,GAM能够有效约束一阶平滑性,并通过损失函数的二阶近似优化Hessian的最大特征值。

实验验证与效果分析

我们在CIFAR、ImageNet、Stanford Cars、Oxford_IIIT_Pets等数据集上验证了GAM的优化效果。与SGD和AdamW相比,GAM显著提升了模型的泛化能力。例如,在CIFAR-100上,GAM提升了PyramidNet110的准确率2.17%;在ImageNet上,GAM提升了Vit-B/32的top-1准确率2.43%。

进一步分析表明,GAM能够显著约束Hessian的最大特征值和迹,帮助模型收敛到更加平滑的极值点。

结论

本研究提出了一阶平滑性的概念,并基于此设计了GAM优化器。GAM通过约束参数邻域内最大梯度范数和Hessian特征值,显著提升了模型的泛化能力。未来研究将进一步探索GAM在其他深度学习任务中的应用潜力。

转载地址:http://bxrfk.baihongyu.com/

你可能感兴趣的文章
mysql 权限登录问题:ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost‘ (using password: YES)
查看>>
MYSQL 查看最大连接数和修改最大连接数
查看>>
MySQL 查看有哪些表
查看>>
mysql 查看锁_阿里/美团/字节面试官必问的Mysql锁机制,你真的明白吗
查看>>
MySql 查询以逗号分隔的字符串的方法(正则)
查看>>
MySQL 查询优化:提速查询效率的13大秘籍(避免使用SELECT 、分页查询的优化、合理使用连接、子查询的优化)(上)
查看>>
mysql 查询数据库所有表的字段信息
查看>>
【Java基础】什么是面向对象?
查看>>
mysql 查询,正数降序排序,负数升序排序
查看>>
MySQL 树形结构 根据指定节点 获取其下属的所有子节点(包含路径上的枝干节点和叶子节点)...
查看>>
mysql 死锁 Deadlock found when trying to get lock; try restarting transaction
查看>>
mysql 死锁(先delete 后insert)日志分析
查看>>
MySQL 死锁了,怎么办?
查看>>
MySQL 深度分页性能急剧下降,该如何优化?
查看>>
MySQL 深度分页性能急剧下降,该如何优化?
查看>>
MySQL 添加列,修改列,删除列
查看>>
mysql 添加索引
查看>>
MySQL 添加索引,删除索引及其用法
查看>>
mysql 状态检查,备份,修复
查看>>
MySQL 用 limit 为什么会影响性能?
查看>>