讲座报告主题:面向稳健大语言模型训练的优化器
专家姓名:黄田进
日期:2025-07-18 时间:14:30
地点:计算机学院221会议室
主办单位:计算机科学与通信工程学院
主讲简介:黄田进博士,现任英国埃克塞特大学计算机科学系助理教授,主要从事人工智能与大模型优化相关研究。此前,他在荷兰埃因霍温理工大学(TU/e)任博士后研究员,并于2023年在该校数学与计算机科学系获得博士学位。 黄博士已在ICML、NeurIPS、ICLR、LoG、Information Fusion等国际顶级会议与期刊发表论文三十余篇,并在2022年Learning on Graphs(LoG)大会上荣获最佳论文奖。研究专长:主要从事人工智能与大模型优化相关研究。
主讲内容简介:本报告将围绕如何实现更稳健的大语言模型训练展开,重点揭示训练过程中普遍存在的梯度突刺(gradient spike)现象,以及其对模型和最终性能带来的影响。此外,报告将从优化器设计与梯度调控机制的角度切入,介绍SPAM(Spike-Aware Moment regularization)方法如何通过瞬态梯度突刺的检测与裁剪,有效缓解异常梯度放大效应,抑制由不均衡动量累积导致的训练震荡,显著改善大模型的训练。在此基础上,报告进一步介绍Stable-SPAM,该方法通过引入自适应突刺识别阈值与动态缩放策略,可以更为稳定的进行大语言模型的低精度训练。
欢迎师生参加!