新闻中心

当前您的位置: 首页> 新闻中心> 学术讲座> 正文

讲准字【2025】第172号:面向稳健大语言模型训练的优化器

发布时间:2025-07-18 浏览量:

讲座报告主题:面向稳健大语言模型训练的优化器
专家姓名:黄田进
日期:2025-07-18 时间:14:30
地点:计算机学院221会议室
主办单位:计算机科学与通信工程学院


主讲简介:黄田进博士,现任英国埃克塞特大学计算机科学系助理教授,主要从事人工智能与大模型优化相关研究。此前,他在荷兰埃因霍温理工大学(TU/e)任博士后研究员,并于2023年在该校数学与计算机科学系获得博士学位。 黄博士已在ICML、NeurIPS、ICLR、LoG、Information Fusion等国际顶级会议与期刊发表论文三十余篇,并在2022年Learning on Graphs(LoG)大会上荣获最佳论文奖。研究专长:主要从事人工智能与大模型优化相关研究。


主讲内容简介:本报告将围绕如何实现更稳健的大语言模型训练展开,重点揭示训练过程中普遍存在的梯度突刺(gradient spike)现象,以及其对模型和最终性能带来的影响。此外,报告将从优化器设计与梯度调控机制的角度切入,介绍SPAM(Spike-Aware Moment regularization)方法如何通过瞬态梯度突刺的检测与裁剪,有效缓解异常梯度放大效应,抑制由不均衡动量累积导致的训练震荡,显著改善大模型的训练。在此基础上,报告进一步介绍Stable-SPAM,该方法通过引入自适应突刺识别阈值与动态缩放策略,可以更为稳定的进行大语言模型的低精度训练。


欢迎师生参加!

专家姓名 黄田进 讲座时间 2025-07-18 14:30
讲座地点 计算机学院221会议室