讲座报告主题:VoxCPM:面向高拟真语音生成的高效大模型架构探索与应用
专家姓名:刘知远
日期:2025-10-19 时间:09:00
地点:江苏镇江明都大饭店研发楼-401
主办单位:计算机科学与通信工程学院
主讲简介:刘知远,清华大学计算机系长聘副教授。已在Nature Machine Intelligence等人工智能著名国际期刊和会议发表论文200余篇,Google Scholar统计引用超过6.9万次。曾获教育部自然科学一等奖(第2完成人)、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖(第2完成人)、中国中文信息学会汉王青年创新奖,连续五年入选2020-2024年Elsevier中国高被引学者。研究专长:主要研究方向为大语言模型、知识工程与社会计算。
主讲内容简介:本报告介绍清华大学联合面壁智能推出的VoxCPM——一款基于扩散自回归建模的端到端语音生成模型。作为高效大语言模型MiniCPM-4在语音生成领域的重要探索,VoxCPM融合了层次化语言建模、有限标量约束与局部扩散Transformer等多项创新技术,在克服传统离散单元方法信息损失的同时,有效增强了连续表征自回归生成的稳定性。本报告将介绍VoxCPM相关技术与实验结果,并展望多模态大模型的发展趋势。
欢迎师生参加!