近期,人工智能领域国际顶级会议IJCAI公布了2025年录用结果。我校音乐人工智能与音乐信息科技系博士生王亚珊、吴尚达、胡剑怀(导师均为孙茂松教授、俞峰教授)的论文《NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms》被会议AI, Arts and Creativity Track接收。IJCAI(International Joint Conference on Artificial Intelligence)是人工智能领域最负盛名的国际学术会议之一。作为中国计算机学会推荐的A类国际学术会议,IJCAI每年吸引来自全球学术界、工业界的顶尖专家,展示人工智能领域的最新研究成果和技术突破。2025年的IJCAI将于8月16日至22日在加拿大蒙特利尔举行,为全球AI研究者提供交流与合作的绝佳平台。这一成果标志着我校在音乐人工智能领域的创新研究再次获得国际学术界的广泛认可,达到了国际领先水平。
论文简介
研究背景
音乐生成是人工智能与艺术交叉领域的重要研究方向,符号音乐(以乐谱或MIDI形式表示音乐)因其对音乐元素(如音符、和声)的精准表示而备受关注。过往的符号音乐生成模型往往面临生成乐曲音乐性不足、编制有限的问题。如何生成音乐性强、接近人类作曲水平的音乐作品,是该领域的一大挑战。
NotaGen模型

论文提出符号音乐生成模型NotaGen。NotaGen使用ABC Notation格式的乐谱作为训练和生成格式,使用了分层级的GPT2 Decoders作为模型架构。受大语言模型(LLMs)的启发,NotaGen采用了以下三阶段训练范式:
1. 预训练:在包含160万首音乐的庞大数据集上进行预训练,学习音乐的基本模式和结构。
2. 微调:在约9000首高质量古典作品上进行微调,输入条件为“时期-作曲家-乐器”提示,使模型能够生成符合特定音乐风格的乐谱。
3. 强化学习:提出了一种创新的CLaMP-DPO方法。该方法无需人工标注或预定义奖励规则,而是通过音乐检索模型 CLaMP 2为模型生成乐曲评分、建立偏好数据集,并使用DPO算法优化模型的生成质量。CLaMP 2同样由我校博士生、NotaGen共同一作吴尚达同学提出。
实验结论
NotaGen所提出的CLaMP-DPO方法是该工作的核心创新之一。实验表明,CLaMP-DPO在不同模型架构和编码方案(如MIDI模型)中均表现出色,显著提升了符号音乐模型的音乐质量和可控性。

NotaGen在主观A/B测试中表现出色。测试结果显示,与现有基线模型相比,NotaGen生成的乐谱在与人类创作的作品对比中更具竞争力。这一成果表明,NotaGen在符号音乐生成领域取得了重要突破。

同行评价
NotaGen自发布以来,在Github上收获960+ stars。在海内外社区(包括X、Youtube、Bilibili、小红书、微信视频号等)都引发广泛讨论。网友们纷纷上传自己用NotaGen生成的乐曲、分享对AI音乐的见解。





X平台评论

微信视频号



小红书

Bilibili-哔哩哔哩视频网站
相关链接
1. 项目主页:https://electricalexis.github.io/notagen-demo/
2. 论文链接:https://arxiv.org/abs/2502.18008
学生作者简介
王亚珊,音乐人工智能与音乐信息科技系博士三年级学生,科技方向师从清华大学孙茂松教授,音乐方向师从中央音乐学院院长俞峰教授。主要研究方向为:符号音乐生成。
吴尚达,音乐人工智能与音乐信息科技系博士四年级学生,科技方向师从清华大学孙茂松教授,音乐方向师从中央音乐学院院长俞峰教授。主要研究方向为:音乐生成、音乐信息检索。
胡剑怀,音乐人工智能与音乐信息科技系博士二年级学生,科技方向师从清华大学孙茂松教授,音乐方向师从中央音乐学院院长俞峰教授。主要研究方向为:音乐转录。
导师简介
孙茂松,欧洲科学院外籍院士,清华大学教授、博导,清华大学人工智能研究院常务副院长。
俞峰,中国文联副主席、中央音乐学院院长、教授、博导,中国音协指挥学会会长,全国高校美育教育指导委员会主任。
鸣谢
本研究受到国家自然科学基金专项项目“音乐智能量化和脑科学认知研究”、国家社科基金艺术学重大项目“音乐与人工智能协同创新发展理论研究”、国家文化和旅游科技创新工程项目“3D音乐的研究与应用”等项目支持。
供稿:音乐人工智能与音乐信息科技系
责任编辑:静静