凤凰网科技于7月4日报道,阿里通义实验室已正式对外开源了其首个音频生成模型——ThinkSound。这一创新举措标志着思维链(CoT)技术首次被应用于音频生成领域,旨在攻克现有视频转音频(V2A)技术在理解画面动态细节和事件逻辑方面的局限性。
据通义语音团队介绍,传统的V2A技术在精确捕捉视觉与声音之间的时空关联方面存在挑战,这往往导致生成的音频与画面中的关键事件不同步。为了解决这一问题,ThinkSound模型引入了结构化推理机制,这一机制模仿了人类音效师的工作流程:首先,模型会全面理解视频的整体画面和场景语义;接着,它会聚焦于具体的声源对象;最后,根据用户的编辑指令,逐步生成高保真且与画面同步的音频。

图源:通义大模型微信公众号
为了训练ThinkSound模型,研究团队创建了首个支持链式推理的多模态音频数据集AudioCoT。这个数据集包含了超过2531小时的高质量样本,覆盖了多种场景,并设计了面向交互编辑的对象级和指令级数据。ThinkSound模型由两个主要部分组成:一个多模态大语言模型,负责“思考”推理链;以及一个统一音频生成模型,负责“输出”声音。
据悉,ThinkSound在多项权威测试中展现出了优于现有主流方法的性能。目前,该模型已经开源,开发者可以在GitHub、Hugging Face和魔搭社区获取到相关的代码和模型。未来,ThinkSound有望在游戏、VR/AR等沉浸式场景中得到广泛应用。
以下是ThinkSound模型的开源地址:
https://github.com/FunAudioLLM/ThinkSound
https://huggingface.co/spaces/FunAudioLLM/ThinkSound
https://www.modelscope.cn/studios/iic/ThinkSound