通义AI“音效师”：阿里开源首个音频模型ThinkSound

2025-10-1110:30:03

凤凰网科技于7月4日报道，阿里通义实验室已正式对外开源了其首个音频生成模型——ThinkSound。这一创新举措标志着思维链（CoT）技术首次被应用于音频生成领域，旨在攻克现有视频转音频（V2A）技术在理解画面动态细节和事件逻辑方面的局限性。

据通义语音团队介绍，传统的V2A技术在精确捕捉视觉与声音之间的时空关联方面存在挑战，这往往导致生成的音频与画面中的关键事件不同步。为了解决这一问题，ThinkSound模型引入了结构化推理机制，这一机制模仿了人类音效师的工作流程：首先，模型会全面理解视频的整体画面和场景语义；接着，它会聚焦于具体的声源对象；最后，根据用户的编辑指令，逐步生成高保真且与画面同步的音频。

图源：通义大模型微信公众号
为了训练ThinkSound模型，研究团队创建了首个支持链式推理的多模态音频数据集AudioCoT。这个数据集包含了超过2531小时的高质量样本，覆盖了多种场景，并设计了面向交互编辑的对象级和指令级数据。ThinkSound模型由两个主要部分组成：一个多模态大语言模型，负责“思考”推理链；以及一个统一音频生成模型，负责“输出”声音。

据悉，ThinkSound在多项权威测试中展现出了优于现有主流方法的性能。目前，该模型已经开源，开发者可以在GitHub、Hugging Face和魔搭社区获取到相关的代码和模型。未来，ThinkSound有望在游戏、VR/AR等沉浸式场景中得到广泛应用。

以下是ThinkSound模型的开源地址：
https://github.com/FunAudioLLM/ThinkSound
https://huggingface.co/spaces/FunAudioLLM/ThinkSound
https://www.modelscope.cn/studios/iic/ThinkSound

留言咨询，免费试用

无极工作手机·无极私域

通义AI“音效师”：阿里开源首个音频模型ThinkSound

最新文章

怀疑智能水表不准，用 ...

北京人工智能产业创新 ...

通义AI“音效师”： ...

油压缓冲器在医疗机器 ...

客户类别精准划分者， ...

无极工作手机预警提醒 ...