无极工作手机·无极私域

杜绝员工飞单,走私单等敏感行为

防止员工离职带走客户,杜绝资源流失

全方位管理,为企业营销赋能。

手机/微信号/工作人员统一管理,标准管理架构后台一目了然

铁打的营盘,流水的兵,我们帮助企业长久沉淀客户资源

了解更多

通义AI“音效师”:阿里开源首个音频模型ThinkSound

2025-10-1110:30:03

凤凰网科技于7月4日报道,阿里通义实验室已正式对外开源了其首个音频生成模型——ThinkSound。这一创新举措标志着思维链(CoT)技术首次被应用于音频生成领域,旨在攻克现有视频转音频(V2A)技术在理解画面动态细节和事件逻辑方面的局限性。

据通义语音团队介绍,传统的V2A技术在精确捕捉视觉与声音之间的时空关联方面存在挑战,这往往导致生成的音频与画面中的关键事件不同步。为了解决这一问题,ThinkSound模型引入了结构化推理机制,这一机制模仿了人类音效师的工作流程:首先,模型会全面理解视频的整体画面和场景语义;接着,它会聚焦于具体的声源对象;最后,根据用户的编辑指令,逐步生成高保真且与画面同步的音频。



图源:通义大模型微信公众号
为了训练ThinkSound模型,研究团队创建了首个支持链式推理的多模态音频数据集AudioCoT。这个数据集包含了超过2531小时的高质量样本,覆盖了多种场景,并设计了面向交互编辑的对象级和指令级数据。ThinkSound模型由两个主要部分组成:一个多模态大语言模型,负责“思考”推理链;以及一个统一音频生成模型,负责“输出”声音。

据悉,ThinkSound在多项权威测试中展现出了优于现有主流方法的性能。目前,该模型已经开源,开发者可以在GitHub、Hugging Face和魔搭社区获取到相关的代码和模型。未来,ThinkSound有望在游戏、VR/AR等沉浸式场景中得到广泛应用。

以下是ThinkSound模型的开源地址:
https://github.com/FunAudioLLM/ThinkSound
https://huggingface.co/spaces/FunAudioLLM/ThinkSound
https://www.modelscope.cn/studios/iic/ThinkSound
电话咨询 返回顶部
no cache
Processed in 0.290723 Second.