开源端到端语音大模型Step-Audio-AQAA：听懂音频直接生成自然语音

作者：AI在线 2025-07-02 05:00

在人工智能领域，尤其是生成式对抗网络（AIGC）方面的不断进展，语音交互已成为一个重要的研究方向。传统的大语言模型(LLM)主要专注于文本处理，无法直接生成自然语音，这在一定程度上影响了人机音频交互的流畅性。为了突破这一局限，Step-Audio 团队开源了一款全新的端到端语音大模型 ——Step-Audio-AQAA。

在人工智能领域，尤其是生成式对抗网络（AIGC）方面的不断进展，语音交互已成为一个重要的研究方向。传统的大语言模型(LLM)主要专注于文本处理，无法直接生成自然语音，这在一定程度上影响了人机音频交互的流畅性。

为了突破这一局限，Step-Audio 团队开源了一款全新的端到端语音大模型 ——Step-Audio-AQAA。该模型能够直接从原始音频输入生成自然流畅的语音输出，使得人机交流更加自然。

Step-Audio-AQAA 的架构由三个核心模块组成:双码本音频标记器、骨干 LLM 和神经声码器。其中，双码本音频标记器负责将输入的音频信号转化为结构化的标记序列。这个模块分为语言标记器和语义标记器，前者提取语言的结构化特征，后者则捕捉语音的情感和语调等副语言信息。通过这种双码本设计，Step-Audio-AQAA 能够更好地理解语音中的复杂信息。

接下来，这些标记序列会被送入骨干 LLM，即 Step-Omni。这是一款预训练的1300亿参数的多模态模型，具备处理文本、语音和图像的能力。该模型采用了解码器架构，可以高效地处理来自双码本音频标记器的标记序列，通过深度的语义理解和特征提取，为后续生成自然语音做好准备。

最后，生成的音频标记序列会被送入神经声码器。该模块的作用是将离散的音频标记合成为高质量的语音波形，采用了 U-Net 架构，以确保在音频处理中的高效性和准确性。通过这种创新的架构设计，Step-Audio-AQAA 能够在听懂音频问题后，迅速合成自然、流畅的语音回答，为用户提供了更好的交互体验。

这项技术的发展代表着人机音频交互的一个重要进步，开源的 Step-Audio-AQAA 不仅为研究者提供了一个强大的工具，也为未来的智能语音应用打下了坚实的基础。

开源地址:https://huggingface.co/stepfun-ai/Step-Audio-AQAA

划重点:
🔊 Step-Audio 团队开源的 Step-Audio-AQAA 可以直接从音频输入生成自然语音，提升人机交互体验。
📊 模型架构由双码本音频标记器、骨干 LLM 和神经声码器三个模块组成，能够高效捕捉语音中的复杂信息。
🎤 Step-Audio-AQAA 的推出标志着语音交互技术的重要进展，为未来智能语音应用提供了新思路。

阶跃星辰新一代基础大模型 Step 3 正式开源：拥有强大视觉感知和复杂推理能力

AI在线 7 月 31 日消息，阶跃星辰宣布新一代基础大模型 Step 3 正式开源，Step 3 API 已上线阶跃星辰开放平台（platform.stepfun.com），用户也可以在“阶跃 AI”官网（stepfun.com）和“阶跃 AI”App 进行体验。据介绍，Step 3 的多模态能力围绕“轻量视觉路径”与“稳定协同训练”展开，重点解决视觉引入带来的 token 负担与训练干扰问题。为此，其采用 5B Vision Encoder，并通过双层 2D 卷积对视觉特征进行降采样，将视觉 token 数量减少到原来的 1/16，减轻上下文长度压力，提升推理效率。

7/31/2025 10:18:00 PM

远洋

从AIGC到AGI，为什么我们需要更多的“技术信仰派”？

整理 | 伊风采访 | 张晓楠嘉宾 | 巴川、朱雷、肖然作为AIGC应用落地元年，2024开年就抛给我们一些不太好回答的问题：在以探索AGI为长期目标时，我们该坚守技术信仰吗？除了复制国外GPT-4、Sora这样的成功案例，我们该如何寻求更大发展和突破？即便算力问题得以解决，算法的难题如何跨越？国内企业为什么大都部署多个大模型？为什么并非所有企业都该拥抱AIGC？前不久51CTO全新直播栏目《AIGC实战派》有幸邀请到竞技世界首席数据科学家巴川，元语智能联合创始人兼COO、SuperCLUE社区发起人朱雷以及Tho

4/15/2024 6:38:00 PM

新闻助手

爆肝48小时！学会这8招，让DeepSeek变得超好用！

更多相关介绍：. 重磅好文！ 8个章节带你全方位了解DeepSeek这两天，DeepSeek-R1 火的飞起，在中日美三个 Appstore 榜上登顶。

2/8/2025 12:04:55 AM

解决师Blue

开源端到端语音大模型Step-Audio-AQAA：听懂音频直接生成自然语音

相关资讯

阶跃星辰新一代基础大模型 Step 3 正式开源：拥有强大视觉感知和复杂推理能力

从AIGC到AGI，为什么我们需要更多的“技术信仰派”？

爆肝48小时！学会这8招，让DeepSeek变得超好用！