双码本音频标记器

开源端到端语音大模型Step-Audio-AQAA：听懂音频直接生成自然语音

开源端到端语音大模型Step-Audio-AQAA：听懂音频直接生成自然语音

在人工智能领域，尤其是生成式对抗网络（AIGC）方面的不断进展，语音交互已成为一个重要的研究方向。传统的大语言模型(LLM)主要专注于文本处理，无法直接生成自然语音，这在一定程度上影响了人机音频交互的流畅性。为了突破这一局限，Step-Audio 团队开源了一款全新的端到端语音大模型 ——Step-Audio-AQAA。

7/2/2025 5:00:55 PM

AI在线

1

资讯热榜

印度创新试点：AI 聊天机器人助力电子商务购物新方式马斯克 xAI 在孟菲斯开建全球最大污水处理厂，年节约饮用水达 190 亿升两部门联合发布《政务领域人工智能大模型部署应用指引》大力推动AI技术应用 Sora2公布提示词指南！直接抄作业能玩一整天！软银贷款50亿美元助力AI投资，孙正义押注未来科技！前DeepMind大神创业一年估值飙至80亿美元：Reflection AI要做美国版DeepSeek OpenAI新研究称GPT-5为迄今“政治偏见最少”的AI模型 OpenAI Sora 引爆 App Store“山寨潮”:30万次下载!苹果审核机制遭质疑

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人数据大模型 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练论文 LLM 代码算法芯片 Stable Diffusion 苹果腾讯 AI for Science Claude Agent 蛋白质开发者生成式神经网络 xAI 机器学习 3D 研究人形机器人生成 AI视频百度工具具身智能 Sora RAG 大语言模型 GPU 华为计算 AI设计字节跳动搜索大型语言模型 AGI 场景深度学习视频生成架构 DeepMind 预测视觉伟达 Transformer 编程 AI模型神器推荐亚马逊 MCP