AIGC宇宙 AIGC宇宙

看听读全都会的六边形战士MiniCPM,来啦

MiniCPM-o 2.6开源啦,该模型视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别。 图片简介MiniCPM-o 2.6是一个端侧多模态大模型,具有8B参数量。 它基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建,通过端到端的方式训练和推理。

MiniCPM-o 2.6开源啦,该模型视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别。

图片图片

简介

MiniCPM-o 2.6是一个端侧多模态大模型,具有8B参数量。它基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建,通过端到端的方式训练和推理。模型的主要特点包括:

  • 领先的视觉能力在OpenCompass榜单上,MiniCPM-o 2.6以8B量级的大小在单图理解方面超越了GPT-4o-202405、Gemini 1.5 Pro和Claude 3.5 Sonnet等主流商用闭源多模态大模型。
  • 出色的语音能力支持可配置声音的中英双语实时对话,语音理解任务表现优于GPT-4o-realtime,并在语音对话的语义和声学评估中展现了开源模型中最高的语音生成性能。
  • 强大的多模态流式交互能力能够接受连续的视频和音频流,并与用户进行实时语音交互,在StreamingBench综合评测基准中取得开源社区最佳水平。
  • 强大的OCR能力及其他功能进一步优化了MiniCPM-V 2.6的视觉理解能力,支持多种语言,并具备可信的多模态行为。

模型架构

图片图片

  • 端到端全模态架构。 通过端到端的方式连接和训练不同模态的编/解码模块以充分利用丰富的多模态知识。模型完全使用 CE 损失端到端训练。
  • 全模态流式机制。 (1) 我们将不同模态的离线编/解码器改造为适用于流式输入/输出的在线模块。 (2) 我们针对大语言模型基座设计了时分复用的全模态流式信息处理机制,将平行的不同模态的信息流拆分重组为周期性时间片序列。
  • 可配置的声音方案。 我们设计了新的多模态系统提示,包含传统文本系统提示词,和用于指定模型声音的语音系统提示词。模型可在推理时灵活地通过文字或语音样例控制声音风格,并支持端到端声音克隆和音色创建等高级能力。

实力表现

图片图片

指标表现实力不俗,不输一众大size的模型:

图片图片

使用简介

MiniCPM-o 2.6可以通过多种方式轻松使用,包括:

  • llama.cpp:支持在本地设备上进行高效的CPU推理。
  • int4和GGUF格式的量化模型:有16种尺寸,适用于不同设备。
  • vLLM:支持高吞吐量和内存高效的推理。
  • LLaMA-Factory框架:针对新领域和任务进行微调。
  • Gradio:快速设置本地WebUI演示。

资源传送:

复制
项目地址:https://github.com/OpenBMB/MiniCPM-o
模型地址:https://huggingface.co/openbmb/MiniCPM-o-2_6

如果对内容有什么疑问和建议可以私信和留言,也可以添加我加入大模型交流群,一起讨论大模型在创作、RAG和agent中的应用。

相关资讯

腾讯云上线DeepSeek全系API接口并打通联网搜索

腾讯云宣布完成对深度求索(DeepSeek)大模型的深度整合——正式上线DeepSeek-R1和V3原版模型的API接口,并创新性接入自研大模型知识引擎,同步开放联网搜索能力。 凭借腾讯云在推理并发和生成速率等方面的优化,用户可以获得更加稳定、安全、低门槛的使用体验。 开发者只需在云上简单三步即可实现API接口调用,并通过大模型知识引擎提供的文档解析、拆分、embedding、多轮改写等能力,灵活构建专属的AI服务。
2/8/2025 2:09:00 PM
AI在线

微信搜索接入DeepSeek大模型 称AI不会使用朋友圈聊天等信息

近日,微信宣布其搜索功能接入 DeepSeek-R1模型,目前处于灰度测试阶段。 部分用户在微信搜索框选择 AI 搜索时,可体验到 DeepSeek-R1提供的深度思考功能。 微信方面表示,引入大模型旨在提升搜索的智能化和精准度,更好地理解用户搜索意图,分析处理复杂查询。
2/19/2025 11:18:00 AM
AI在线

DeepSeek-R1 登顶 Hugging Face:以10000 赞力压 150 万个模型

今日凌晨,全球最大开源平台之一 Hugging Face 的首席执行官 Clement Delangue 在社交平台发文宣布,DeepSeek-R1在 Hugging Face 上获得了超过10000个赞,成为该平台近150万个模型中最受欢迎的大模型。 这一里程碑式的成就标志着 DeepSeek-R1在全球 AI 社区中的广泛认可与影响力。 DeepSeek-R1的崛起速度令人瞩目。
2/24/2025 9:30:00 AM
AI在线
testab