AIGC宇宙 AIGC宇宙

看听读全都会的六边形战士MiniCPM,来啦

作者:哎呀AIYA
2025-01-17 11:38
MiniCPM-o 2.6开源啦,该模型视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别。 图片简介MiniCPM-o 2.6是一个端侧多模态大模型,具有8B参数量。 它基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建,通过端到端的方式训练和推理。

MiniCPM-o 2.6开源啦,该模型视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别。

图片图片

简介

MiniCPM-o 2.6是一个端侧多模态大模型,具有8B参数量。它基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建,通过端到端的方式训练和推理。模型的主要特点包括:

  • 领先的视觉能力在OpenCompass榜单上,MiniCPM-o 2.6以8B量级的大小在单图理解方面超越了GPT-4o-202405、Gemini 1.5 Pro和Claude 3.5 Sonnet等主流商用闭源多模态大模型。
  • 出色的语音能力支持可配置声音的中英双语实时对话,语音理解任务表现优于GPT-4o-realtime,并在语音对话的语义和声学评估中展现了开源模型中最高的语音生成性能。
  • 强大的多模态流式交互能力能够接受连续的视频和音频流,并与用户进行实时语音交互,在StreamingBench综合评测基准中取得开源社区最佳水平。
  • 强大的OCR能力及其他功能进一步优化了MiniCPM-V 2.6的视觉理解能力,支持多种语言,并具备可信的多模态行为。

模型架构

图片图片

  • 端到端全模态架构。 通过端到端的方式连接和训练不同模态的编/解码模块以充分利用丰富的多模态知识。模型完全使用 CE 损失端到端训练。
  • 全模态流式机制。 (1) 我们将不同模态的离线编/解码器改造为适用于流式输入/输出的在线模块。 (2) 我们针对大语言模型基座设计了时分复用的全模态流式信息处理机制,将平行的不同模态的信息流拆分重组为周期性时间片序列。
  • 可配置的声音方案。 我们设计了新的多模态系统提示,包含传统文本系统提示词,和用于指定模型声音的语音系统提示词。模型可在推理时灵活地通过文字或语音样例控制声音风格,并支持端到端声音克隆和音色创建等高级能力。

实力表现

图片图片

指标表现实力不俗,不输一众大size的模型:

图片图片

使用简介

MiniCPM-o 2.6可以通过多种方式轻松使用,包括:

  • llama.cpp:支持在本地设备上进行高效的CPU推理。
  • int4和GGUF格式的量化模型:有16种尺寸,适用于不同设备。
  • vLLM:支持高吞吐量和内存高效的推理。
  • LLaMA-Factory框架:针对新领域和任务进行微调。
  • Gradio:快速设置本地WebUI演示。

资源传送:

复制
项目地址:https://github.com/OpenBMB/MiniCPM-o
模型地址:https://huggingface.co/openbmb/MiniCPM-o-2_6

如果对内容有什么疑问和建议可以私信和留言,也可以添加我加入大模型交流群,一起讨论大模型在创作、RAG和agent中的应用。

相关标签:

相关资讯

中国MoE一夜爆火!大模型新王暴打GPT-4o,训练成本仅600万美元

一夜之间,来自中国的大模型刷屏全网。 DeepSeek-V3,一个拥有671B参数的MoE模型,吞吐量每秒高达60 token,比上一代V2直接飙升3倍。 在多项基准测试中,V3性能直接与Claude 3.5 Sonnet、GPT-4o相匹敌。
12/27/2024 10:27:58 AM
新智元

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型:8B 参数、高效部署手机

感谢面壁智能昨晚推出并开源 MiniCPM 系列最新的端侧多模态模型 MiniCPM-Llama3-V 2.5,支持 30 种语言,宣称可实现:最强端侧多模态综合性能:超越 Gemini Pro 、GPT-4VOCR 能力 SOTA(IT之家注:State-of-the-Art):9 倍像素更清晰,难图长图长文本精准识别图像编码快 150 倍:首次端侧系统级多模态加速▲ OpenCompass 模型量级对比MiniCPM-Llama3-V 2.5 总参数量为 8B,多模态综合性能超越 GPT-4V-1106、Ge
5/21/2024 4:07:14 PM
泓澄(实习)

Meta 发布 Llama 3,号称是最强大的开源大语言模型

感谢Meta 公司今天发布新闻稿,宣布推出下一代大语言模型 Llama 3,共有 80 亿和 700 亿参数两种版本,号称是最强大的开源大语言模型。Meta 声称,Llama 3 的性能优于 Claude Sonnet、Mistral Medium 和 GPT-3.5,IT之家附上 Llama 3 的主要特点如下:向所有人开放:Meta 开源 Llama 3 的 80 亿参数版本,让所有人都能接触最前沿的人工智能技术。全球各地的开发人员、研究人员和好奇心强的人都可以进行游戏、构建和实验。更聪明、更安全:Llama
4/19/2024 9:05:35 AM
故渊
  • 1