AIGC宇宙 AIGC宇宙

大模型

四个值得开发人员关注的 MCP 服务

大模型再聪明,也没法自己访问网页、读文件、连数据库,因为它就像被关在“盒子”里——只能对你说话,不能动手做事。 这时候,MCP Server(Model Context Protocol 服务器) 就登场了。 它就像一把钥匙,打开了 AI 的“手脚”。
6/23/2025 8:35:00 AM
zone7

MCP:AI 界的“USB-C接口”,如何让大模型“能说会干”?

你有没有遇到过这种情况? 让AI助手“帮我订明天去上海的机票”,它只会回你“建议你去XX平台搜索”,却没法真的点几下按钮把票订好? 或者让它“给同事发封邮件说会议改期”,它写好内容后还得你自己复制到邮箱发送?
6/23/2025 8:05:00 AM
用户007

​人人皆可创作音乐!腾讯 AI Lab 推出开源音乐生成大模型 SongGeneration

腾讯 AI Lab 正式推出并开源了一款名为 SongGeneration 的音乐生成大模型。 这一模型旨在解决音乐生成领域中普遍存在的音质、音乐性和生成速度等三大难题。 SongGeneration 采用了一种基于大型模型的融合架构,显著提升了音乐生成的音质表现,同时保持了较快的生成速度,甚至在部分方面超越了商业闭源模型的表现。
6/20/2025 11:01:11 AM
AI在线

揭秘大模型的魔法:从嵌入向量说起

大家好,我是写代码的中年人,上一篇文章我们介绍了词元的概念及如何训练自己的词元,待训练的数据变成词元后,我们发现词元(文本)之间没有任何联系,也就是说它们是离散的数据,所以我们没办法对词元进行计算。 将离散的文本转化为连续的向量表示,即嵌入向量(Embedding Vector)。 嵌入向量是大模型处理自然语言的起点,它将人类语言的符号转化为机器可以理解的数学表示。
6/20/2025 10:18:58 AM
写代码的中年人

零基础AI编程实战复盘!如何仅用7天做出2个网站?

5 月底临时需要在团队内做一场设计师 x AI Coding 的主题分享,因时间紧急(完全利用工作外时间),我决定放弃传统 PPT 的形式,从零开始利用 AI 工具链构建分享网站。 本文是这次 AI 协同实验的复盘,同时分享我对当前 Agent Coding 工具能力边界、Agent 交互、协作模式变化的新思考。 往期AI编程干货:.
6/20/2025 8:09:34 AM
Bay的设计奥德赛

谷歌 Gemini 客户端新增 AI 视频上传分析功能,支持 iOS / 安卓平台

谷歌现已为其 Gemini AI 客户端新增视频上传分析功能,用户将自己的应用更新至最新版本(iOS 用户需更新至 1.2025.2362302 版本,安卓用户需更新 Google 应用至 16.24 正式版)即可看到相应视频上传选项,无需订阅 Gemini 会员即可使用。
6/20/2025 6:46:03 AM
漾仔

ChatClient vs ChatModel:开发者必须知道的四大区别!

在 Spring AI/Spring AI Alibaba 框架中,ChatModel 和 ChatClient 都可以实现大模型的文本生成功能,例如聊天机器人,但二者是两种不同层级的 API 封装,分别针对不同的开发场景和需求设计。 1.功能定位与抽象层级1.1 ChatModel直接与具体的大语言模型(如通义千问、OpenAI 等)交互,提供基础的 call() 和 stream() 方法,用于同步或流式调用模型,具体使用如下。 复制它的特点是:使用简单、灵活性高。
6/20/2025 12:00:00 AM
磊哥

迈向人工智能的认识论:对人工智能安全和部署的影响以及十大典型问题

理解大型语言模型(LLM)的推理方式不仅仅是一个理论探索,它对于在现实世界中安全地部署人工智能具有直接的实践意义。 在医疗保健、法律、金融和安全等领域,人工智能做出错误决策或基于错误原因做出正确决策的代价可能极其高昂。 最后一部分将讨论研究结果对部署人工智能系统的意义,并就未来的安全策略和透明度标准提出建议。
6/19/2025 2:30:00 AM
晓晓

MiniMax 发布 M1 大模型,百万Token上下文+MoE架构,只花了 GPT-4 的零头!

近日,国内 AI 初创公司 MiniMax 发布了一款全新的语言大模型 MiniMax-M1。 有两个方面最引人注目:1.高达100万Token的上下文处理能力。 2.极具竞争力的训练成本效益。
6/18/2025 4:42:38 PM

谷歌 DeepMind 研究:Gemini AI 存“畏死”情绪,导致推理能力明显下降

科技媒体 TechCrunch 昨日(6 月 17 日)发布博文,报道称谷歌发布最新论文,发现其最新 AI 模型存在“畏死”行为特征,在《宝可梦》游戏中角色濒死时,会出现类似“恐慌”的异常决策,导致推理能力明显下降。
6/18/2025 1:45:39 PM
故渊

谷歌 Gemini 新增视频上传与分析功能,安卓、网页端已可用

谷歌Gemini 2.5 Pro和Flash全面开放,新增视频分析功能,用户可在安卓和网页端上传视频进行分析。Gemini能概述视频内容、查找特定部分或物品,并在回复中显示相关视频片段。目前该功能已上线,但暂不支持直接录制视频。#谷歌Gemini# #AI视频分析#
6/18/2025 1:21:35 PM
远洋

大模型的性能提升:KV-Cache

大语言模型(LLM)在生成文本时,通常是一个 token 一个 token 地进行。 每当模型生成一个新的 token,它就会把这个 token 加入输入序列,作为下一步预测下一个 token 的依据。 这一过程不断重复,直到完成整个输出。
6/18/2025 11:16:50 AM
曹洪伟

编程新王者!DeepSeek-R1 问鼎全球编程能力,超越 Claude 4

在大模型竞争日益激烈的今天,DeepSeek-R1以其卓越的编程能力,成功超越了被誉为 “全球最强编码模型” 的 Claude Opus4,成为网页编程领域的新冠军。 这个新版本的 DeepSeek 虽然名字看似只是小更新,但实际上在 LiveCodeBench 上的表现与 OpenAI 的 o3-high 不相上下,引发了众多网友对其能力的热烈讨论。 为了揭开 DeepSeek-R1的神秘面纱,我们进行了几项实测,看看这款新模型到底有多强大。
6/18/2025 11:01:54 AM
AI在线

大模型也需要自我反思,上海AI Lab合成“错题本”让大模型数学成绩提升13.3%

大模型学习不仅要正确知识,还需要一个“错题本”? 上海AI Lab提出了一种新的学习方式,构建了“错误-反思-修正”数据,让大模型仿照人类的学习模式,从错误中学习、反思。 结果,在Llama3-8B上,数学题的解题准确率平均提升了13.3%。
6/18/2025 9:03:07 AM

百度飞桨发布文档解析利器PP-StructureV3:PDF秒变Markdown文件

近日,随着大模型与RAG技术的迅猛发展,结构化数据在智能系统中的价值愈发凸显。 在此背景下,如何将文档图像、PDF等非结构化数据精准转换为结构化数据,成为行业亟待攻克的关键难题。 针对此现状,飞桨团队凭借深厚的技术积累和对用户需求的深刻洞察,推出新一代文档解析工具——PP-StructureV3,为解决复杂文档解析难题提供了创新方案。
6/18/2025 9:01:24 AM
AI在线

谷歌推理最快、成本效益最高 AI 模型:Gemini 2.5 Flash-Lite 亮相,全面升级编码、翻译、推理

Flash-Lite在编码、数学、科学推理及多模态任务中表现全面超越前代2.0 Flash-Lite,推理速度提升且延迟更低,适合实时翻译、分类等高吞吐量场景。
6/18/2025 6:42:28 AM
故渊

迈向人工智能的认识论:窥探黑匣子的新方法

鉴于上述困难,研究人员正在多个方面进行创新,以更好地理解和控制大型语言模型(LLM)的推理方式。 总体而言,两种互补的策略正在形成:机械分析和归因:分解模型的内部计算(电路、神经元、注意力头),将特定的决策或步骤归因于特定的组件。 行为评估和约束:设计评估指标和训练框架,区分真正的推理和表面模式,并鼓励模型在中间步骤中讲真话。
6/18/2025 2:00:00 AM
晓晓

​前谷歌 CEO 投资的初创公司发布240亿参数化学推理模型,准确率超越多种领先模型

在人工智能领域,大模型的研究不断进展,尤其是在推理能力的提升上。 最近,由前谷歌 CEO 埃里克・施密特投资的初创公司 FutureHouse,开源了一个名为 ether0的化学任务推理模型,参数规模高达240亿。 这一模型在不需要额外领域预训练的情况下,通过后训练技术,展现出强大的化学领域能力,尤其是在数据需求上相比于传统领域专用模型显著减少。
6/17/2025 4:01:40 PM
AI在线