AIGC宇宙 AIGC宇宙

大模型

从思考到行动:大模型自主工具调用能力的深度实现

本项目由复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员领导,博士生韩槿一,硕士生李廷云、熊程元、姜子上、王昕奕等同学共同参与完成。 GPT - 4o、Deepseek - R1 等高级模型已展现出令人惊叹的「深度思考」能力:理解上下文关联、拆解多步骤问题、甚至通过思维链(Chain - of - Thought)进行自我验证、自我反思等推理过程。 但是,多数主流模型仍在基础问题上犯错,复杂四则运算计算失误,简单「两个小数比大小」出错、甚至连数清楚 strawberry 里有几个「r」都能翻车……即使提示像 R1 这样具备深度思考能力的大模型也要消耗大量的 token 才能勉强答对。
4/17/2025 10:43:00 AM
机器之心

揭秘大模型的魔法:从零开始你的AI冒险

你好,我是写代码的中年人! 你有没有想过,那些能写诗、答题、甚至帮你 debug 代码的 AI 到底是怎么回事? 它们其实是“大型语言模型”(Large Language Models,简称 LLM)的产物。
4/17/2025 9:00:00 AM
写代码的中年人

粉笔AI荣获中国AIGC产业峰会2025值得关注AIGC产品奖

在近日举行的第三届中国 AIGC 产业峰会上,粉笔 AI 凭借其在职业教育领域的突出表现,荣获 “2025年值得关注的 AIGC 企业” 和 “2025年值得关注的 AIGC 产品” 两项大奖。 此次峰会由量子位主办,主题为 “万物皆可 AI”,吸引了众多科技和教育行业的专家和从业者。 粉笔的 CTO 陈建华在峰会上发表了题为《智能教育的重塑与实践:大模型的落地之路》的演讲。
4/16/2025 6:01:15 PM
AI在线

突发!字节AI Lab将整体并入Seed团队!字节AI Lab消亡史全梳理:比达摩院更早,曾撑起抖音推荐神话,如今彻底退出舞台

编辑 | 李美涵出品 | 51CTO技术栈(微信号:blog51cto)据《AI科技评论》报道,字节跳动 AI Lab 将整体并入 Seed 团队,标志着这个成立已久的老牌研究院式组织,正在被一种更“扁平化”的新型研发模式彻底取代。 自 2025 年 2 月原 Google DeepMind 副总裁吴永辉加入字节以来,字节的 AI 业务陆续迎来一系列组织架构和人事上的重大调整。 原本由朱文佳独立负责的 Seed 部门,如今逐步演变为吴永辉与朱文佳分工协作的双负责人机制:朱文佳主抓模型应用方向,吴永辉则掌舵 AI 基础研究。
4/16/2025 4:45:52 PM
李美涵

迅雷功能插件升级:一键完成大模型批量下载

近日,迅雷上线新版本插件,针对大模型下载场景进行优化,让用户能够更快更方便地批量下载大模型所有文件,下载迅雷客户端且在浏览器安装迅雷插件即可使用
4/15/2025 6:35:17 PM
汐元

迅雷全新升级:一键下载大模型,轻松畅享加速体验!

在人工智能技术飞速发展的今天,开发者们常常需要下载庞大的模型文件。 然而,传统的单文件逐一下载方式不仅费时费力,而且完成大量下载后,杂乱无章的文件整理常常让人感到焦头烂额。 为了解决这一问题,迅雷近期推出了全新版本的插件,针对大模型下载进行了全面升级,带来了 “自动加载全量文件、智能归档、一键下载” 的全新体验。
4/15/2025 5:01:19 PM
AI在线

月之暗面 Kimi 推出首个内容社区,开启用户互动新模式

月之暗面近日宣布正在进行其首个内容社区产品的灰度测试,旨在提升用户体验和留存率。 这款名为 Kimi 的产品早在去年底就开始了小范围的试用,目前终于迎来了更广泛的测试阶段。 据澎湃新闻报道,月之暗面是一家成立于2023年3月的公司,由有着清华背景的杨植麟团队领导。
4/15/2025 12:02:18 PM
AI在线

MCP 协议深度解读:技术创新正以前所未有的速度突破

作者 | rianOpenAI 官宣全面支持MCP协议,至此MCP已得到业界广泛的认可。 正逐步成为AI应用架构的基础协议。 做为AI应用架构的USB-C,MCP原理是怎样的?
4/15/2025 10:16:12 AM
腾讯技术工程

智谱AI正式启动IPO流程,大模型“六小龙”迎来新篇章

据证券时报消息,国内大模型领域领军企业智谱AI已正式启动首次公开募股(IPO)流程,成为业内备受瞩目的焦点。 据悉,智谱2025年4月14日在北京证监局办理辅导备案,辅导机构为中国国际金融股份有限公司。 作为“大模型六小龙”(智谱AI、月之暗面、百川智能、MiniMax、零一万物、阶跃星辰)之一,智谱AI的这一里程碑标志着中国AI初创企业迈向资本市场的重要一步。
4/15/2025 10:01:28 AM
AI在线

海豚语言被谷歌大模型破译!跨物种交流大门打开,哈萨比斯:下一个是狗

神奇! 人类和海豚真的能实现跨物种交流了? !
4/15/2025 9:53:52 AM
量子位

Meta 新模型 Llama-4-Maverick 排名骤降,引发刷榜质疑

近日,Meta 公司发布的开源大模型 Llama-4-Maverick 在 LMArena 的排行榜上从第二名直降至第32名,这一剧烈波动引发了开发者们的广泛质疑,认为 Meta 可能通过提交特供版本以刷榜。 事情的起因要追溯到4月6日,Meta 发布了其最新的大模型 Llama4,包括 Scout、Maverick 和 Behemoth 三个版本。 其中,Llama-4-Maverick 在初期的评估中表现亮眼,位列 LMArena 排行榜的第二名,仅次于 Gemini2.5Pro。
4/14/2025 6:01:07 PM
AI在线

商汤大装置SenseCore 2.0全新升级 推出1亿元代金券计划

4月14日,在北京举办的2025商汤技术交流日上,商汤科技正式宣布其大装置SenseCore2.0全面升级。 作为AI基础设施领域的领军者,商汤大装置SenseCore2.0致力于为企业提供敏捷、灵活、可靠的全栈AI基础设施服务,以极致性价比推动大模型技术的高效落地与规模化应用。 商汤大装置SenseCore2.0的升级,旨在应对当前大模型产业面临的三大挑战:开源模型和工具的主流化、性价比的生死线以及多模态技术带来的新场景需求。
4/14/2025 4:01:07 PM
AI在线

WOT大会7月北京启幕!12大AI主题诚征议题和嘉宾

WOT全球人工智能技术峰会是由51CTO开创的面向人工智能领域的高端技术会议品牌,它与另一大会品牌WOT全球技术创新大会一道,自2012年首次举办以来,历时十余年沉淀,累计吸引超过万名技术人员现场参与,同时吸引了数百家国内外知名科技企业和行业龙头、近千位技术领军人物深度合作。 ChatGPT引爆的热潮没有丝毫减缓之势,而DeepSeek又给这一热度添了一把火。 伴随大模型的快速迭代、持续演进,生成式AI技术从理念到实践,从应用落地到产品百花齐放,创新速度之快令人瞩目,这也正是WOT全球人工智能技术峰会2025召开的目的和初衷。
4/14/2025 1:55:31 PM

阿里全模态Qwen2.5-Omni技术报告万字解读!

Qwen 团队最近发布了一款统一多模态大模型 Qwen2.5-Omni,开放了 7B 版本的权重。 能够同时处理文本、图像、音频和视频输入,并以流式方式生成文本和语音响应。 下面来详细看下:开源地址:论文地址:: 地址: Face:::官方体验:::在日常生活中,人类能够同时感知视觉和听觉信息,并通过大脑处理这些信息后,以书写、说话或使用工具等方式进行反馈,从而与世界上的各种生物进行信息交流并展现智能。
4/14/2025 12:20:00 AM
Goldma

斯坦福权威报告盖章!阿里通义千问贡献排名全球第三!用算力优势重塑全球竞争格局!

近日,斯坦福大学人工智能研究所发布了《2025年人工智能指数报告》,为全球人工智能领域的发展提供了新的视角。 报告指出,阿里巴巴在全球重要大模型贡献中位居第三,成为中国科技公司的领军代表。 报告显示,2024年,中国在全球 AI 大模型中贡献了15项,而阿里巴巴的6个模型入选,紧随谷歌与 OpenAI 的7个模型之后。
4/13/2025 7:34:53 AM
AI在线

商汤日日新 SenseNova V6 多模态融合大模型发布

“商汤日日新 SenseNova V6”多模态融合大模型于今日发布,具备最长 64K 思维链、数理分析、多模态深度推理、全局记忆等能力,支持 10 分钟的视频推理及深度推理。
4/10/2025 4:16:29 PM
远洋

大模型“自动修 bug”能力将提升,豆包团队开源首个多语言代码修复基准 Multi-SWE-bench

4 月 10 日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。 在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈工程”的评测基准。 其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。
4/10/2025 2:30:12 PM
清源

算法面试80%会问:大模型评估指标全解析

从训练到部署的评估链条大模型的评估贯穿了从研发到部署的全生命周期:训练阶段:使用交叉熵等损失函数指导模型优化方向生成评估:通过BLEU、ROUGE等指标量化生成内容质量能力测试:利用GLUE、MMLU等标准化基准评估多维度能力实战对比:在竞技场上与其他模型直接PK,检验实际效果交叉熵与困惑度熵最初源自物理学,用于描述系统无序程度。 在信息论中,熵衡量信息的不确定性:$H(X) = -\sum_{x} P(x)log_b P(x)$交叉熵是评估预测分布与真实分布差异的指标,也是大模型训练中最常用的损失函数:$H(p, q) = -\sum_{i} p(i) \log q(i)$困惑度是评估语言模型的老牌指标,简单说就是预测下一个词有多"困难"。 计算公式:复制在实际项目中,我们常用它监控预训练过程。
4/10/2025 7:00:00 AM
贝塔街的万事屋