AIGC宇宙 AIGC宇宙

大模型

继 OpenAI 之后,谷歌宣布其 Gemini AI 在国际数学奥林匹克竞赛测试中获金牌水平成绩

AI在线 7 月 22 日消息,国际数学奥林匹克竞赛(IMO)是全球最负盛名的数学竞赛之一,每年每个国家由六名高中生代表参赛,他们需在规定时间内解答六道极具挑战性的数学难题。 在这一竞赛中,仅有约 8% 的参赛者能够获得金牌,这使得 IMO 的金牌成为数学领域的至高荣誉。 在今年的国际数学奥林匹克竞赛中,OpenAI 和谷歌都使用了它们最新的大语言模型(LLM)参赛。
7/22/2025 4:06:17 PM
远洋

DeepMind夺得IMO官方「唯一」金牌,却成为OpenAI大型社死现场

刚刚,谷歌 DeepMind 宣布,其新一代 Gemini 进阶版模型在 IMO 竞赛中正式达到金牌得主水平,成功解决了六道超高难度试题中的五道,拿下 35 分(满分 42 分),成为首个获得奥赛组委会官方认定为金牌的AI系统。 更重要的是,该系统首次证明人工智能无需依赖专业编程语言,仅通过自然语言理解即可攻克复杂数学难题。 谷歌 DeepMind 首席执行官哈萨比斯在社交媒体平台 X 上强调:这是官方结果!
7/22/2025 1:22:00 PM
机器之心

并行革命,32倍吞吐量跃升!英伟达Helix架构突破百万Token推理瓶颈

想象一个使用大模型的任务,需要一次处理百万字符的文档,例如从百科全书中获取信息,或是分析数百页的法律卷宗,异或追踪持续数月的对话记录,都需要越来越长的上下文。 而大模型生成的每个词都需要扫描存储在所谓的KV缓存中存储的过去标记。 反复读取这个缓存会消耗GPU内存带宽。
7/22/2025 10:40:00 AM

没有高质量的数据库加持,大模型只是 “空中楼阁”

2023年,ChatGPT的横空出世让全球惊叹于大模型的智能水平。 自此,国内也掀起了新一轮的大模型热潮,首先,百度发布了文心一言,紧接着,阿里、腾讯、华为、京东等大厂先后入局,更值得一提的是,大模型热度的居高不下,也吸引了不少创业公司的加入,零一万物、Kimi、面壁智能....随着两年时间的发展,如今大模型的智能水平早已不可同日而语,从在自然语言处理领域实现与人类流畅对话,到在图像视频领域精准识别各类物体,从最初简单的问答,到快速且精准地解决生活、工作、学习等在各场景中遇到的问题,大模型的表现也在不断刷新我们的认知。 然而,这些卓越表现并非凭空而来,大模型的强大背后,离不开高质量数据库的坚实支撑。
7/21/2025 11:05:04 AM

ICML'25 |大模型再爆弱点!旧记忆忘不掉,新记忆分不出,准确率暴降

人们越来越意识到,大语言模型(LLM)里「找信息」这件事,并不是简单地翻字典,而和「写信息」的能力紧紧绑在一起。 一般认为,给模型塞入更长的上下文就能让它找得更准,不过上下文内部存在「互相干扰」,但这种现象却很少被研究。 为了看清这个问题,弗吉尼亚大学和纽约大学神经科学中心研究人员借用了心理学里的「前摄干扰」(proactive interference)概念:先出现的信息会妨碍我们回忆后来更新的内容。
7/21/2025 9:09:00 AM

面试官:如何实现大模型的连续对话?

所有的大模型本身是不进行信息存储的,也不提供连续对话功能,所以想要实现连续对话功能需要开发者自己写代码才能实现。 那怎么才能实现大模型的连续对话功能呢? 大模型连续对话功能不同的框架实现也是不同的,以行业使用最多的 Java AI 框架 Spring AI 和 Spring AI Alibaba 为例,给大家演示一下它们连续对话是如何实现的。
7/21/2025 7:19:00 AM
磊哥

入局 AI Infra:程序员必须了解的 AI 系统设计与挑战知识

本文将分享传统后台工程师积累的技术栈和方法论,如何延续并迁移到 AI 系统,并系统性拆解 AI Infra 的硬件、软件、训练和推理挑战。 作者 | rayrphuangAI Infra 和传统 Infra 有什么区别? 程序员积累的技术栈和方法论,如何复用到 AI 系统架构设计上?
7/21/2025 6:30:00 AM
腾讯技术工程

大模型自信心崩塌!谷歌DeepMind证实:反对意见让GPT-4o轻易放弃正确答案

LLM太谄媚! 就算你胡乱质疑它的答案,强如GPT-4o这类大模型也有可能立即改口。 现在谷歌DeepMind携手伦敦大学的一项新研究发现:这种行为可能也不是谄媚,而是缺乏自信…….
7/20/2025 3:14:30 PM
西风

使用Python构建红楼梦人物知识图谱

一、python环境准备可详细参考使用Python操作nNeo4j中python环境的搭建。 主要python库如下:复制二、数据准备数据一共有4列,381行,命名为triples.csv:source:实体起点。 比如Alice指向Bob,Alice是起点,箭头开始的位置。
7/18/2025 10:35:30 AM
Python伊甸园

广义智能体理论:智能时代通向「万物理论」的新路径?

在现代科学的宏伟蓝图上,「万物理论」(Theory of Everything)代表着一个大一统的梦想:构建一个包罗万象、逻辑自洽的理论体系。 它的雄心在于,用最少的本源法则,去解释宇宙间森罗万象的现象——从宇宙大爆炸的奇点、时空本身的弯曲,到基本粒子的相互作用、再到化学键的构成、DNA链的螺旋,直至智能的萌发与自我意识的诞生。 然而,通往这一「梦想」理论的道路上,横亘着现代物理学最深刻的两大鸿沟:其一,是在宏观尺度上描述引力的广义相对论,与在微观尺度上主导一切的量子力学之间,存在着根本性的不相容;其二,物理学中的四大基本作用力(引力、电磁力、强核力、弱核力)至今未能被纳入一个统一的理论之中。
7/18/2025 10:19:49 AM

大模型转行土木工程!首个「打灰人」评估基准:检验读、改工程图纸能力

在AI竞速的今天,大语言模型(LLM)早已不满足只在象牙塔里「背书解题」。 当GPT-4o刷题通过物理奥赛、DeepSeek熟练搭建网站之后,LLM必须直面一个更现实的问题:这些号称「专家级」的大模型,能不能真的下工地? 能不能帮工程打工人减负?
7/18/2025 10:08:17 AM

刚刚,奥特曼放出ChatGPT「统一智能体」!惊呼真AGI,最卷打工人来了

今晚,ChatGPT和Deep Research、Operator「三剑客」首度合体! 奥特曼亲自带队,25分钟高能直播重磅发布ChatGPT agent,开启人类和智能体协作全新时代。 ChatGPT agent的核心,是一个统一的智能体系统。
7/18/2025 9:59:35 AM

从聊天记录到数字资产:MIRIX 让记忆可买卖

大家好,我是肆〇柒。 当下,LLM 智能体在各种复杂任务中表现得越来越出色。 然而,记忆这一关键要素却始终制约着 LLM 智能体的进一步发展。
7/17/2025 10:08:30 AM
肆零柒

揭秘大模型的魔法:从Transformer架构开始,一步步揭开它的神秘面纱

大家好,我是写代码的中年人,本章我们正式进入Transformer架构的学习。 从 ChatGPT 到文生图,从语音助手到AI绘本的自动生成,背后几乎都躲着一个强大的架构,它像一台“魔法机器”,能读懂语言、生成内容、甚至推理判断。 但这一切魔法的根基,其实都是数学和工程的艺术结晶。
7/17/2025 9:47:07 AM
写代码的中年人

RAG 中文本分块全攻略,这个项目让效率狂飙

在构建 Retrieval-Augmented Generation(RAG)系统时,文本分块作为关键前置环节,其质量直接影响检索精度与生成内容的相关性。 今天给大家推荐一个自己近期整理的项目 ——Awesome-Chunker,一站式聚合并复现了当下主流的文本分块技术,从经典方法到前沿算法应有尽有,助你在 RAG 开发中少走弯路! 1、项目核心价值 让分块不再是难题在 RAG 任务的探索之路上,相信不少研究者都和我一样,为寻找一个能系统提升分块质量的项目而苦恼。
7/17/2025 9:35:26 AM
Goldma

“我没错!”GPT-4o嘴硬翻车,AI在黑天鹅事件面前集体宕机

来自哥伦比亚大学、Vector人工智能研究所以及南洋理工大学的一个联合研究团队发现:人工智能模型在处理意外事件时的推理能力存在严重缺陷。  即便是如GPT-4o和Gemini 1.5 Pro这样的顶尖视觉语言模型(VLM),其表现也远逊于人类,差距最高可达32%。  论文地址:《黑天鹅》的研究指出,当前主流的AI评估方式普遍存在一个根本性问题:大多数基准测试围绕“常规模式”构建,也就是说,它们聚焦于可预测、规律清晰的视觉场景。
7/17/2025 7:19:35 AM
大数据文摘

月之暗面开源 Kimi-K2:万亿参数,超强Agent,全线 SOTA

2023年成立的中国AI初创公司月之暗面,刚刚发布了其最新重量级产品Kimi-K2。 这是一款参数规模高达一万亿的开源大模型,以挑战GPT-4.1和Claude Sonnet 4为目标。 Kimi-K2没有配备专门的“推理模块”,却依然在多个关键领域打破性能壁垒,这一策略让人想起早前Deepseek的发布。
7/17/2025 7:12:45 AM
大数据文摘

大模型合辑 | 主权高墙还是开源洪流,技术路线生死竞速,WAIC 2025大模型论坛亮点前瞻

WAIC 2025  世界人工智能大会论坛:2025年7月26日-28日 上海世博中心展览:2025年7月26日-29日 上海世博展览馆2025年,全球大模型产业站在技术主权与开放创新的战略岔口。 当千亿参数成为基座门槛,行业共识正从“规模竞赛”转向“价值落地”,一场关于生态主导权的暗涌已然成型:国家主导的主权模型与社区驱动的开源体系孰轻孰重? 垂类场景的深度定制能否突破通用智能的垄断?
7/15/2025 3:13:00 PM
新闻助手