AIGC宇宙 AIGC宇宙

大模型

一句话,性能暴涨49%!马里兰MIT等力作:Prompt才是大模型终极武器

AI性能的提升,一半靠模型,一半靠提示词。 最近,来自马里兰大学、MIT、斯坦福等机构联手验证,模型升级带来的性能提升仅占50%,而另外一半的提升,在于用户提示词的优化。 他们将其称之为「提示词适应」(prompt adaptation)。
8/18/2025 5:20:17 PM

硬核拆解!从GPT-2到gpt-oss,揭秘大模型进化关键密码

8月5日,在GPT-5发布前两天,OpenAI推出了它的两款开源权重大语言模型:gpt-oss-120b、gpt-oss-20b。 这是自2019年GPT-2,近六年来OpenAI首次发布开放权重的模型。 得益于巧妙的优化技术,这些模型甚至可以在本地设备上运行。
8/18/2025 9:15:00 AM

大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷

大语言模型(LLM)正从工具进化为“裁判”(LLM-as-a-judge),开始大规模地评判由AI自己生成的内容。 这种高效的评估范式,其可靠性与人类判断的一致性,却很少被深入验证。 一个最基础、却也最关键的问题是:在评判一个模型是否“入戏”之前,AI裁判能准确识别出对话中到底是谁在说话吗?
8/18/2025 9:00:00 AM

谷歌最新「0.27B」Gemma 3开源!身板小却猛如虎,开发者直呼救命稻草

大块头不等于大智慧。 这在生成式AI领域,已逐渐成为共识。 Gemma 3系列的成功就是一个很好的例证。
8/18/2025 8:57:00 AM

AI大模型的版权风暴:行业巨头面临7500亿美元赔偿风险

近年来,随着人工智能技术的飞速发展,大型 AI 模型的训练数据来源问题日益成为业界关注的焦点。 许多知名企业在构建其 AI 模型时,似乎都选择了使用大量未授权的版权内容作为数据。 这一 “秘密配方” 引发了激烈的法律争论,并将硅谷的科技巨头们推上了风口浪尖。
8/15/2025 9:31:41 PM
AI在线

Agent 产品如何定价?我们花的钱,究竟值不值?

一方面,我们对Agent的期望是成为一个可靠、高效、且不知疲倦的伙伴;另一方面,现实体验却常常被一些“意外”打断:资源瓶颈的窘境:在执行关键任务的冲刺阶段,系统突然弹出“积分/点数已耗尽”的提示,如同汽车在距离目的地一公里处耗尽燃油,进程戛然而止。 性能波动的无奈:用户时常面临算力“堵车”的困境,Agent的响应速度时快时慢,尤其在服务高峰期,其表现更像一个“兼职员工”,而非全天候的专业助理。 DeepSeek等前沿应用在发布初期因用户激增而导致的服务器高负载现象,便是这一挑战的缩影。
8/14/2025 11:13:59 AM
DataFun

基于 DiT 大模型与字体级分割的视频字幕无痕擦除方案,助力短剧出海

当短剧出海、跨境电商等新兴领域打造全球化内容时,面临着一个棘手的基础问题——原始视频的中文字幕。 原始字幕对于海外观众来说,不仅是无效信息,还严重干扰观看体验。 传统方案——直接添加对应外语字幕会导致画面杂乱,而使用马赛克或基于 GAN 的字幕擦除补全方案会导致画面模糊、帧间闪烁,都无法彻底解决这一挑战,使得优质内容的出海之路障碍重重。
8/12/2025 9:37:43 AM
孙康、丁杨

Deep Agent 是如何让大模型更“聪明” ?

Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的开源库 - “Deep Agent”。 众所周知,AI Agent 无疑是当下最激动人心的技术叙事之一。 它让我们看到了一个未来:AI不再仅仅是被动应答的工具,而是能够自主感知、推理并行动的“数字员工”。
8/12/2025 9:23:34 AM
Luga Lee

吴恩达解读 AI 天价薪酬:资本堆起的1亿美元不是情绪

人工智能界掀起了新的薪资地震。 吴恩达对此做了评价。 图片吴恩达在推特中表示,Meta为AI大模型开发者开出超过1亿美元的薪酬大礼包,震动了整个科技行业。
8/8/2025 2:27:22 PM

大模型训练“练兵千日”,别输在AI推理“用兵一时”

2025年被认为是AI智能体的元年,是AI走向大规模应用的开始。 随着AI应用爆发,算力的需求逻辑也正在被重塑:AI推理——而不是训练,将成为未来算力需求的核心增长点。 这种趋势在刚刚结束的2025年世界人工智能大会(WAIC)多有体现。
8/8/2025 6:00:00 AM
朱飞

从GPT-OSS谈谈大模型算法和Infra演进

TL;DRgpt-oss开源了,整个模型架构的设计真的是非常的simple & elegant。 本文结合一些前段时间一些Infra相关的争议和自己开发Agent相关的分析, 来对未来模型架构演进做一些分析。 OverviewOpenAI这次开源的是gpt-oss-20b 和 gpt-oss-120b两个模型。
8/8/2025 4:11:00 AM
zartbot

AI生死局仅存6位玩家!Claude之父:大模型天生就有“搞钱”冲动!做了CC才能懂模型如何进化!即使AI停滞,产品还要再做十年

出品 | 51CTO技术栈(微信号:blog51cto)说起来,今天已经立秋了,但 AI 圈的这个“盛夏”显然还没结束。 这几天,几大巨头接连出招,行业硝烟味渐浓。 明天大概率还有GPT-5要出来炸场。
8/7/2025 5:01:36 PM
伊风

OpenAI重磅发布gpt-oss系列开源大模型:媲美 GPT-4o

不论你是独立开发者、企业还是研究机构,现在都可以免费拥有一款与 GPT-4o 接近实力的语言模型。 开源但不“阉割”:媲美 GPT-4o,运行成本极低OpenAI 在这次发布中非常有诚意:gpt-oss-120b:在核心推理任务上已接近 GPT-4o-mini,支持 128k 上下文,单卡 80GB GPU 可跑。 gpt-oss-20b:性能对标 GPT-3.5(o3-mini),仅需 16GB 显存,可部署于消费级设备、本地推理、离线使用等场景。
8/7/2025 2:05:40 PM
AI大模型应用开发

独家丨盛大挖角代季峰,筹建新 AGI 公司对标 DeepSeek

AI 科技评论独家获悉,近日盛大网络挖角清华大学电子工程系副教授代季锋,正在筹备一家新的 AGI 公司,号称“对标 DeepSeek”,已有多位技术人才被猎头接触、介绍该团队的工作机会。 目前,该项目正处于核心团队招募阶段。 项目的核心人物之一代季峰,是清华大学电子工程系副教授,研究方向聚焦于视觉信息理解的基础模型与核心算法。
8/4/2025 10:33:00 PM
郑佳美

揭秘大模型的魔法:实现带可训练权重的自注意力机制

大家好,我是写代码的中年人。 上一篇我们实现了一个“无可训练参数”的注意力机制,让每个词都能“看看别人”,计算出自己的上下文理解。 虽然实现起来不难,但它只是个“玩具级”的注意力,离真正的大模型还差了几个“亿”个参数。
8/4/2025 9:31:49 AM
写代码的中年人

多项力压 Grok 4、OpenAI o3,谷歌推出 Gemini 2.5 Deep Think 模型

AI在线 8 月 1 日消息,谷歌今晚宣布,Gemini 2.5 Deep Think 模型现已正式上线,现已在 Gemini 应用中向 Google AI Ultra 订阅用户开放。 这款新模型在多个关键基准测试中超越了 OpenAI 的 o3 和 xAI 的 Grok 4。 据外媒 Neowin 报道,今年 5 月,谷歌在 Google I/O 大会上首次介绍了 Gemini 2.5 Pro 的 Deep Think 模式,采用全新研究方法,可在作答前综合多个假设进行推理。
8/1/2025 10:18:20 PM
清源

阶跃星辰新一代基础大模型 Step 3 正式开源:拥有强大视觉感知和复杂推理能力

AI在线 7 月 31 日消息,阶跃星辰宣布新一代基础大模型 Step 3 正式开源,Step 3 API 已上线阶跃星辰开放平台(platform.stepfun.com),用户也可以在“阶跃 AI”官网(stepfun.com)和“阶跃 AI”App 进行体验。 据介绍,Step 3 的多模态能力围绕“轻量视觉路径”与“稳定协同训练”展开,重点解决视觉引入带来的 token 负担与训练干扰问题。 为此,其采用 5B Vision Encoder,并通过双层 2D 卷积对视觉特征进行降采样,将视觉 token 数量减少到原来的 1/16,减轻上下文长度压力,提升推理效率。
7/31/2025 10:18:00 PM
远洋

我国大模型应用个人用户注册超 31 亿

AI在线 7 月 31 日消息,据中国新闻网报道,记者从国家网信办获悉,当前 AI 正通过网页、移动应用、API 接口、本地部署、云服务部署等多种方式为用户提供服务。 据不完全统计,大模型应用的个人用户注册总数已超过 31 亿,API 调用用户总数超过 1.59 亿。 AI在线注意到,今年以来我国基础大模型的迭代速度加快,大模型在电子、原材料、消费品等行业加快落地。
7/31/2025 11:50:05 AM
浩渺