AIGC宇宙 AIGC宇宙

AI

大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷

大语言模型(LLM)正从工具进化为“裁判”(LLM-as-a-judge),开始大规模地评判由AI自己生成的内容。 这种高效的评估范式,其可靠性与人类判断的一致性,却很少被深入验证。 一个最基础、却也最关键的问题是:在评判一个模型是否“入戏”之前,AI裁判能准确识别出对话中到底是谁在说话吗?
8/18/2025 9:00:00 AM

谷歌最新「0.27B」Gemma 3开源!身板小却猛如虎,开发者直呼救命稻草

大块头不等于大智慧。 这在生成式AI领域,已逐渐成为共识。 Gemma 3系列的成功就是一个很好的例证。
8/18/2025 8:57:00 AM

OpenAI华人露头就被小扎挖!95后北大校友1个月前上直播,今天已是Meta人

又来了又来了,OpenAI华人工程师,果然露脸就被小扎挖(doge)。 这一次,主角是95后北大校友孙之清,上个月刚刚参与了ChatGPT Agent的发布直播。 当时就有不少网友调侃:发布会出镜就是在给Meta提供挖角名单。
8/15/2025 12:27:27 PM

OpenAI波兰双雄:GPT不是偶然!再忆奥特曼被逐当天实况

OpenAI早期,据说午餐时大家太紧张,以至于不敢说话,现在的氛围轻松许多。 甚至OpenAI早期有个「波兰帮」,比如联合创始人Wojciech Zaremba(下图左),后来在编程竞赛击败ChatGPT的信息学奥赛金牌选手Przemysław Debiak(下图右)。 图片还有两位黄金级搭档Jakub Pachocki和Szymon Sidor:现首席科学家Jakub Pachocki,奥特曼称赞为「我们这一代最杰出的头脑之一」;OpenAI技术Fellow、前者的高中同学Szymon Sidor。
8/15/2025 11:54:04 AM
新智元

被曝蒸馏DeepSeek还造假!欧版OpenAI塌房了

离职掀桌! Mistral被曝“蒸馏”DeepSeek。 网友在推特上爆料,一位Mistral离职女员工群发邮件,直指公司多项黑幕。
8/14/2025 6:22:29 PM

ChatGPT会让大脑退化?OpenAI高管用它救下自己「读写障碍」的女儿

ChatGPT会导致大脑退化吗? 它只是一个作弊工具吗? 加入OpenAI之前,Leah Belsky已经在教育领域工作了15年,从世界银行到Coursera,专注于「让教育惠及全球」这一使命。
8/14/2025 6:15:33 PM

OpenAI们都错了!AI教父辛顿再发警告:控制AI是妄想!必须让AI成为“母亲”,学会主动关心人类!李飞飞当场反驳:构想不对!

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)人类试图控制AI的方式犯了本质错误! 昨日,“AI教父”辛顿(Geoffrey Hinton)在Ai4 行业大会上的发言再次掀起热议。 这位曾警告“AI消灭人类的概率在10%到20%之间”的人工智能先驱,这次把矛头直接对准科技巨头——他质疑,那些试图让人类在所谓“顺从”的AI面前维持“主导地位”的做法,根本行不通。
8/14/2025 3:42:55 PM
伊风

马斯克手撕OpenAI,奥特曼反击:AI巨头互曝老底,苹果被拖下水

8月12日,埃隆·马斯克在社交平台X上发布了一则爆炸性指控。 他声称,苹果正在利用App Store的机制,使得除了OpenAI之外的任何AI公司都无法登上榜首。 图片马斯克将此行为称作“明确的反垄断行为”,并表示其旗下公司xAI将立即采取法律行动。
8/13/2025 6:30:56 PM

刚刚,OpenAI内部推理模型斩获IOI 2025金牌!所有AI选手中第一

刚刚,OpenAI内部推理模型在获得IMO金牌后,又拿下了IOI金牌。 图片和上次IMO一样,OpenAI 使用了草莓形象来代表这个推理模型。 只不过这次的「草莓」不仅带上了IOI的金牌,而且更加的拟人,这个形象很有可能进化为OpenAI内部推理系统代表形象。
8/12/2025 9:46:18 AM
新智元

免费使用GPT-5!一手实测案例,代码能力强的离谱

上周五OpenAI发布期待已久的GPT-5,并宣布会免费开放使用。 经过几天调试,从今天开始,免费版ChatGPT可以正式使用GPT-5了,下面「AIGC开放社区」就基于免费版为大家展示一下GPT-5强大的功能。 我们先试试GPT-5的拿手好戏代码能力,输入提示词:用 JavaScript 结合 HTML5 Canvas 开发一个打砖块网页游戏,要求,包含可移动的挡板,通过鼠标或左右键控制、随机位置生成的砖块矩阵,小球撞到挡板、砖块、上下左右边界时有正确的物理反弹效果,砖块被击中后消失,全部砖块消除则通关,小球掉落挡板下方则游戏结束。
8/12/2025 9:18:00 AM

错信AI幻觉,一男子用溴化钠替代食用盐,真给自己吃出幻觉了

美国一位60岁男性就错信了ChatGPT的建议,把家中的食用盐全替换成了用于泳池清理的溴化钠。 这一做法让他体内的溴含量达到了惊人的1700 mg/L(正常范围为0.9-7.3 mg/L),属于严重的溴中毒,并导致了严重的妄想症。 好家伙,真正诱发了字面意义上的幻觉。
8/11/2025 6:00:11 PM
量子位

吴恩达解读 AI 天价薪酬:资本堆起的1亿美元不是情绪

人工智能界掀起了新的薪资地震。 吴恩达对此做了评价。 图片吴恩达在推特中表示,Meta为AI大模型开发者开出超过1亿美元的薪酬大礼包,震动了整个科技行业。
8/8/2025 2:27:22 PM

AI生死局仅存6位玩家!Claude之父:大模型天生就有“搞钱”冲动!做了CC才能懂模型如何进化!即使AI停滞,产品还要再做十年

出品 | 51CTO技术栈(微信号:blog51cto)说起来,今天已经立秋了,但 AI 圈的这个“盛夏”显然还没结束。 这几天,几大巨头接连出招,行业硝烟味渐浓。 明天大概率还有GPT-5要出来炸场。
8/7/2025 5:01:36 PM
伊风

OpenAI重磅发布gpt-oss系列开源大模型:媲美 GPT-4o

不论你是独立开发者、企业还是研究机构,现在都可以免费拥有一款与 GPT-4o 接近实力的语言模型。 开源但不“阉割”:媲美 GPT-4o,运行成本极低OpenAI 在这次发布中非常有诚意:gpt-oss-120b:在核心推理任务上已接近 GPT-4o-mini,支持 128k 上下文,单卡 80GB GPU 可跑。 gpt-oss-20b:性能对标 GPT-3.5(o3-mini),仅需 16GB 显存,可部署于消费级设备、本地推理、离线使用等场景。
8/7/2025 2:05:40 PM
AI大模型应用开发

AI“诸神黄昏”本周上演?GPT-5、Claude 4.1、Gemini 3 传言同步发布,地表最强模型之战一触即发

人工智能领域可能在本周迎来一次集中爆发。 据悉,GPT-5、OpenAI开源模型、Claude Opus 4.1,以及Gemini 3都有可能在本周发布。 这预示着,全球顶尖AI公司的下一代旗舰模型或将同步登场。
8/6/2025 12:10:51 PM

谢赛宁「踩雷」背后,竟藏着科研圈更黑真相:Science实锤论文造假+AI滥用!

谢赛宁是真倒霉! 为了避免被LLM审稿「误上」,他领导的实验室投稿的一些论文中暗藏了系统提示词,被𝕏网友当中「处刑」! 跟刚刚《Science》爆出的科研圈两大丑闻,就是小巫见大巫,不值一提。
8/6/2025 9:29:30 AM

奥特曼:ChatGPT只是意外,全能AI智能体才是真爱!Karpathy:7年前就想到了

历史往往都是由无数「意外和巧合」所塑造的。 2022年,当研究员Hunter Lightman加入OpenAI时,他的同事们正忙于引爆全球的ChatGPT——这无疑是史上用户增长最快的现象级产品。 然而,Lightman却悄悄投身于一个看似不起眼的团队:MathGen。
8/5/2025 9:08:00 AM

独家丨盛大挖角代季峰,筹建新 AGI 公司对标 DeepSeek

AI 科技评论独家获悉,近日盛大网络挖角清华大学电子工程系副教授代季锋,正在筹备一家新的 AGI 公司,号称“对标 DeepSeek”,已有多位技术人才被猎头接触、介绍该团队的工作机会。 目前,该项目正处于核心团队招募阶段。 项目的核心人物之一代季峰,是清华大学电子工程系副教授,研究方向聚焦于视觉信息理解的基础模型与核心算法。
8/4/2025 10:33:00 PM
郑佳美