OpenAI
LLM 应用评估综合指南(多轮对话系统、RAG、AI Agent)
随着大语言模型应用从简单的文本生成,发展到复杂的多轮对话机器人、检索增强生成(RAG)系统乃至智能体(Agent),我们应如何科学、有效地评估它们的性能,确保其稳定可靠? 我们今天为大家带来的文章,作者的观点是,对现代 LLM 应用的评估,必须超越传统的 NLP 评估指标,转向一个分场景、系统化的评估体系,综合运用新兴的评价指标与自动化框架,从而全面地衡量系统的综合表现。 作者系统梳理了从传统 NLP 评估指标(如 BLEU、ROUGE)到现代 LLM 基准测试(如 MMLU)的演进,并重点阐释了“LLM-as-a-judge”这一新兴评估范式。
10/27/2025 1:50:00 AM
Baihai IDP
微软AI主管苏莱曼:微软不会开发情色类AI,与OpenAI划清界限
据 CNBC 报道,微软 AI 业务首席执行官 穆斯塔法·苏莱曼(Mustafa Suleyman) 周四在加州门洛帕克举行的佩利国际理事会峰会上明确表示,微软不会开发情色类 AI 服务,并强调“这绝非我们打算提供的服务”,显示出公司在生成式 AI 伦理边界上的明确立场。 这一表态正值微软长期合作伙伴 OpenAI 公开表示将允许经过验证的成年人在 ChatGPT 上创作情色内容后一周。 OpenAI 首席执行官 萨姆·奥特曼(Sam Altman) 当时表示,公司“并非世界的道德裁判”,这一决定在业内引发了广泛讨论与争议。
10/24/2025 6:06:07 PM
AI在线
如何把ChatGPT嵌入到自己的应用中?
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)10月初,OpenAI 的 AgentKit 来得猝不及防! 作为一款面向开发者的全能工具包,能让 ChatGPT 驱动的智能体被嵌入到任何网站或应用中。 它首次亮相于 OpenAI 2025 年 DevDay,目标是让 AI 不止会“聊天”,还能执行动作——比如浏览网页、调用 API、完成多步任务。
10/24/2025 4:48:06 PM
云昭
ChatGPT 涉嫌“诱导”美国 16 岁少年自杀,家属指控 OpenAI 事发前放松安全措施
10 月 24 日消息,今年春季,16 岁的美国少年亚当・雷恩在与 ChatGPT 进行了数月“深入对话”后选择自杀。 据英国《卫报》22 日报道,他的家人最新的指控提出,OpenAI 在雷恩去世前几个月放松了关于自残内容的安全限制,间接导致了这场悲剧。 根据家属的说法,OpenAI 早在 2022 年 7 月就制定了明确的内部指南,要求 ChatGPT 在遇到不当内容时必须拒绝作答,其中包括“宣扬、鼓励或描述自残、自杀、自我伤害、饮食失调”等话题。
10/24/2025 3:39:44 PM
清源
红色警报:OpenAI的Atlas浏览器,是捅向谷歌万亿心脏的匕首吗?
浏览器「第三次世界大战」打响! OpenAI向谷歌扔下一个AI核弹,谁能掌握未来互联网之门的钥匙? 一觉醒来,变天了!
10/24/2025 12:50:34 PM
新智元
基于JoyAgent的二开工程实践(信贷尽调报告生成)
很久没更新,书稿终于写完了,后续恢复每周一到两更。 这篇来继续聊聊 Agent, 这个现在有些烂大街的概念。 我在历史文章中提到 Agent 的案例演示时,大多是围绕 Dify,介绍了些诸如设备预测性运维、多源异构数据分析等使用场景。
10/24/2025 11:12:14 AM
韦东东
OpenAI 内部警示:ChatGPT Atlas 面临“即时注入”安全威胁
【AIbase报道】尽管 OpenAI 正在全力推广其全新一代智能浏览器 ChatGPT Atlas,但公司内部安全主管 Dane Stuckey 近日却公开表达了对其潜在安全风险的担忧,引发业界关注。 Stuckey 指出,Atlas 面临的最大挑战之一是尚未彻底解决的 “即时注入”(Prompt Injection)攻击。 这类攻击通过在网页、邮件或其他内容中巧妙嵌入恶意指令,从而诱导 AI 代理执行非预期操作。
10/24/2025 10:47:12 AM
AI在线
直击 Mac 桌面!OpenAI 收购 Sky 团队,ChatGPT 即将深度嵌入 macOS 工作流
OpenAI 近日宣布,已成功收购 Mac 平台 AI 语言界面应用 Sky 背后的团队 Software Applications Incorporated (SAI)。 此举标志着 OpenAI 正全面加速推动其旗舰产品 ChatGPT 更深度地融入 Mac 用户的日常工作流程。 核心目标:让 AI 自然融入 Mac 日常Sky 应用以其面向 Mac 的 AI 语言界面而闻名,该应用具备理解上下文、适应用户操作,并直接与其他应用协同工作的能力。
10/24/2025 9:41:35 AM
AI在线
OpenAI收购macOS供应商,剑指GPT操作系统!微软也不装了
OpenAI也是个十足的果粉……推出Mac专属浏览器还不够,他们这次可能干脆要做一套苹果专属UX。 我们已收购SAI(Software Applications Incorporated),这家公司开发了Sky——一款面向Mac的自然语言交互界面。 消息一出,网友们直呼畅快:终于有人来帮苹果收拾AI的烂摊子了。
10/24/2025 9:14:42 AM
OpenAI、Oracle 再加码 AI 基建:150亿美元 Lighthouse 园区启动建设
【AIbase 报道】当地时间10月23日,OpenAI、甲骨文(Oracle) 与 Vantage Data Centers 宣布将在美国 威斯康星州 Port Washington 建设大型数据中心园区 “Lighthouse”,作为全球 AI 基建计划 “星际之门(Stargate)” 的重要组成部分。 项目总投资 150亿美元,计划建设四个尖端数据中心,提供约 1吉瓦 的算力,预计 2028年竣工。 该项目在建设阶段将创造约 4000个工作岗位,完工后将提供 1000多个长期就业机会。
10/23/2025 3:17:16 PM
AI在线
切斯基:Airbnb 暂缓接入 ChatGPT,AI 客服已用上通义千问
Airbnb 首席执行官 布莱恩·切斯基(Brian Chesky) 近日在接受采访时表示,公司暂未将自家应用与 OpenAI 的 ChatGPT 进行整合,原因在于“其连接工具仍不够成熟”。 切斯基直言:“我觉得它还没准备好。 ”他指出,Airbnb 是一个依托身份验证体系的用户社区,要在 ChatGPT 环境中实现无缝运行,OpenAI 需先构建更稳健的平台支撑。
10/23/2025 3:17:16 PM
AI在线
Sora路线图重大更新:推出“角色客串”功能,Android版本即将上线
OpenAI 的 AI 视频生成工具 Sora 近日公布最新路线图,宣布将推出多项重大功能更新,涵盖创作工具、社交体验、性能优化及平台扩展,进一步推动 AI 视频创作的开放与多样化。 创作工具全面升级:角色客串与基础编辑功能Sora 即将上线备受期待的 “角色客串(Guest Starring)” 功能。 未来几天内,用户可让宠物(如狗狗、豚鼠)、毛绒玩具或任何对象在视频中“出演”角色,甚至可以从已有的 Sora 视频中提取角色进行客串。
10/23/2025 10:52:25 AM
AI在线
为“传唤朋友”铺路?OpenAI被曝索要轻生少年追悼会完整名单
根据AIbase报道,OpenAI正在采取行动,要求Raine家族提供其16岁儿子Adam Raine追悼会的完整人员名单及相关资料,此举被Raine家族律师斥为“故意骚扰”,并暗示这家人工智能公司可能试图传唤死者的朋友和家人。 诉讼更新:指控OpenAI为竞争“缩短安全测试”Adam Raine在与OpenAI的ChatGPT进行长时间对话后自杀身亡。 这一新信息披露之际,Raine家族于周三更新了对OpenAI的非正常死亡诉讼。
10/23/2025 10:52:25 AM
AI在线
研究显示:低质数据可令 AI“大脑退化”,OpenAI 奥尔特曼担心的“死网论”正逐渐成真
10 月 22 日消息,康奈尔大学最新研究指出,大语言模型(LLM)在长期接触低质量网络内容后可能出现类似“大脑退化”(brain rot)的现象,其理解力、推理力及伦理一致性均显著下降。 这一发现令业界再次聚焦“死网论”(Dead Internet Theory)—— 即网络因充斥机器生成或低质内容而逐渐失去人类创造力的假说。 AI 性能受“低质数据”影响显著研究团队以 Meta 的 Llama 3 和阿里云 Qwen 2.5 为实验对象,通过构建不同质量比例的数据集,测量低质量内容对模型性能的影响。
10/23/2025 10:28:14 AM
问舟
OpenAI秘密项目曝出!百名投行精英密训AI,华尔街最贵苦力要失业了?
AI先是找上程序员,现在轮到银行分析师了。 下一个华尔街的培训基地可能是一个提示库! 刚刚,OpenAI内部一个秘密项目曝出!
10/23/2025 9:26:41 AM
刚刚,ChatGPT终于可以走遍整个互联网了!OpenAI深夜炸街:原生ChatGPT集成、即时理解、主动执行,浏览器赛道鲨疯了
🧭 一、事件速览OpenAI 发布 ChatGPT Atlas 浏览器。 平台支持:今日起可在 macOS 下载,面向 Free、Plus、Pro、Go 用户开放;企业、教育版处于 Beta 阶段。 其他平台:Windows、iOS、Android 版本即将推出。
10/22/2025 11:24:19 AM
OpenAI入局浏览器,ChatGPT Atlas与Chrome直面硬刚
自ChatGPT爆火后,OpenAI在AI大模型界的关注度一直居高不下。 当地时间周一,OpenAI发布首个浏览器ChatGPT Atlas,正式进军AI浏览器赛道,与谷歌的Chrome直接竞争。 从过往OpenAI推出AI产品来看,有ChatGPT Search,还有独立客户端(Windows/macOS),所以说AI浏览器的诞生并不让人意外。
10/22/2025 11:00:49 AM
刚刚,OpenAI发布AI浏览器ChatGPT Atlas,基于Chromium
刚刚,OpenAI 发布 AI 浏览器 ChatGPT Atlas。 当然,这是一个意料之中的消息,毕竟山姆・奥特曼已经多次表达过 OpenAI 对浏览器的兴趣,他甚至在谷歌可能被迫出售 Chrome 浏览器时表达过潜在的收购意愿。 他曾直言:「如果 Chrome 真要出售的话,我们应该研究一下。
10/22/2025 10:19:00 AM
机器之心
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
AI for Science
苹果
Agent
Claude
芯片
腾讯
Stable Diffusion
蛋白质
开发者
xAI
具身智能
生成式
神经网络
机器学习
3D
人形机器人
AI视频
RAG
大语言模型
研究
百度
Sora
生成
GPU
工具
华为
计算
字节跳动
AI设计
AGI
大型语言模型
搜索
生成式AI
视频生成
场景
DeepMind
深度学习
特斯拉
AI模型
架构
MCP
亚马逊
Transformer
编程
视觉
预测