文章列表
OpenAI 发布 HealthBench:评估大型语言模型在医疗领域表现的新标准
近日,OpenAI 发布了一款名为 HealthBench 的开源评估框架,旨在测量大型语言模型(LLMs)在真实医疗场景中的表现和安全性。 此框架的开发得到了来自60个国家和26个医学专业的262名医生的支持,旨在弥补现有评估标准的不足,特别是在真实应用、专家验证和诊断覆盖方面。 现有的医疗 AI 评估标准通常依赖于狭窄、结构化的形式,如多项选择考试。
5/13/2025 3:00:52 PM
AI在线
OpenAI 高管:AI 未来可自主生成知识,商业与科研迎来革命
Pachocki强调,AI通过无监督预训练和强化学习(RLHF)构建“世界模型”,并将其转化为实用助手。他还预测,到本世纪末,AI将在自主研究领域取得重大进展,甚至可能在今年内实现近乎自主的软件开发。
5/13/2025 1:46:00 PM
故渊
OpenAI新领导上任第一把火:DeepResearch一个小改动被网友狂赞!终于可导出PDF网友:啥时候能导出ChatGPT?
编辑 | 云昭就在刚刚! OpenAI 为其 Agent 代表作 Deep Research 功能推出了一项全新的 PDF 导出功能,允许用户下载格式完整的研究报告,包括表格、图片和可点击的引用链接。 这一看似不起眼的小动作意外引来了大批量用户的欢呼!
5/13/2025 12:47:16 PM
云昭
昆仑万维推出开源Matrix-Game大模型,推动游戏世界的智能生成
近日,昆仑万维正式宣布开源其最新的 Matrix-Game 大模型,这一模型以其超过10亿参数的规模,成为了工业界首个开源的空间智能大模型,标志着交互式世界生成技术的重大突破。 Matrix-Game 不仅支持知名游戏《我的世界》,还专为开放式环境中的高质量生成和精确控制而设计。 Matrix-Game 大模型的核心在于其三大组成部分。
5/13/2025 12:00:52 PM
AI在线
ChatGPT 推出 SharePoint 连接器,企业数据分析更高效!
根据最新消息,ChatGPT 现在推出了一项新的功能,允许用户通过 SharePoint 连接器访问公司数据。 这一功能目前处于测试阶段,面向 ChatGPT Plus、Pro 和 Team 用户开放。 通过这一集成,ChatGPT 能够从多个 SharePoint 站点中分析和总结内容,并附带来源引用。
5/13/2025 11:00:52 AM
AI在线
OpenAI 扩展 ChatGPT AI 深度研究连接器,集成微软 OneDrive 和 SharePoint
OpenAI 昨日(5 月 12 日)更新 ChatGPT 日志文件,宣布面向 ChatGPT Plus、Pro 和 Team 用户(EEA、瑞士和英国除外),扩展 ChatGPT AI 聊天机器人深度研究连接器,集成微软 OneDrive 和 SharePoint。
5/13/2025 10:25:31 AM
故渊
OpenAI推出深度研究报告一键导出PDF功能
人工智能领域的领军企业OpenAI宣布,为其ChatGPT深度研究(Deep Research)工具新增了一项重要功能——一键将深度研究报告导出为PDF。 此功能不仅提升了研究报告的实用性,还进一步推动了AI在企业场景中的落地应用。 功能亮点:完整保留格式,专业输出OpenAI的深度研究工具能够通过多步骤网络搜索和信息整合,生成包含引用、表格和图片的详尽报告。
5/13/2025 10:01:02 AM
AI在线
OpenAI深夜开源HealthBench,60个国家合力开发5000段真实对话
今天凌晨1点30,OpenAI开源了一个专门面向医疗大模型的测试评估集——HealthBench。 与以往测试集不同的是,该测试集的5000段核心测试对话,全部由来自60个国家/地区的26个专业262名医生打造,极大增强了该测试集的难度、真实性以及丰富度。 并且采用了多轮对话测试,而不是简单的答题或选择题模式。
5/13/2025 9:08:00 AM
合合信息推出 MCP 服务,助力大模型高效智能文档处理
在人工智能和大模型技术飞速发展的今天,如何高效调用外部工具已成为开发者们面临的新挑战。 不同大模型的调用结构和参数格式各不相同,导致开发者不得不为每种模型单独编写工具调用逻辑,进而影响了集成的效率。 为了解决这一难题,合合信息近日推出了文档处理领域首批 MCP(Model Context Protocol)服务,为企业和开发者提供了一个 “万能接口”。
5/13/2025 9:00:52 AM
AI在线
Google Gemma AI 模型下载量突破 1.5 亿次
Google 近期宣布,其人工智能模型集合 Gemma 的下载量已经突破1.5亿次,标志着该项目取得了显著进展。 Google DeepMind 的开发者关系工程师 Omar Sanseviero 在社交平台 X 上分享了这一消息,并透露,目前在人工智能开发平台 Hugging Face 上,开发者们已经创造出了超过7万个不同版本的 Gemma 模型。 Gemma 于2024年2月正式发布,旨在与 Meta 的 Llama 等其他开放模型系列进行竞争。
5/13/2025 9:00:52 AM
AI在线
OpenAI 发布并开源医疗测试基准 HealthBench,旨在更好地衡量 AI 系统在医疗健康领域能力
与以往测试集不同的是,HealthBench 的 5000 段核心测试对话,由来自 60 个国家 / 地区的 26 个专业 262 名医生打造,极大增强了该测试集的难度、真实性以及丰富度。
5/13/2025 8:41:48 AM
问舟
AI训练的反直觉发现:添加"有毒"数据反而能造就更好的语言模型?
"当坏数据能够创造出好模型,AI训练领域又一个传统观念被颠覆"你有没有听说过这样一个说法:垃圾进,垃圾出? 在AI大语言模型的训练中,这一直是个不言自明的准则。 工程师们花费大量时间和资源过滤训练数据,移除那些含有有毒、有害或不适当内容的文本,以防止模型学习和生成这些内容。
5/13/2025 2:22:00 AM
无影寺
速通BOSS需求!零基础AI Agent高效工作流设计指南(二)
前言. 此次会连载一套 AI Agent 构建的系列,主要分为三部分,上篇是速通 AI Agent 构建的工作流基础,本篇则是通过 ComfyUI 作为案例来复盘如何快速上手工作流平台,给大家提供一些思路与窍门,下篇则是借助 Agent 平台构建一个 AI Agent 案例,本系列意图主要是帮助大家贯通工作流的搭建形式,并尝试为自己搭建一些可用的 AI 助手,或是提供构建的方法指引。 上期回顾:.
5/13/2025 2:16:53 AM
泡泡bing
国产大模型「五强争霸」,决战AGI!
DeepSeek的横空出世,已经彻底改变了全球的AI局势。 从此,不仅中美大模型竞争格局改变,国产大模型的产业版图,也被一举打破! 纵观中国基础大模型的市场,可以看到,如今的基础大模型版图已然改天换地,演变为全新的五强格局——字节、阿里、阶跃星辰、智谱,以及DeepSeek。
5/13/2025 2:00:22 AM
新智元
关税带来不确定性,软银、OpenAI 千亿美元“AI 基建”项目被曝陷入停滞
今年 1 月,软银创始人孙正义与 OpenAI 联合创始人奥尔特曼发布“星际之门”计划,宣称将“立即”启动 1000 亿美元投资,并最终扩大至约 5000 亿美元。
5/12/2025 6:29:48 PM
清源
OpenAI命悬一线,微软连夜割肉!跪求OpenAI千万别分手
OpenAI和微软,快要闹崩了! 面对着想要上市的OpenAI,不惜割肉续命,绝不能让自己的130亿投资打水漂。 英国金融时报刚刚曝出,OpenAI和微软,正在重新协商数十亿美元的合作条款。
5/12/2025 6:26:55 PM
新智元
ChatGPT推出全新PDF导出功能,优化深度研究报告体验
ChatGPT 最近推出了一项备受期待的新功能 —— 用户现在可以将深度研究(Deep Research)报告直接导出为 PDF 格式。 这一功能的推出,旨在解决用户在复制报告内容时格式丢失的问题,让研究成果的分享变得更加简便。 ChatGPT 的深度研究功能利用先进的自动化技术,用户只需输入相应的提示词,系统就能够独立进行复杂的多步骤研究。
5/12/2025 6:00:52 PM
AI在线
ChatGPT 深度研究新增导出为 PDF 功能,可保留报告格式
ChatGPT深度研究功能新增PDF导出选项,解决用户复制粘贴时格式丢失的痛点。同时推出GitHub连接器,面向团队订阅用户开放。#ChatGPT新功能# #AI研究工具#
5/12/2025 4:15:25 PM
远洋