AIGC宇宙 AIGC宇宙

模型

o3完爆人类医生,OpenAI基准直击AGI!

最强AI,已击败了人类医生。 就在刚刚,全球60个国家,262名执业医生共同上阵,联手OpenAI打造出「最具AGI标志性」的AI健康系统评估标准——HealthBench。 这个基准包含了5,000个基于现实场景的健康对话,每个对话都有医生定制的评分标准,来评估模型的响应。
5/14/2025 10:09:12 AM

法律AI独角兽Harvey拥抱Anthropic与谷歌模型,打破OpenAI独家依赖

备受瞩目的法律人工智能工具 Harvey 近日宣布战略调整,未来将整合 Anthropic 和谷歌的领先基础模型,结束了此前完全依赖 OpenAI 技术的局面。 值得注意的是,Harvey 曾是 OpenAI 初创基金的明星投资项目之一,该基金旨在扶持基于 AI 技术(特别是 OpenAI 自研技术)的公司。 尽管 Harvey 强调不会放弃 OpenAI,只是增加了更多模型和云服务选项,但此举无疑对 OpenAI 的竞争对手来说是一次重要的胜利。
5/14/2025 10:01:02 AM
AI在线

Poe:DeepSeek使用率下降50%,快手崛起、OpenAI暴涨

今天凌晨,全球著名大模型整合应用平台Poe发布了,2025年春季AI模型使用趋势报告。 结果显示,DeepSeek R1的使用率从2月中旬的峰值7%下降到了4月底的3%,整体使用率下降超过50%;OpenAI由于在GPT-4o推出新的文生图功能后,例如,吉卜力风格、仿真自拍等类型图片,实现病毒式增长使用率暴涨。 下面「AIGC开放社区」将从文本、视频、推理、图像和音频5大领域为大家解读这份报告。
5/14/2025 9:16:39 AM

OpenAI 发布 HealthBench:评估大型语言模型在医疗领域表现的新标准

近日,OpenAI 发布了一款名为 HealthBench 的开源评估框架,旨在测量大型语言模型(LLMs)在真实医疗场景中的表现和安全性。 此框架的开发得到了来自60个国家和26个医学专业的262名医生的支持,旨在弥补现有评估标准的不足,特别是在真实应用、专家验证和诊断覆盖方面。 现有的医疗 AI 评估标准通常依赖于狭窄、结构化的形式,如多项选择考试。
5/13/2025 3:00:52 PM
AI在线

OpenAI深夜开源HealthBench,60个国家合力开发5000段真实对话

今天凌晨1点30,OpenAI开源了一个专门面向医疗大模型的测试评估集——HealthBench。 与以往测试集不同的是,该测试集的5000段核心测试对话,全部由来自60个国家/地区的26个专业262名医生打造,极大增强了该测试集的难度、真实性以及丰富度。 并且采用了多轮对话测试,而不是简单的答题或选择题模式。
5/13/2025 9:08:00 AM

商汤科技迈向多模态大模型的新纪元

在过去的两年里,人工智能领域的关注点逐渐转向了大模型的技术发展,而商汤科技作为一家成立不到十年的公司,凭借其在计算机视觉领域的技术积累,正迅速转型,迎接这一浪潮。 尽管在2023年之前,商汤主要聚焦于视觉模型,但随着 DeepSeek R1的发布,市场的重心开始向自然语言处理和大规模参数模型倾斜,商汤的策略也随之调整。 商汤于4月10日推出的全新6000亿参数多模态大模型 “日日新 Sense Nova V6”,展现了强大的综合能力,与国际领先的 GPT-4.5和 Gemini2.0Pro 不相上下。
5/9/2025 4:00:51 PM
AI在线

OpenAI 发布关于 AI 模型使用的官方建议,助力用户更高效工作

近日,OpenAI 在其帮助中心发布了针对企业用户的全新指南,详细说明了其多种人工智能模型的最佳使用时机。 这一举措旨在帮助用户根据不同的任务需求,选择最合适的 AI 模型,从而提升工作效率和成果质量。 OpenAI 的最新订阅计划 ——ChatGPT Enterprise,提供了企业级的安全与隐私保护,同时允许用户无限制地高速访问其先进的 GPT-4o 和 OpenAI o3推理模型。
5/9/2025 2:00:54 PM
AI在线

OpenAI神秘项目曝光:cderGPT,用AI加速药物评估

OpenAI又一个神秘项目曝光了——名字叫做cderGPT,专门用来给药物评估这事提一提速度。 据Wired发布的消息来看,OpenAI的高层为了这个项目,已经与美国食品药品监督管理局(FDA)和马斯克的效率部门进行了多次讨论。 至于为什么要做这么个事,FDA局长Marty Makary在X上发表了他的看法:FDA现在不得不直面一些前所未有的重大问题:为什么一款新药上市要耗费十年以上的时间?
5/9/2025 8:35:00 AM

北大、清华联合发布!大模型逻辑推理能力新突破

在当前人工智能领域,大语言模型(LLMs)取得了显著成就,但其逻辑推理能力依然显得不足。 为了提升这一能力,来自北京大学、清华大学、阿姆斯特丹大学、卡内基梅隆大学以及阿布扎比的 MBZUAI 等五所高校的研究人员,联合发布了《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》综述论文,聚焦于逻辑推理的两大关键问题:逻辑问答和逻辑一致性。 研究表明,大语言模型在处理复杂逻辑推理时存在明显的短板。
5/8/2025 10:00:54 AM
AI在线

掷30亿美元,OpenAI史上最大收购案!

OpenAI史上最大一笔收购即将敲定。 彭博爆料称,OpenAI将豪掷30亿美元,吞并了爆火编码神器Windsurf(前身为Codeium)。 此前,早有外媒曝出了这笔交易,目前离最终达成接近尾声。
5/7/2025 10:09:28 AM
新智元

刚刚,Gemini 2.5 Pro升级,成编程模型新王

你的默认编程模型是什么? 或许可以换一换了。 刚刚,Google DeepMind 发布了 Gemini 2.5 Pro 的最新更新版本:Gemini 2.5 Pro (I/O edition)。
5/7/2025 10:01:35 AM

OpenAI发布新一代GPT-4.1模型,和智谱Z.ai撞期

在人工智能领域,OpenAI 于今日正式推出其最新的 GPT-4.1模型,随之而来还有两个小型版本:GPT-4.1mini 和 GPT-4.1nano。 这一系列新模型的性能相较于前一代 GPT-4o 和 GPT-4o mini 有了显著提升,尤其在编码能力和指令跟踪方面表现突出。 此外,GPT-4.1还具备高达100万个上下文 tokens 的支持能力,极大扩展了处理信息的范围。
5/7/2025 10:01:30 AM
AI在线

上线仅7天,阿里通义千问3问鼎全球开源模型

近日,阿里巴巴推出的开源大模型 “通义千问3”(Qwen3)在上线仅七天后,便成功夺得了全球开源模型的冠军地位。 这一成果是在国际权威大模型评测榜 LiveBench 最新发布的排名中取得的,标志着阿里在人工智能领域又一次取得了重要突破。 据悉,通义千问3在指令遵循能力方面,表现超越了诸多顶级闭源模型,如 o3High、o4-Mini High 和 Gemini2.5pro,成功跻身全球第一的位置。
5/7/2025 10:01:04 AM
AI在线

英伟达新开源模型 Llama-Nemotron 震撼发布,推理性能超越 DeepSeek-R1

近日,英伟达正式推出了其最新开源模型系列 ——Llama-Nemotron,该系列模型不仅在推能力上超越了 DeepSeek-R1,更是在内存效率和吞吐量上实现了显著提升。 根据最新发布的技术报告,Llama-Nemotron 的训练过程与众不同,采用了合成数据监督微调与强化学习的方法,以全方位提升模型的推理能力。 Llama-Nemotron 系列模型包括 LN-Nano8B、LN-Super49B 和 LN-Ultra253B。
5/7/2025 10:01:04 AM
AI在线

实时口语聊天大模型 LLaMA-Omni 2 来了,能让你的 AI 聊天体验起飞!

最近 AI 圈可是热闹非凡,今天咱们就来聊聊其中的 “狠角色”——LLaMA-Omni2。 这是一系列超厉害的语音语言模型(SpeechLMs),参数规模从0.5B 到14B 不等,专门为实现高质量实时语音交互而生,在 Hugging Face 上一经发布,就引起了广泛关注。 语音交互发展历程回顾:从 “卡顿” 到 “丝滑”语音交互在人机交互领域的地位愈发重要,它就像是为我们打开了一扇便捷的大门,极大地提升了交互效率和用户体验。
5/6/2025 6:00:52 PM
AI在线

DeepSeek开源的文件系统,是如何提升大模型效率的?

在 AI 领域里,大模型通常具有百亿甚至数千亿参数,训练和推理过程对计算资源、存储系统和数据访问效率提出了极高要求。 2 月 28 日,DeepSeek 开源了一种高性能分布式文件系统 3FS,官方表示其目的是解决人工智能训练和推理工作负载的挑战。 作为一种并行文件系统,3FS 可以在 180 节点集群中实现 6.6 TiB/s 的聚合读取吞吐量,对于提高 DeepSeek V3、R1 大模型的训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和 KVCache 查找等工作的效率有重要帮助。
5/6/2025 9:03:00 AM
机器之心

DeepSeek-Prover-V2-671B 模型开源,数学推理领域迎来新突破

中国 AI 初创公司 DeepSeek 再次掀起开源 AI 领域的热潮,正式发布其最新开源模型 DeepSeek-Prover-V2-671B。 这一拥有6710亿参数的超大规模语言模型,专为数学推理和问题解决设计,展现了 DeepSeek 在高效 AI 开发上的持续创新能力。 根据社交媒体上的最新讨论,这一模型被认为是 DeepSeek 在数学领域的重要里程碑,或将推动全球 AI 研究与应用的进一步发展。
4/30/2025 6:00:51 PM
AI在线

​Meta 召开首届 LlamaCon 大会,意在对抗 OpenAI

Meta 在其位于加州门洛帕克的总部举行了首届人工智能开发者大会 ——LlamaCon。 在此次大会上,Meta 推出了一款面向消费者的 AI 聊天机器人应用程序,并发布了一个开发者 API,允许用户在云端访问 Llama 模型。 这些新产品旨在扩大 Meta 开源 Llama AI 模型的采用率,但实际上,Meta 的真正动机可能是超越 OpenAI。
4/30/2025 11:00:50 AM
AI在线