模型
o3完爆人类医生,OpenAI基准直击AGI!
最强AI,已击败了人类医生。 就在刚刚,全球60个国家,262名执业医生共同上阵,联手OpenAI打造出「最具AGI标志性」的AI健康系统评估标准——HealthBench。 这个基准包含了5,000个基于现实场景的健康对话,每个对话都有医生定制的评分标准,来评估模型的响应。
5/14/2025 10:09:12 AM
法律AI独角兽Harvey拥抱Anthropic与谷歌模型,打破OpenAI独家依赖
备受瞩目的法律人工智能工具 Harvey 近日宣布战略调整,未来将整合 Anthropic 和谷歌的领先基础模型,结束了此前完全依赖 OpenAI 技术的局面。 值得注意的是,Harvey 曾是 OpenAI 初创基金的明星投资项目之一,该基金旨在扶持基于 AI 技术(特别是 OpenAI 自研技术)的公司。 尽管 Harvey 强调不会放弃 OpenAI,只是增加了更多模型和云服务选项,但此举无疑对 OpenAI 的竞争对手来说是一次重要的胜利。
5/14/2025 10:01:02 AM
AI在线
Poe:DeepSeek使用率下降50%,快手崛起、OpenAI暴涨
今天凌晨,全球著名大模型整合应用平台Poe发布了,2025年春季AI模型使用趋势报告。 结果显示,DeepSeek R1的使用率从2月中旬的峰值7%下降到了4月底的3%,整体使用率下降超过50%;OpenAI由于在GPT-4o推出新的文生图功能后,例如,吉卜力风格、仿真自拍等类型图片,实现病毒式增长使用率暴涨。 下面「AIGC开放社区」将从文本、视频、推理、图像和音频5大领域为大家解读这份报告。
5/14/2025 9:16:39 AM
OpenAI 发布 HealthBench:评估大型语言模型在医疗领域表现的新标准
近日,OpenAI 发布了一款名为 HealthBench 的开源评估框架,旨在测量大型语言模型(LLMs)在真实医疗场景中的表现和安全性。 此框架的开发得到了来自60个国家和26个医学专业的262名医生的支持,旨在弥补现有评估标准的不足,特别是在真实应用、专家验证和诊断覆盖方面。 现有的医疗 AI 评估标准通常依赖于狭窄、结构化的形式,如多项选择考试。
5/13/2025 3:00:52 PM
AI在线
OpenAI深夜开源HealthBench,60个国家合力开发5000段真实对话
今天凌晨1点30,OpenAI开源了一个专门面向医疗大模型的测试评估集——HealthBench。 与以往测试集不同的是,该测试集的5000段核心测试对话,全部由来自60个国家/地区的26个专业262名医生打造,极大增强了该测试集的难度、真实性以及丰富度。 并且采用了多轮对话测试,而不是简单的答题或选择题模式。
5/13/2025 9:08:00 AM
商汤科技迈向多模态大模型的新纪元
在过去的两年里,人工智能领域的关注点逐渐转向了大模型的技术发展,而商汤科技作为一家成立不到十年的公司,凭借其在计算机视觉领域的技术积累,正迅速转型,迎接这一浪潮。 尽管在2023年之前,商汤主要聚焦于视觉模型,但随着 DeepSeek R1的发布,市场的重心开始向自然语言处理和大规模参数模型倾斜,商汤的策略也随之调整。 商汤于4月10日推出的全新6000亿参数多模态大模型 “日日新 Sense Nova V6”,展现了强大的综合能力,与国际领先的 GPT-4.5和 Gemini2.0Pro 不相上下。
5/9/2025 4:00:51 PM
AI在线
OpenAI 发布关于 AI 模型使用的官方建议,助力用户更高效工作
近日,OpenAI 在其帮助中心发布了针对企业用户的全新指南,详细说明了其多种人工智能模型的最佳使用时机。 这一举措旨在帮助用户根据不同的任务需求,选择最合适的 AI 模型,从而提升工作效率和成果质量。 OpenAI 的最新订阅计划 ——ChatGPT Enterprise,提供了企业级的安全与隐私保护,同时允许用户无限制地高速访问其先进的 GPT-4o 和 OpenAI o3推理模型。
5/9/2025 2:00:54 PM
AI在线
OpenAI神秘项目曝光:cderGPT,用AI加速药物评估
OpenAI又一个神秘项目曝光了——名字叫做cderGPT,专门用来给药物评估这事提一提速度。 据Wired发布的消息来看,OpenAI的高层为了这个项目,已经与美国食品药品监督管理局(FDA)和马斯克的效率部门进行了多次讨论。 至于为什么要做这么个事,FDA局长Marty Makary在X上发表了他的看法:FDA现在不得不直面一些前所未有的重大问题:为什么一款新药上市要耗费十年以上的时间?
5/9/2025 8:35:00 AM
北大、清华联合发布!大模型逻辑推理能力新突破
在当前人工智能领域,大语言模型(LLMs)取得了显著成就,但其逻辑推理能力依然显得不足。 为了提升这一能力,来自北京大学、清华大学、阿姆斯特丹大学、卡内基梅隆大学以及阿布扎比的 MBZUAI 等五所高校的研究人员,联合发布了《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》综述论文,聚焦于逻辑推理的两大关键问题:逻辑问答和逻辑一致性。 研究表明,大语言模型在处理复杂逻辑推理时存在明显的短板。
5/8/2025 10:00:54 AM
AI在线
掷30亿美元,OpenAI史上最大收购案!
OpenAI史上最大一笔收购即将敲定。 彭博爆料称,OpenAI将豪掷30亿美元,吞并了爆火编码神器Windsurf(前身为Codeium)。 此前,早有外媒曝出了这笔交易,目前离最终达成接近尾声。
5/7/2025 10:09:28 AM
新智元
刚刚,Gemini 2.5 Pro升级,成编程模型新王
你的默认编程模型是什么? 或许可以换一换了。 刚刚,Google DeepMind 发布了 Gemini 2.5 Pro 的最新更新版本:Gemini 2.5 Pro (I/O edition)。
5/7/2025 10:01:35 AM
OpenAI发布新一代GPT-4.1模型,和智谱Z.ai撞期
在人工智能领域,OpenAI 于今日正式推出其最新的 GPT-4.1模型,随之而来还有两个小型版本:GPT-4.1mini 和 GPT-4.1nano。 这一系列新模型的性能相较于前一代 GPT-4o 和 GPT-4o mini 有了显著提升,尤其在编码能力和指令跟踪方面表现突出。 此外,GPT-4.1还具备高达100万个上下文 tokens 的支持能力,极大扩展了处理信息的范围。
5/7/2025 10:01:30 AM
AI在线
上线仅7天,阿里通义千问3问鼎全球开源模型
近日,阿里巴巴推出的开源大模型 “通义千问3”(Qwen3)在上线仅七天后,便成功夺得了全球开源模型的冠军地位。 这一成果是在国际权威大模型评测榜 LiveBench 最新发布的排名中取得的,标志着阿里在人工智能领域又一次取得了重要突破。 据悉,通义千问3在指令遵循能力方面,表现超越了诸多顶级闭源模型,如 o3High、o4-Mini High 和 Gemini2.5pro,成功跻身全球第一的位置。
5/7/2025 10:01:04 AM
AI在线
英伟达新开源模型 Llama-Nemotron 震撼发布,推理性能超越 DeepSeek-R1
近日,英伟达正式推出了其最新开源模型系列 ——Llama-Nemotron,该系列模型不仅在推能力上超越了 DeepSeek-R1,更是在内存效率和吞吐量上实现了显著提升。 根据最新发布的技术报告,Llama-Nemotron 的训练过程与众不同,采用了合成数据监督微调与强化学习的方法,以全方位提升模型的推理能力。 Llama-Nemotron 系列模型包括 LN-Nano8B、LN-Super49B 和 LN-Ultra253B。
5/7/2025 10:01:04 AM
AI在线
实时口语聊天大模型 LLaMA-Omni 2 来了,能让你的 AI 聊天体验起飞!
最近 AI 圈可是热闹非凡,今天咱们就来聊聊其中的 “狠角色”——LLaMA-Omni2。 这是一系列超厉害的语音语言模型(SpeechLMs),参数规模从0.5B 到14B 不等,专门为实现高质量实时语音交互而生,在 Hugging Face 上一经发布,就引起了广泛关注。 语音交互发展历程回顾:从 “卡顿” 到 “丝滑”语音交互在人机交互领域的地位愈发重要,它就像是为我们打开了一扇便捷的大门,极大地提升了交互效率和用户体验。
5/6/2025 6:00:52 PM
AI在线
DeepSeek开源的文件系统,是如何提升大模型效率的?
在 AI 领域里,大模型通常具有百亿甚至数千亿参数,训练和推理过程对计算资源、存储系统和数据访问效率提出了极高要求。 2 月 28 日,DeepSeek 开源了一种高性能分布式文件系统 3FS,官方表示其目的是解决人工智能训练和推理工作负载的挑战。 作为一种并行文件系统,3FS 可以在 180 节点集群中实现 6.6 TiB/s 的聚合读取吞吐量,对于提高 DeepSeek V3、R1 大模型的训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和 KVCache 查找等工作的效率有重要帮助。
5/6/2025 9:03:00 AM
机器之心
DeepSeek-Prover-V2-671B 模型开源,数学推理领域迎来新突破
中国 AI 初创公司 DeepSeek 再次掀起开源 AI 领域的热潮,正式发布其最新开源模型 DeepSeek-Prover-V2-671B。 这一拥有6710亿参数的超大规模语言模型,专为数学推理和问题解决设计,展现了 DeepSeek 在高效 AI 开发上的持续创新能力。 根据社交媒体上的最新讨论,这一模型被认为是 DeepSeek 在数学领域的重要里程碑,或将推动全球 AI 研究与应用的进一步发展。
4/30/2025 6:00:51 PM
AI在线
Meta 召开首届 LlamaCon 大会,意在对抗 OpenAI
Meta 在其位于加州门洛帕克的总部举行了首届人工智能开发者大会 ——LlamaCon。 在此次大会上,Meta 推出了一款面向消费者的 AI 聊天机器人应用程序,并发布了一个开发者 API,允许用户在云端访问 Llama 模型。 这些新产品旨在扩大 Meta 开源 Llama AI 模型的采用率,但实际上,Meta 的真正动机可能是超越 OpenAI。
4/30/2025 11:00:50 AM
AI在线
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
英伟达
Anthropic
论文
代码
AI新词
训练
算法
Stable Diffusion
芯片
LLM
蛋白质
开发者
腾讯
Claude
苹果
生成式
AI for Science
Agent
神经网络
3D
机器学习
研究
xAI
生成
人形机器人
AI视频
计算
百度
Sora
GPU
AI设计
华为
工具
大语言模型
RAG
搜索
具身智能
字节跳动
大型语言模型
场景
深度学习
预测
视频生成
伟达
视觉
Transformer
AGI
架构
亚马逊
神器推荐
Copilot
DeepMind
特斯拉
应用