SimpleQA

OpenAI 开源 SimpleQA 新基准，专治大模型“胡言乱语”

OpenAI 开源 SimpleQA 新基准，专治大模型“胡言乱语”

当地时间 30 日，OpenAI 宣布，为了衡量语言模型的准确性，将开源一个名为 SimpleQA 的新基准，可衡量语言模型回答简短的事实寻求（fact-seeking）问题的能力。 AI 领域中的一个开放性难题是如何训练模型生成事实正确的回答。当前的语言模型有时会产生错误输出或未经证实的答案，这一问题被称为“幻觉”。

10/31/2024 7:26:30 AM

清源

1

资讯热榜

Former DeepSeek executive secretly starts new AI Agent project, already backed by top VC 消息称 OpenAI 已同谷歌敲定一份云 AI 算力交易，减少对微软依赖 OpenAI年化收入突破100亿美元过去一年亏损约50亿美元 “程序员炸锅”！Claude一夜撤离 Windsurf，OpenAI 收购遭"精准狙击" OpenAI Upgrades ChatGPT Search Functionality to Provide More Precise and Smarter Responses Mistral 将推出其首个推理模型 Magistral，与 OpenAI 和 DeepSeek 展开竞争 ColorOS 小布助手月活量达 1.5 亿，OPPO 手机（含一加）接入 DeepSeek 设备量行业第一 All Ohio State University students will receive AI training to enhance technical application skills

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌数据机器人大模型 Midjourney 用户智能开源微软 GPT Meta 学习图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法英伟达代码 Anthropic 芯片开发者生成式蛋白质腾讯神经网络训练 3D 研究生成智能体苹果计算机器学习 Sora Claude AI设计 AI for Science GPU AI视频人形机器人搜索华为百度场景大语言模型 xAI 预测伟达深度学习字节跳动 LLM Transformer Agent 工具模态神器推荐具身智能文本视觉 LLaMA 算力 Copilot 驾驶大型语言模型 API RAG 应用架构