推理
LLM「想太多」有救了!高效推理让大模型思考过程更精简
LLM的推理能力显著增强,然而,这个「超级大脑」也有自己的烦恼。 有时候回答会绕好大一个圈子,推理过程冗长又复杂,虽能得出正确答案,但耗费了不少时间和计算资源。 比如问它「2加3等于多少」,它可能会从数字的概念、加法原理开始,洋洋洒洒说上一大通,这在实际应用中可太影响效率啦。
4/7/2025 9:23:00 AM
新智元
OpenAI重新开源!第一弹就推理模型,还不限制商用,“冲着DeepSeek来的”
一夜之间,OpenAI更新三大动向,开源、融资、用户暴增。 第一,将开源一个具备推理能力的大语言模型,包含参数权重那种。 上一次这样开源还是6年前推出GPT-2。
4/1/2025 8:45:15 AM
DeepSeek 悄然发布 DeepSeek-V3–0324:远超预期的重大升级
DeepSeek 近期悄然发布的 DeepSeek-V3–0324,在 AI 社区和行业内引发了广泛关注。 这一版本是 DeepSeek V3 (DeepSeek-V3 深度剖析:下一代 AI 模型的全面解读)模型的重要升级,其带来的一系列技术革新和性能提升远超众人预期,为开发者和企业带来了新的机遇与可能。 一、DeepSeek-V3–0324 的技术突破(一)Multi-head Latent Attention(MLA)和增强的 DeepSeekMoE 架构DeepSeek-V3–0324 引入了 Multi-head Latent Attention(MLA)和增强版的 DeepSeekMoE 架构,这些创新技术为模型性能的提升奠定了坚实基础。
3/28/2025 4:30:00 AM
大模型之路
为什么Qwen能自我改进推理,Llama却不行?斯坦福找到了原理
虽然 Qwen「天生」就会检查自己的答案并修正错误。 但找到原理之后,我们也能让 Llama 学会自我改进。 给到额外的计算资源和「思考」时间,为什么有的模型能好好利用,把性能提升一大截,而有的模型就不行?
3/5/2025 2:54:00 PM
机器之心
AI 大战超级玛丽!Claude 3.7 封神:Gemini、GPT-4o 全军覆没,谁才是游戏界真王者?
谁是游戏界真王者?AI 竟向经典游戏《超级马力欧兄弟》发起挑战! 加州大学圣地亚哥分校 Hao 人工智能实验室传来惊人战报:在一场别开生面的 AI “马力欧” 大乱斗中,Anthropic 旗下的 Claude3.7模型 “一骑绝尘”,力压群雄,荣登 “最强 AI 马力欧” 宝座! 紧随其后的是同门师弟 Claude3.5,而谷歌 Gemini1.5Pro 和 OpenAI 的 GPT-4o 这两位 “AI 界大佬” 却意外 “翻车”,表现令人大跌眼镜!
3/4/2025 5:00:00 PM
AI在线
DeepSeek揭秘:AI推理系统背后的545%惊人利润率
DeepSeek在知乎开设官方账号,发布了《DeepSeek-V3/R1推理系统概览》技术文章,首次详细披露其模型推理系统的优化细节和成本利润率信息,标志着备受关注的"DeepSeek开源周"正式结束。 文章介绍了DeepSeek-V3/R1推理系统的两大优化目标:"更大的吞吐,更低的延迟"。 为实现这些目标,DeepSeek采用了大规模跨节点专家并行(EP)技术,尽管这增加了系统复杂性。
3/2/2025 10:26:00 AM
AI在线
深推理模型崛起!Together AI融资3.05亿美元助推GPU需求
在 AI 行业,Together AI 最近宣布完成了一轮3.05亿美元的 B 轮融资,这一消息引起了广泛关注。 该公司的崛起与其新推出的深度理模型 DeepSeek-R1密切相关。 与最初的担忧相反,许行业专家认为,深度推理的进步并没有降低对基础设施的需求,反而在不断提升这一需求。
2/21/2025 10:28:00 AM
AI在线
DeepSeek R1 遇难题 142 次 "I give up",研究还称需增加推理时机控制机制
Cursor 刚刚参与了一项研究,他们基于 NPR 周日谜题挑战(The Sunday Puzzle),构建了一个包含近 600 个问题新基准测试。
2/14/2025 12:57:55 PM
清源
OpenAI 升级 o3-mini 模型思维链,提高 AI 推理透明度
OpenAI 公司今天(2 月 7 日)在 X 平台发布推文,宣布面向免费和付费用户更新 o3-mini 的思维链,并为付费用户更新 o3-mini-high 的思维链,更透明、更详细地展示模型的“推理”步骤以及得出答案的方式。
2/7/2025 7:20:02 AM
故渊
TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview
近日,中国电信人工智能研究院(TeleAI)“复杂推理大模型” TeleAI-t1-preview 正式发布,即将上线天翼 AI 开放平台。 TeleAI-t1-preview 使用了强化学习训练方法,通过引入探索、反思等思考范式,大幅提升模型在数学推导、逻辑推理等复杂问题的准确性。 早在 1500 多年前,数学家祖冲之就曾在《辩戴法兴难新历》中指出,复杂事物的运行规律并非超自然现象,而是可以通过实际观测、数据推理而严谨求得。
1/26/2025 9:41:00 AM
新闻助手
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
模态
字节跳动
Claude
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
科技
亚马逊
智能体
DeepMind
特斯拉