北大、清华联合发布！大模型逻辑推理能力新突破

作者：AI在线 2025-05-08 10:00

在当前人工智能领域，大语言模型（LLMs）取得了显著成就，但其逻辑推理能力依然显得不足。为了提升这一能力，来自北京大学、清华大学、阿姆斯特丹大学、卡内基梅隆大学以及阿布扎比的 MBZUAI 等五所高校的研究人员，联合发布了《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》综述论文，聚焦于逻辑推理的两大关键问题:逻辑问答和逻辑一致性。研究表明，大语言模型在处理复杂逻辑推理时存在明显的短板。

研究表明，大语言模型在处理复杂逻辑推理时存在明显的短板。例如，在逻辑问答任务中，当给定一系列前提时，模型往往无法生成正确的答案。以 “钉子能否导电” 为例，模型需理清 “钉子是铁制成的，铁是金属，金属可以导电” 等推理链，才能得出 “假” 的结论。然而，研究发现 LLaMA 模型在相关任务上的准确率仅为33.63%，稍高于随机猜测的水平。

逻辑一致性是另一个亟待解决的问题。大模型在回答不同问题时，常常出现自相矛盾的情况。例如，某模型可能对 “喜鹊是鸟吗?” 和 “鸟有翅膀吗?” 都回答 “是”，但却对 “喜鹊有翅膀吗?” 回答 “否”，这显然是逻辑上的矛盾。这种不一致性引发了人们对大模型可靠性的担忧，特别是在医疗、法律等高风险领域的应用。

为了提升大模型的逻辑推理能力，研究者们提出了几种方法:首先，基于外部求解器的策略将自然语言问题转化为符号语言，利用求解器进行推理;其次，通过精心设计的提示词，帮助模型在回答时明确逻辑推理链;最后，预训练和微调方法则引入高质量的逻辑推理样本，来增强模型的训练效果。这些方法旨在确保大模型在推理过程中能够保持一致性和可靠性，增强其在实际应用中的可信度。

在未来的研究中，学者们还计划扩展模型的应用范围，探索如何处理模态逻辑及不确定性，以进一步提高大模型的逻辑推理能力。

论文地址：https://arxiv.org/pdf/2502.15652

沙利文发布权威报告：商汤科技GenAI技术栈市场综合能力位居国内第一

创新实力强、应用落地广，GenAI（生成式AI）技术栈领域，商汤科技位居国内榜首！近日，权威研究机构弗若斯特沙利文（Frost & Sullivan, 简称“沙利文”）联合头豹研究院发布《2024年中国GenAI技术栈市场报告》，商汤科技在11个GenAI厂商中超越阿里云、百度智能云和华为云，增长指数和创新指数均排名国内第一，在全球排名中仅次于亚马逊云科技。报告认为，商汤积极投入技术创新，致力于为用户提供行业领先的自研模型与高性能国产化的推理引擎，同时建立了包含机器与人工审核、安全评测与内容安全策略迭代升级等在内的完整性安全管理方案，是GenAI技术栈领域的领导者。

12/30/2024 4:09:00 PM

新闻助手

有道子曰推理模型“子曰-o1”发布即开源，14B小参数复现OpenAI o1强推理效果

2025开年，AI行业掀起大模型“推理潮”，自OpenAI发布o1后，各式推理模型不断涌现，模型的高阶推理能力迎来爆发增强，其应用价值也愈发获得业界的广泛关注。 1月22日，网易有道正式推出国内首个输出分步式讲解的推理模型“子曰-o1”。作为14B轻量级单模型，子曰-o1支持在消费级显卡上进行部署，采用思维链技术，能够提供细致解题过程，以强逻辑和推理能力，实现更高的解题准确性，并提供中文逻辑推理。

1/22/2025 11:32:00 AM

新闻助手

全球开源大模型榜单揭晓，阿里通义千问独占鳌头

近日，全球最大人工智能开源社区 Huggingface 发布了最新的开源大模型排行榜（Open LLM Leaderboard），结果显示，排名前十的开源大模型全都是基于阿里通义千问(Qwen)开源模型进行二次训练的衍生模型。这一成就标志着 Qwen 在开源 AI 领域的主导地位，进一步推动了其在全球的影响力。 Open LLM Leaderboard 被广泛认为是当前最权威的开源大模型榜单，测试维度涵盖了多个领域，包括阅读理解、逻辑推理、数学计算及事实问答等。

2/11/2025 11:55:00 AM

AI在线

北大、清华联合发布！大模型逻辑推理能力新突破

相关资讯

沙利文发布权威报告：商汤科技GenAI技术栈市场综合能力位居国内第一

有道子曰推理模型“子曰-o1”发布即开源，14B小参数复现OpenAI o1强推理效果

全球开源大模型榜单揭晓，阿里通义千问独占鳌头