AIGC宇宙 AIGC宇宙

北大、清华联合发布!大模型逻辑推理能力新突破

在当前人工智能领域,大语言模型(LLMs)取得了显著成就,但其逻辑推理能力依然显得不足。 为了提升这一能力,来自北京大学、清华大学、阿姆斯特丹大学、卡内基梅隆大学以及阿布扎比的 MBZUAI 等五所高校的研究人员,联合发布了《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》综述论文,聚焦于逻辑推理的两大关键问题:逻辑问答和逻辑一致性。 研究表明,大语言模型在处理复杂逻辑推理时存在明显的短板。

在当前人工智能领域,大语言模型(LLMs)取得了显著成就,但其逻辑推理能力依然显得不足。为了提升这一能力,来自北京大学、清华大学、阿姆斯特丹大学、卡内基梅隆大学以及阿布扎比的 MBZUAI 等五所高校的研究人员,联合发布了《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》综述论文,聚焦于逻辑推理的两大关键问题:逻辑问答和逻辑一致性。

研究表明,大语言模型在处理复杂逻辑推理时存在明显的短板。例如,在逻辑问答任务中,当给定一系列前提时,模型往往无法生成正确的答案。以 “钉子能否导电” 为例,模型需理清 “钉子是铁制成的,铁是金属,金属可以导电” 等推理链,才能得出 “假” 的结论。然而,研究发现 LLaMA 模型在相关任务上的准确率仅为33.63%,稍高于随机猜测的水平。

image.png

逻辑一致性是另一个亟待解决的问题。大模型在回答不同问题时,常常出现自相矛盾的情况。例如,某模型可能对 “喜鹊是鸟吗?” 和 “鸟有翅膀吗?” 都回答 “是”,但却对 “喜鹊有翅膀吗?” 回答 “否”,这显然是逻辑上的矛盾。这种不一致性引发了人们对大模型可靠性的担忧,特别是在医疗、法律等高风险领域的应用。

为了提升大模型的逻辑推理能力,研究者们提出了几种方法:首先,基于外部求解器的策略将自然语言问题转化为符号语言,利用求解器进行推理;其次,通过精心设计的提示词,帮助模型在回答时明确逻辑推理链;最后,预训练和微调方法则引入高质量的逻辑推理样本,来增强模型的训练效果。这些方法旨在确保大模型在推理过程中能够保持一致性和可靠性,增强其在实际应用中的可信度。

在未来的研究中,学者们还计划扩展模型的应用范围,探索如何处理模态逻辑及不确定性,以进一步提高大模型的逻辑推理能力。

论文地址:https://arxiv.org/pdf/2502.15652

相关资讯

沙利文发布权威报告:商汤科技GenAI技术栈市场综合能力位居国内第一

创新实力强、应用落地广,GenAI(生成式AI)技术栈领域,商汤科技位居国内榜首! 近日,权威研究机构弗若斯特沙利文(Frost & Sullivan, 简称“沙利文”)联合头豹研究院发布《2024年中国GenAI技术栈市场报告》,商汤科技在11个GenAI厂商中超越阿里云、百度智能云和华为云,增长指数和创新指数均排名国内第一,在全球排名中仅次于亚马逊云科技。 报告认为,商汤积极投入技术创新,致力于为用户提供行业领先的自研模型与高性能国产化的推理引擎,同时建立了包含机器与人工审核、安全评测与内容安全策略迭代升级等在内的完整性安全管理方案,是GenAI技术栈领域的领导者。
12/30/2024 4:09:00 PM
新闻助手

有道子曰推理模型“子曰-o1”发布即开源,14B小参数复现OpenAI o1强推理效果

2025开年,AI行业掀起大模型“推理潮”,自OpenAI发布o1后,各式推理模型不断涌现,模型的高阶推理能力迎来爆发增强,其应用价值也愈发获得业界的广泛关注。 1月22日,网易有道正式推出国内首个输出分步式讲解的推理模型“子曰-o1”。 作为14B轻量级单模型,子曰-o1支持在消费级显卡上进行部署,采用思维链技术,能够提供细致解题过程,以强逻辑和推理能力,实现更高的解题准确性,并提供中文逻辑推理。
1/22/2025 11:32:00 AM
新闻助手

全球开源大模型榜单揭晓,阿里通义千问独占鳌头

近日,全球最大人工智能开源社区 Huggingface 发布了最新的开源大模型排行榜(Open LLM Leaderboard),结果显示,排名前十的开源大模型全都是基于阿里通义千问(Qwen)开源模型进行二次训练的衍生模型。 这一成就标志着 Qwen 在开源 AI 领域的主导地位,进一步推动了其在全球的影响力。 Open LLM Leaderboard 被广泛认为是当前最权威的开源大模型榜单,测试维度涵盖了多个领域,包括阅读理解、逻辑推理、数学计算及事实问答等。
2/11/2025 11:55:00 AM
AI在线
  • 1