在当前人工智能领域,大语言模型(LLMs)取得了显著成就,但其逻辑推理能力依然显得不足。为了提升这一能力,来自北京大学、清华大学、阿姆斯特丹大学、卡内基梅隆大学以及阿布扎比的 MBZUAI 等五所高校的研究人员,联合发布了《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》综述论文,聚焦于逻辑推理的两大关键问题:逻辑问答和逻辑一致性。
研究表明,大语言模型在处理复杂逻辑推理时存在明显的短板。例如,在逻辑问答任务中,当给定一系列前提时,模型往往无法生成正确的答案。以 “钉子能否导电” 为例,模型需理清 “钉子是铁制成的,铁是金属,金属可以导电” 等推理链,才能得出 “假” 的结论。然而,研究发现 LLaMA 模型在相关任务上的准确率仅为33.63%,稍高于随机猜测的水平。
逻辑一致性是另一个亟待解决的问题。大模型在回答不同问题时,常常出现自相矛盾的情况。例如,某模型可能对 “喜鹊是鸟吗?” 和 “鸟有翅膀吗?” 都回答 “是”,但却对 “喜鹊有翅膀吗?” 回答 “否”,这显然是逻辑上的矛盾。这种不一致性引发了人们对大模型可靠性的担忧,特别是在医疗、法律等高风险领域的应用。
为了提升大模型的逻辑推理能力,研究者们提出了几种方法:首先,基于外部求解器的策略将自然语言问题转化为符号语言,利用求解器进行推理;其次,通过精心设计的提示词,帮助模型在回答时明确逻辑推理链;最后,预训练和微调方法则引入高质量的逻辑推理样本,来增强模型的训练效果。这些方法旨在确保大模型在推理过程中能够保持一致性和可靠性,增强其在实际应用中的可信度。
在未来的研究中,学者们还计划扩展模型的应用范围,探索如何处理模态逻辑及不确定性,以进一步提高大模型的逻辑推理能力。
论文地址:https://arxiv.org/pdf/2502.15652