调用

从思考到行动：大模型自主工具调用能力的深度实现

本项目由复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员领导，博士生韩槿一，硕士生李廷云、熊程元、姜子上、王昕奕等同学共同参与完成。 GPT - 4o、Deepseek - R1 等高级模型已展现出令人惊叹的「深度思考」能力：理解上下文关联、拆解多步骤问题、甚至通过思维链（Chain - of - Thought）进行自我验证、自我反思等推理过程。但是，多数主流模型仍在基础问题上犯错，复杂四则运算计算失误，简单「两个小数比大小」出错、甚至连数清楚 strawberry 里有几个「r」都能翻车……即使提示像 R1 这样具备深度思考能力的大模型也要消耗大量的 token 才能勉强答对。

4/17/2025 10:43:00 AM

机器之心

资讯热榜

最强OCR竟然不是DeepSeek、Paddle！HuggingFace新作：六大顶尖开源OCR模型横评！继DS后又杀出匹黑马！如何把ChatGPT嵌入到自己的应用中？ OpenAI 内部警示:ChatGPT Atlas 面临“即时注入”安全威胁基于JoyAgent的二开工程实践（信贷尽调报告生成） ChatGPT 涉嫌“诱导”美国 16 岁少年自杀，家属指控 OpenAI 事发前放松安全措施微软AI主管苏莱曼:微软不会开发情色类AI，与OpenAI划清界限揭秘大模型的魔法：从零实现一个简化版的GPT 模型直击 Mac 桌面!OpenAI 收购 Sky 团队，ChatGPT 即将深度嵌入 macOS 工作流

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人大模型数据 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法 AI for Science 芯片 Agent 腾讯 Stable Diffusion 苹果 Claude 蛋白质开发者生成式神经网络 xAI 机器学习 3D 人形机器人 RAG 研究 AI视频生成大语言模型具身智能 Sora 工具 GPU 百度华为计算字节跳动 AI设计 AGI 搜索大型语言模型视频生成场景深度学习架构 DeepMind 生成式AI 编程视觉预测 Transformer AI模型伟达亚马逊特斯拉