工程

从思考到行动：大模型自主工具调用能力的深度实现

从思考到行动：大模型自主工具调用能力的深度实现

本项目由复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员领导，博士生韩槿一，硕士生李廷云、熊程元、姜子上、王昕奕等同学共同参与完成。 GPT - 4o、Deepseek - R1 等高级模型已展现出令人惊叹的「深度思考」能力：理解上下文关联、拆解多步骤问题、甚至通过思维链（Chain - of - Thought）进行自我验证、自我反思等推理过程。但是，多数主流模型仍在基础问题上犯错，复杂四则运算计算失误，简单「两个小数比大小」出错、甚至连数清楚 strawberry 里有几个「r」都能翻车……即使提示像 R1 这样具备深度思考能力的大模型也要消耗大量的 token 才能勉强答对。

4/17/2025 10:43:00 AM

机器之心

一站式解决Deepseek微调三大痛点：数据集、GPU资源、微调手册与源码

一站式解决Deepseek微调三大痛点：数据集、GPU资源、微调手册与源码

1.Deepseek微调痛点Deepseek模型微调是提升在行业领域表现的关键，但你是否被这些问题卡住？数据集：不知道如何准备，担心数据泄露？ GPU算力：算力不足，Deepseek不同模型尺寸对应的GPU配置选择一头雾水？

3/31/2025 5:10:00 PM

九章云极DataCanvas

刚刚！DeepSeek梁文锋亲自挂名，公开新注意力架构NSA

刚刚！DeepSeek梁文锋亲自挂名，公开新注意力架构NSA

DeepSeek 新论文来了！相关消息刚刚发布到 𝕏 就吸引了大量用户点赞、转发、评论三连。据介绍，DeepSeek 的这篇新论文提出了一种新的注意力机制 ——NSA。

2/18/2025 5:30:00 PM

机器之心

DeepSeek R1不编程就能生成GPU内核，比熟练工程师好，惊到了英伟达

DeepSeek R1不编程就能生成GPU内核，比熟练工程师好，惊到了英伟达

这项尝试只用到了 R1 模型和基本验证器，没有针对 R1 的工具，没有对专有的英伟达代码进行微调。其实根据 DeepSeek 介绍，R1 的编码能力不算顶尖。 DeepSeek 引爆 AI 社区后，人们都在尝试本地部署和各领域应用，在新模型基础上持续改进的方向也被不断提出。

2/13/2025 1:00:00 PM

机器之心

奥特曼被逼急：深夜上线 o3-mini，甚至免费，网友：还是选DeepSeek

奥特曼被逼急：深夜上线 o3-mini，甚至免费，网友：还是选DeepSeek

奥特曼能不急吗？被 DeepSeek 狂轰乱炸了一周后，终于在今天发布了新的模型 o3-mini。此次发布，o3-mini 包含 low、medium 和 high 三个版本。

2/1/2025 11:48:00 AM

机器之心

用慢思考提升模型安全性，北交大、鹏城实验室提出系统2对齐

用慢思考提升模型安全性，北交大、鹏城实验室提出系统2对齐

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

1/23/2025 11:45:00 AM

机器之心

1

资讯热榜

苹果发布全新Xcode 26开发者工具：内置ChatGPT先进AI功能首月 1 美元，ChatGPT Team 会员美区 / 英区 / 欧洲区 / 澳洲区迎优惠那个男人回来了！Ilya现身多伦多大学毕业典礼：AI 像是用数字方式复制出来的大脑！不管你愿不愿意，AI都将深刻影响你的一生！ DeepSeek前高管秘密创业，新AI Agent项目已获顶级VC押注支持MCP！开源智能体开发框架 Rowboat：打造你的智能助手只需几分钟 ChatGPT 语音功能升级，实时翻译对话更自然流畅谷歌 Gemini 应用月下载量超越 ChatGPT，用户活跃度仍显不足长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画数据谷歌机器人大模型 Midjourney 用户智能开源微软 GPT 学习 Meta 图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法代码英伟达 Anthropic 芯片生成式开发者蛋白质腾讯神经网络研究 3D 生成训练苹果计算智能体 Sora 机器学习 AI设计 AI for Science Claude GPU AI视频人形机器人华为搜索场景百度大语言模型 xAI 预测伟达深度学习 Transformer 字节跳动 Agent 模态具身智能神器推荐 LLaMA 文本视觉 Copilot 算力工具 LLM 驾驶 API 大型语言模型应用 RAG 亚马逊