理论

DeepSeek爆火后的新Scaling Law究竟是什么？

出品 | 51CTO技术栈（微信号：blog51cto）嘉宾 | 周博洋、魏新宇采访 | 薛彦泽撰稿 | 李美涵DeepSeek R1的发布在全球人工智能领域引发了巨大反响。这款由中国初创企业DeepSeek推出的低成本、高性能AI模型，打破了人们对AI研发“高投入、长周期”的固有认知，被西方媒体誉为“人工智能的斯普特尼克时刻”。 DeepSeek的“奇迹”有目共睹。

3/14/2025 11:18:19 AM

伊风

OpenAI紧急上书，矛头直指DeepSeek！15页提案欲锁死中国AI

就在刚刚，OpenAI不装了，彻底摊牌：呼吁美国提案，禁止DeepSeek！这一次，OpenAI给DeepSeek-r1安上了不少罪名：极度不安全，侵犯知识产权等等。图片今天，OpenAI放出了一份长达15页的政策建议报告，沉痛呼吁——如今美国正在审议的数百项AI法案，可能会削弱美国技术进步，尤其是美国面临来自中国新一轮竞争的重要关头！

3/14/2025 11:15:21 AM

新智元

OpenAI翻脸，提议禁止中国模型

编辑 | 伊风、言征OpenAI真的装不下去了！根据CNBC爆料，OpenAI刚刚向美国政府提交了一份长达15页的建议书，呼吁放开监管，字里行间透露着对中国AI技术竞争的担忧——如果不行动，中国AI将在2030年之前全面超越美国。这份建议书反映出OpenAI试图直接影响即将出台的“AI行动计划”。

3/14/2025 11:09:41 AM

伊风

炸裂官宣！大佬亲自站台，AWS 全力支持 DeepSeek！

月11日凌晨，AWS宣布在AWS Bedrock推出全托管的DeepSeek-R1模型，成为首个提供DeepSeek-R1全托管的海外云厂商。与此同时，DeepSeek也成为是首个登陆Amazon Bedrock的国产大模型。 Amazon CEO Andy .

3/14/2025 10:43:27 AM

架构师之路

无缝切换，实现多厂家大模型高效对接

1、问题介绍在 AI 技术迅猛发展的今天，越来越多的研发同学面临着众多大模型选型的挑战。随着业务需求的多样化，大家希望能够逐一对比和探索不同的大模型，以便选择最适合的解决方案。然而，不同模型的对接方式各异，请求格式、参数解析也各不相同，这给开发者带来了不小的困扰。

3/14/2025 9:02:03 AM

架构精进之路

DeepSeek 3FS 架构分析和思考（上篇）

2025 年 2 月28 日，DeepSeek 在其开源周最后一天压轴发布了自研的并行文件系统 Fire-Flyer File System，简称 3FS。该系统支撑了 DeepSeek V3&R1 模型训练、推理的全流程，在数据预处理、数据集加载、CheckPoint、KVCache 等场景发挥了重要作用。项目一经发布，就获得了存储领域的广泛关注。

3/13/2025 1:51:46 PM

火山引擎存储团队

人工智能代理不是玩具，而是工人

为什么必须像评估劳动力一样评估LLM代理，而不仅仅是评估软件。如果组织仅通过代码行数或聊天完成度等指标来衡量 AI 代理，则可能会低估其最具变革性的价值。在许多方面，AI 代理更像员工，而不是传统的软件程序：它们可以学习、适应，甚至与人类团队合作。

3/13/2025 1:29:32 PM

佚名

DeepSeek玩家能提前拿苹果新品！只要15万元，在家跑满血版R1

号称地表最强的M3 Ultra，本地跑满血版DeepSeek R1，效果到底如何？其实，有些DeepSeek玩家们已经提前拿到手做过实测了。例如这位Alex老哥就是其中之一：他提前拿到了两台搭载M3 Ultra的Mac Studio，配置是这样的：M3 Ultra（32 核中央处理器、80 核图形处理器和 32 核神经网络引擎）512G统一内存1TB固态硬盘具体来说，Alex老哥用配备Thunderbolt 5互连技术（传输速率为 80Gbps）的EXO Labs设备，来运行完整的DeepSeek R1模型（671B、8-bit）。

3/13/2025 12:41:37 PM

量子位

RAG（三）GraphRAG进阶：GraphReader-- 基于图的Agent，让大模型“读懂”长文本

上一篇论文介绍了GraphRAG，今天来看一篇算是其进阶版的方法--GraphReader。对于其研究动机，简单来说，LLMs具有强大的规划和反思能力，但在解决复杂任务时，如函数调用或知识图谱问答（KGQA），以及面对需要多次推理步骤的问题时，仍然面临困难。特别是当涉及到长文本或多文档的处理时，现有的方法往往难以充分利用这些模型的能力来捕捉全局信息，并有效地进行决策。

3/13/2025 12:24:34 PM

Glodma

DeepSeek 开源 EPLB，世界上从来没有什么腾空出世！

deepseek开源DualPipe的同一天，还开源了EPLB。今天来简单聊聊EPLB，包懂。 EPLB是干嘛的？

3/13/2025 10:31:20 AM

架构师之路

迈向视觉大一统：UnifiedReward，多模态生成与理解的通用奖励模型

本篇文章来自公众号粉丝投稿，论文提出了一个视觉领域通用的奖励模型UnifiedReward，能够对图像/视频的生成与理解进行pairwise（成对比较）或 pointwise（单样本打分）评估，可用于视觉各领域的直接偏好优化 (DPO)，提升各类视觉模型的表现。论文介绍近年来，大模型时代的多模态生成与理解技术取得了飞跃式发展。然而，如何让AI真正“看懂”世界，并更好地对齐人类偏好，仍是一个核心挑战。

3/13/2025 10:18:42 AM

Yibin Wang

14B 小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

都说通用大模型轻松拿捏翻译，结果有人来掀桌了。来自网易有道的14B翻译小模型，测试达行业第一，翻译质量超越一众国内外主流通用大模型。它就是子曰翻译大模型2.0（下文简称子曰2.0），在英译中方面轻松超越Claude 3.5 Sonnet等12个主流通用大模型，中译英也和Claude 3.5 Sonnet达到同等水平。

3/13/2025 10:04:06 AM

量子位

DeepSeek-R1的方法迁移到多模态大模型-开源Vision-R1实现方法思路

刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型，就看到这个工作，本文一起看看，供参考。先提出问题，仅靠 RL 是否足以激励 MLLM 的推理能力？结论：不能，因为如果 RL 能有效激励推理能力，Vision-R1-Zero 应该表现出生成复杂 CoT 的能力，并在基准测试中提升准确率。

3/13/2025 8:13:47 AM

余俊晖

不需要 AI 和数学知识背景，这篇文章带你学会大模型应用开发

作者 | ronaldo最近几年，大模型在技术领域的火热程度属于一骑绝尘遥遥领先，不论是各种技术论坛还是开源项目，大多都围绕着大模型展开。大模型的长期目标是实现AGI，这可能还有挺长的路要走，但是眼下它已经深刻地影响了“编程”领域。各种copilot显著地提升了开发者的效率，但与此同时，开发者也变得非常地焦虑。

3/13/2025 8:00:00 AM

腾讯技术工程

H20芯片困局：在DeepSeek崛起下的挑战与反思

在当今全球科技竞争的宏大棋局之中，美国针对中国半导体和人工智能芯片发起的制裁行动，恰似汹涌暗潮，正以悄无声息却又极具颠覆性的方式，重塑着中国人工智能产业的发展格局。在这一复杂局势下，H20 芯片作为特殊的存在进入中国市场，看似是为国内企业送来的“及时雨”，实则暗藏玄机，背后隐藏着诸多亟待剖析的问题。近年来，美国对我国人工智能发展的制裁手段可谓层层加码、环环相扣。

3/12/2025 5:59:31 PM

徐勇