AIGC宇宙 AIGC宇宙

理论

DeepSeek爆火后的新Scaling Law究竟是什么?

出品 | 51CTO技术栈(微信号:blog51cto)嘉宾 | 周博洋、魏新宇采访 | 薛彦泽撰稿 | 李美涵DeepSeek R1的发布在全球人工智能领域引发了巨大反响。 这款由中国初创企业DeepSeek推出的低成本、高性能AI模型,打破了人们对AI研发“高投入、长周期”的固有认知,被西方媒体誉为“人工智能的斯普特尼克时刻”。 DeepSeek的“奇迹”有目共睹。
3/14/2025 11:18:19 AM
伊风

OpenAI紧急上书,矛头直指DeepSeek!15页提案欲锁死中国AI

就在刚刚,OpenAI不装了,彻底摊牌:呼吁美国提案,禁止DeepSeek! 这一次,OpenAI给DeepSeek-r1安上了不少罪名:极度不安全,侵犯知识产权等等。 图片今天,OpenAI放出了一份长达15页的政策建议报告,沉痛呼吁——如今美国正在审议的数百项AI法案,可能会削弱美国技术进步,尤其是美国面临来自中国新一轮竞争的重要关头!
3/14/2025 11:15:21 AM
新智元

OpenAI翻脸,提议禁止中国模型

编辑 | 伊风、言征OpenAI真的装不下去了! 根据CNBC爆料,OpenAI刚刚向美国政府提交了一份长达15页的建议书,呼吁放开监管,字里行间透露着对中国AI技术竞争的担忧——如果不行动,中国AI将在2030年之前全面超越美国。 这份建议书反映出OpenAI试图直接影响即将出台的“AI行动计划”。
3/14/2025 11:09:41 AM
伊风

炸裂官宣!大佬亲自站台,AWS 全力支持 DeepSeek!

月11日凌晨,AWS宣布在AWS Bedrock推出全托管的DeepSeek-R1模型,成为首个提供DeepSeek-R1全托管的海外云厂商。 与此同时,DeepSeek也成为是首个登陆Amazon Bedrock的国产大模型。 Amazon CEO Andy .
3/14/2025 10:43:27 AM
架构师之路

无缝切换,实现多厂家大模型高效对接

1、问题介绍在 AI 技术迅猛发展的今天,越来越多的研发同学面临着众多大模型选型的挑战。 随着业务需求的多样化,大家希望能够逐一对比和探索不同的大模型,以便选择最适合的解决方案。 然而,不同模型的对接方式各异,请求格式、参数解析也各不相同,这给开发者带来了不小的困扰。
3/14/2025 9:02:03 AM
架构精进之路

DeepSeek 3FS 架构分析和思考(上篇)

2025 年 2 月28 日,DeepSeek 在其开源周最后一天压轴发布了自研的并行文件系统 Fire-Flyer File System,简称 3FS。 该系统支撑了 DeepSeek V3&R1 模型训练、推理的全流程,在数据预处理、数据集加载、CheckPoint、KVCache 等场景发挥了重要作用。 项目一经发布,就获得了存储领域的广泛关注。
3/13/2025 1:51:46 PM
火山引擎存储团队

人工智能代理不是玩具,而是工人

为什么必须像评估劳动力一样评估LLM代理,而不仅仅是评估软件。 如果组织仅通过代码行数或聊天完成度等指标来衡量 AI 代理,则可能会低估其最具变革性的价值。 在许多方面,AI 代理更像员工,而不是传统的软件程序:它们可以学习、适应,甚至与人类团队合作。
3/13/2025 1:29:32 PM
佚名

DeepSeek玩家能提前拿苹果新品!只要15万元,在家跑满血版R1

号称地表最强的M3 Ultra,本地跑满血版DeepSeek R1,效果到底如何? 其实,有些DeepSeek玩家们已经提前拿到手做过实测了。 例如这位Alex老哥就是其中之一:他提前拿到了两台搭载M3 Ultra的Mac Studio,配置是这样的:M3 Ultra(32 核中央处理器、80 核图形处理器和 32 核神经网络引擎)512G统一内存1TB固态硬盘具体来说,Alex老哥用配备Thunderbolt 5互连技术(传输速率为 80Gbps)的EXO Labs设备,来运行完整的DeepSeek R1模型(671B、8-bit)。
3/13/2025 12:41:37 PM
量子位

RAG(三)GraphRAG进阶:GraphReader-- 基于图的Agent,让大模型“读懂”长文本

上一篇论文介绍了GraphRAG,今天来看一篇算是其进阶版的方法--GraphReader。 对于其研究动机,简单来说,LLMs具有强大的规划和反思能力,但在解决复杂任务时,如函数调用或知识图谱问答(KGQA),以及面对需要多次推理步骤的问题时,仍然面临困难。 特别是当涉及到长文本或多文档的处理时,现有的方法往往难以充分利用这些模型的能力来捕捉全局信息,并有效地进行决策。
3/13/2025 12:24:34 PM
Glodma

DeepSeek 开源 EPLB,世界上从来没有什么腾空出世!

deepseek开源DualPipe的同一天,还开源了EPLB。 今天来简单聊聊EPLB,包懂。 EPLB是干嘛的?
3/13/2025 10:31:20 AM
架构师之路

迈向视觉大一统:UnifiedReward,多模态生成与理解的通用奖励模型

本篇文章来自公众号粉丝投稿,论文提出了一个视觉领域通用的奖励模型UnifiedReward,能够对图像/视频的生成与理解进行pairwise(成对比较)或 pointwise(单样本打分)评估,可用于视觉各领域的直接偏好优化 (DPO),提升各类视觉模型的表现。 论文介绍近年来,大模型时代的多模态生成与理解技术取得了飞跃式发展。 然而,如何让AI真正“看懂”世界,并更好地对齐人类偏好,仍是一个核心挑战。
3/13/2025 10:18:42 AM
Yibin Wang

14B 小模型逆袭翻译赛道,论文财报实测超Claude,不信试试“我命由我不由天”

都说通用大模型轻松拿捏翻译,结果有人来掀桌了。 来自网易有道的14B翻译小模型,测试达行业第一,翻译质量超越一众国内外主流通用大模型。 它就是子曰翻译大模型2.0(下文简称子曰2.0),在英译中方面轻松超越Claude 3.5 Sonnet等12个主流通用大模型,中译英也和Claude 3.5 Sonnet达到同等水平。
3/13/2025 10:04:06 AM
量子位

DeepSeek-R1的方法迁移到多模态大模型-开源Vision-R1实现方法思路

刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。 先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力? 结论:不能,因为如果 RL 能有效激励推理能力,Vision-R1-Zero 应该表现出生成复杂 CoT 的能力,并在基准测试中提升准确率。
3/13/2025 8:13:47 AM
余俊晖

不需要 AI 和数学知识背景,这篇文章带你学会大模型应用开发

作者 | ronaldo最近几年,大模型在技术领域的火热程度属于一骑绝尘遥遥领先,不论是各种技术论坛还是开源项目,大多都围绕着大模型展开。 大模型的长期目标是实现AGI,这可能还有挺长的路要走,但是眼下它已经深刻地影响了“编程”领域。 各种copilot显著地提升了开发者的效率,但与此同时,开发者也变得非常地焦虑。
3/13/2025 8:00:00 AM
腾讯技术工程

H20芯片困局:在DeepSeek崛起下的挑战与反思

在当今全球科技竞争的宏大棋局之中,美国针对中国半导体和人工智能芯片发起的制裁行动,恰似汹涌暗潮,正以悄无声息却又极具颠覆性的方式,重塑着中国人工智能产业的发展格局。 在这一复杂局势下,H20 芯片作为特殊的存在进入中国市场,看似是为国内企业送来的“及时雨”,实则暗藏玄机,背后隐藏着诸多亟待剖析的问题。 近年来,美国对我国人工智能发展的制裁手段可谓层层加码、环环相扣。
3/12/2025 5:59:31 PM
徐勇

32B IOI奥赛击败DeepSeek-R1!Open R1开源复刻第三弹,下一步R1-Zero

Hugging Face的Open R1再度升级! Hugging Face的Open R1是一个社区驱动的项目,目标是创建一个完全开源的DeepSeek-R1版本。 目前,已有模型如OlympicCoder-32B和数据集如codeforces发布,显示了项目的进展。
3/12/2025 1:55:05 PM
新智元

OpenAI旨在通过扩展工具包开发智能体

随着企业对这项技术兴趣的提升,技术供应商纷纷急于推出工具以促进智能体的采用。 云巨头和软件巨头都已参与其中。 谷歌去年12月向企业客户介绍了其Agentspace服务,微软上周扩展了其AI代理产品组合,而AWS则于周一正式推出了AmazonBedrock上的多智能体协作功能。
3/12/2025 1:04:01 PM
Lindsey Wilkinson

使用 VLLM 部署 DeepSeek:基于 Ubuntu 22.04 + RTX 4090 + Docker 的完整指南

最近,大语言模型(LLM)的部署已经成为 AI 开发者绕不开的核心技能。 而 VLLM 作为一款高性能、低延迟的推理引擎,在大模型推理领域迅速崛起。 今天,我就带大家从零开始,在 Ubuntu 22.04 RTX 4090 Docker 环境下,部署 DeepSeek模型,并让它跑起来!
3/12/2025 12:37:50 PM
写代码的中年人