DeepSeek

24B模型编程超DeepSeek全家桶，32G内存苹果电脑就能跑，专门针对真实GitHub Issue训练

Mistral沉默好久，果然在憋大招。刚刚发布最新开源编程模型Devstral，在软件工程任务上一举超过DeepSeek全家桶和Qwen3 235B。并且参数只有24B，可以在单卡RTX4090甚至32G内存的Mac上运行。

5/22/2025 1:43:40 PM

RAG系列：基于 DeepSeek + Chroma + LangChain 开发一个简单 RAG 系统

创建 Next 项目首先，使用 npx create-next-app@latest 根据提示完成 Next 项目的创建：复制创建好项目之后，在 src/app 目录下新建 rag 目录，本次 demo 的代码都将放在这里。知识库构建接下来，我们将构建知识库，主要目标是将准备好的 pdf 通过向量化存到向量数据库中，以便后续的检索。由于本次 RAG 系统的开发都要依赖 LangChain 框架，所以我们先在项目中安装 LangChain 框架和核心依赖：复制文档加载LangChain 的 DocumentLoaders[1] 提供了种类丰富的文档加载器，可加载文件系统的文件也可以加载线上文件，包括 csv、docx、pdf、pptx、html、github、youtube等等。

5/22/2025 6:48:50 AM

赖祥燃

DeepSeek发布大模型训练端到端论文，展示卓越工程深度

近日，DeepSeek发布了一篇关于大模型训练的最佳端到端技术论文，引发业界广泛关注。该论文全面阐述了DeepSeek在大模型研发中的技术突破，涵盖软件、硬件及混合优化方案，展现了其令人惊叹的工程深度。在**软件**层面，论文详细介绍了多头潜在注意力机制（MLA），显著降低推理过程中的内存占用;FP8混合精度训练通过低精度计算提升效率，同时保证数值稳定性;DeepEP通信库优化了专家并行(EP)通信，支持FP8低精度操作，加速MoE模型训练与推理;LogFMT对数浮点格式则通过均匀化激活分布，进一步优化计算效率。

5/21/2025 11:01:05 AM

AI在线

CoT推理大溃败？哈佛华人揭秘：LLM一思考，立刻就「失智」

DeepSeek-R1火了，推理模型火了，思维链（Chain-of-Thought，CoT）火了！模型很聪明，问题是：它还听你的话吗？思维链很好，但代价呢？

5/21/2025 9:02:20 AM

华为 + DeepSeek 推理性能创新高，技术报告公布

华为不仅已经将昇腾在超大规模 MoE 模型推理部署的技术报告分享了出来，在一个月时间内，还会把实现这些核心技术的相关代码也都会陆续开源出来。

5/19/2025 1:22:36 PM

汪淼

北大DeepSeek论文或预定ACL Best Paper！梁文锋署名

重磅惊喜！北大与DeepSeek合作，并由梁文锋亲自提交到arXiv的论文，将有望斩获ACL 2025最佳论文（ACL Best Paper）。图片论文地址：，总投稿数高达8000多篇，创历史之最，而ACL 2024总投稿数仅为4407，几乎翻倍！

5/19/2025 9:12:16 AM

新智元

微软纳德拉应对 AI 新挑战，DeepSeek 崛起引发战略调整

R1的处理成本仅为OpenAI的3.6%，且开源免费，威胁微软对OpenAI的巨额投资。纳德拉迅速组织团队评估并应对，最终选择拥抱竞争，将R1整合进微软云服务Azure。这一事件揭示了纳德拉对AI商品化的独特思考，以及微软在AI战略上的灵活调整。

5/16/2025 12:18:23 PM

故渊

DeepSeek-V3 发布新论文，揭示低成本大模型训练的奥秘

近日，DeepSeek 团队发布了关于其最新模型 DeepSeek-V3的一篇技术论文，重点讨论了在大规模人工智能模型训练中遇到的 “扩展挑战” 以及与硬件架构相关的思考。这篇长达14页的论文不仅总结了 DeepSeek 在开发 V3过程中的经验与教训，还为未来的硬件设计提供了深刻的见解。值得注意的是，DeepSeek 的 CEO 梁文锋也参与了论文的撰写。

5/16/2025 9:00:55 AM

AI在线

英伟达发布新 RL 范式：受 DeepSeek-R1 启发，重塑 AI 模型外部工具能力

英伟达联合推出 Nemotron-Research-Tool-N1 系列模型，受 DeepSeek-R1 启发，采用新型强化学习（RL）范式，强化模型推理能力。

5/14/2025 2:03:30 PM

故渊

Poe：DeepSeek使用率下降50%，快手崛起、OpenAI暴涨

今天凌晨，全球著名大模型整合应用平台Poe发布了，2025年春季AI模型使用趋势报告。结果显示，DeepSeek R1的使用率从2月中旬的峰值7%下降到了4月底的3%，整体使用率下降超过50%；OpenAI由于在GPT-4o推出新的文生图功能后，例如，吉卜力风格、仿真自拍等类型图片，实现病毒式增长使用率暴涨。下面「AIGC开放社区」将从文本、视频、推理、图像和音频5大领域为大家解读这份报告。

5/14/2025 9:16:39 AM

绝！三招教你私有化部署 DeepSeek

在数字化转型的进程中，企业不仅需要高效、智能的工具来提升运营效率，还需确保数据安全与满足隐私保护要求。 DeepSeek 私有化部署正是为解决这一需求而生的，它通过将 DeepSeek 智能助手从公共云端迁移至企业内部服务器，为企业提供了一种安全、可控且高度定制化的解决方案。这种部署方式不仅能够满足企业对敏感数据的保护需求，还能根据具体业务场景进行灵活调整，从而为企业数字化转型提供强有力的支持。

5/14/2025 2:00:00 AM

DeepSeek回应“崩了”：部分功能已恢复正常

今日，DeepSeek突发状况引发网友广泛关注与热议，迅速成为网络焦点。大量网友反馈，在使用DeepSeek时遭遇严重问题。不少人表示，点进DeepSeek后页面疯狂转圈，根本无法正常使用。

5/13/2025 8:00:42 PM

AI在线

（更新：对话功能恢复正常）DeepSeek 出现服务问题，登录失败、无法对话

据IT之家小伙伴反馈，DeepSeek 今日下午出现服务问题，主要影响网页端对话。#deepseek崩了##deepseek#

5/13/2025 6:09:37 PM

汪淼

DeepSeek公开致谢腾讯技术团队助力DeepSeek通信框架提速100%

DeepSeek近日发文公开致谢腾讯技术团队，称其对DeepSeek开源通信框架DeepEP的优化是一项“huge speedup”级别的代码贡献。此次优化聚焦于在多种网络环境下提升通信性能。经测试，优化后的DeepEP在RoCE网络环境下性能提升高达100%，在IB（InfiniBand）网络环境下提升约30%，显著增强了通信效率，为AI大模型训练提供了更稳定、高效的底层支撑。

5/8/2025 10:00:55 AM

AI在线

低价大模型 DeepSeek 实用指南

火爆全网的国产大模型 DeepSeek，其 API 价格仅为同类模型的几十分之一。图片DeepSeek 网页端与 API 应用场景DeepSeek 网页端界面简洁直观，但 API 使用需要一定技巧。本文将从对话、知识库、AI 翻译、AI 编程及 Python 调用等多个场景，分篇评测 DeepSeek API 的实际应用。

5/8/2025 8:10:25 AM

红绿灯灯灯灯

DeepSeek 致谢腾讯技术团队，DeepEP 开源通信框架性能显著提升

经测试，优化后的通信框架性能在 RoCE 网络环境提升 100%，IB 网络环境提升 30%，为企业开展 AI 大模型训练提供更高效的解决方案。

5/7/2025 7:55:10 PM

汪淼

腾讯元宝宣布文生图功能升级：混元和 DeepSeek 都已支持生图

腾讯元宝宣布文生图功能升级，结合混元和DeepSeek技术，用户只需一句话指令即可生成高质量图像。新功能已在元宝全端上线，支持复杂场景和艺术风格生成。#腾讯元宝# #AI生图#

5/7/2025 4:34:04 PM

远洋

DeepSeek开源的文件系统，是如何提升大模型效率的？

在 AI 领域里，大模型通常具有百亿甚至数千亿参数，训练和推理过程对计算资源、存储系统和数据访问效率提出了极高要求。 2 月 28 日，DeepSeek 开源了一种高性能分布式文件系统 3FS，官方表示其目的是解决人工智能训练和推理工作负载的挑战。作为一种并行文件系统，3FS 可以在 180 节点集群中实现 6.6 TiB/s 的聚合读取吞吐量，对于提高 DeepSeek V3、R1 大模型的训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和 KVCache 查找等工作的效率有重要帮助。

5/6/2025 9:03:00 AM

机器之心

资讯热榜

苹果发布全新Xcode 26开发者工具：内置ChatGPT先进AI功能首月 1 美元，ChatGPT Team 会员美区 / 英区 / 欧洲区 / 澳洲区迎优惠 DeepSeek前高管秘密创业，新AI Agent项目已获顶级VC押注那个男人回来了！Ilya现身多伦多大学毕业典礼：AI 像是用数字方式复制出来的大脑！不管你愿不愿意，AI都将深刻影响你的一生！ ChatGPT 语音功能升级，实时翻译对话更自然流畅支持MCP！开源智能体开发框架 Rowboat：打造你的智能助手只需几分钟长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试谷歌 Gemini 应用月下载量超越 ChatGPT，用户活跃度仍显不足

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画数据谷歌机器人大模型 Midjourney 用户智能开源微软 GPT 学习 Meta 图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法代码英伟达 Anthropic 芯片生成式开发者蛋白质腾讯神经网络研究 3D 生成训练苹果计算智能体 Sora 机器学习 AI设计 AI for Science Claude GPU AI视频人形机器人华为搜索场景百度大语言模型 xAI 预测伟达深度学习 Transformer 字节跳动 Agent 模态具身智能神器推荐 LLaMA 文本视觉 Copilot 算力工具 LLM 驾驶 API 大型语言模型应用 RAG 亚马逊

DeepSeek

24B模型编程超DeepSeek全家桶，32G内存苹果电脑就能跑，专门针对真实GitHub Issue训练

RAG系列：基于 DeepSeek + Chroma + LangChain 开发一个简单 RAG 系统

DeepSeek发布大模型训练端到端论文，展示卓越工程深度

CoT推理大溃败？哈佛华人揭秘：LLM一思考，立刻就「失智」

华为 + DeepSeek 推理性能创新高，技术报告公布

北大DeepSeek论文或预定ACL Best Paper！梁文锋署名

微软纳德拉应对 AI 新挑战，DeepSeek 崛起引发战略调整

DeepSeek-V3 发布新论文，揭示低成本大模型训练的奥秘

英伟达发布新 RL 范式：受 DeepSeek-R1 启发，重塑 AI 模型外部工具能力

Poe：DeepSeek使用率下降50%，快手崛起、OpenAI暴涨

绝！三招教你私有化部署 DeepSeek

DeepSeek回应“崩了”：部分功能已恢复正常

（更新：对话功能恢复正常）DeepSeek 出现服务问题，登录失败、无法对话

DeepSeek公开致谢腾讯技术团队 助力DeepSeek通信框架提速100%

低价大模型 DeepSeek 实用指南

DeepSeek 致谢腾讯技术团队，DeepEP 开源通信框架性能显著提升

腾讯元宝宣布文生图功能升级：混元和 DeepSeek 都已支持生图

DeepSeek开源的文件系统，是如何提升大模型效率的？

DeepSeek公开致谢腾讯技术团队助力DeepSeek通信框架提速100%