AIGC宇宙 AIGC宇宙

DeepSeek

24B模型编程超DeepSeek全家桶,32G内存苹果电脑就能跑,专门针对真实GitHub Issue训练

Mistral沉默好久,果然在憋大招。 刚刚发布最新开源编程模型Devstral,在软件工程任务上一举超过DeepSeek全家桶和Qwen3 235B。 并且参数只有24B,可以在单卡RTX4090甚至32G内存的Mac上运行。
5/22/2025 1:43:40 PM

RAG系列:基于 DeepSeek + Chroma + LangChain 开发一个简单 RAG 系统

创建 Next 项目首先,使用 npx create-next-app@latest 根据提示完成 Next 项目的创建:复制创建好项目之后,在 src/app 目录下新建 rag 目录,本次 demo 的代码都将放在这里。 知识库构建接下来,我们将构建知识库,主要目标是将准备好的 pdf 通过向量化存到向量数据库中,以便后续的检索。 由于本次 RAG 系统的开发都要依赖 LangChain 框架,所以我们先在项目中安装 LangChain 框架和核心依赖:复制文档加载LangChain 的 DocumentLoaders[1] 提供了种类丰富的文档加载器,可加载文件系统的文件也可以加载线上文件,包括 csv、docx、pdf、pptx、html、github、youtube等等。
5/22/2025 6:48:50 AM
赖祥燃

DeepSeek发布大模型训练端到端论文,展示卓越工程深度

近日,DeepSeek发布了一篇关于大模型训练的最佳端到端技术论文,引发业界广泛关注。 该论文全面阐述了DeepSeek在大模型研发中的技术突破,涵盖软件、硬件及混合优化方案,展现了其令人惊叹的工程深度。 在**软件**层面,论文详细介绍了多头潜在注意力机制(MLA),显著降低推理过程中的内存占用;FP8混合精度训练通过低精度计算提升效率,同时保证数值稳定性;DeepEP通信库优化了专家并行(EP)通信,支持FP8低精度操作,加速MoE模型训练与推理;LogFMT对数浮点格式则通过均匀化激活分布,进一步优化计算效率。
5/21/2025 11:01:05 AM
AI在线

CoT推理大溃败?哈佛华人揭秘:LLM一思考,立刻就「失智」

DeepSeek-R1火了,推理模型火了,思维链(Chain-of-Thought,CoT)火了! 模型很聪明,问题是:它还听你的话吗? 思维链很好,但代价呢?
5/21/2025 9:02:20 AM

华为 + DeepSeek 推理性能创新高,技术报告公布

华为不仅已经将昇腾在超大规模 MoE 模型推理部署的技术报告分享了出来,在一个月时间内,还会把实现这些核心技术的相关代码也都会陆续开源出来。
5/19/2025 1:22:36 PM
汪淼

北大DeepSeek论文或预定ACL Best Paper!梁文锋署名

重磅惊喜! 北大与DeepSeek合作,并由梁文锋亲自提交到arXiv的论文,将有望斩获ACL 2025最佳论文(ACL Best Paper)。 图片论文地址:,总投稿数高达8000多篇,创历史之最,而ACL 2024总投稿数仅为4407,几乎翻倍!
5/19/2025 9:12:16 AM
新智元

微软纳德拉应对 AI 新挑战,DeepSeek 崛起引发战略调整

R1的处理成本仅为OpenAI的3.6%,且开源免费,威胁微软对OpenAI的巨额投资。纳德拉迅速组织团队评估并应对,最终选择拥抱竞争,将R1整合进微软云服务Azure。这一事件揭示了纳德拉对AI商品化的独特思考,以及微软在AI战略上的灵活调整。
5/16/2025 12:18:23 PM
故渊

DeepSeek-V3 发布新论文,揭示低成本大模型训练的奥秘

近日,DeepSeek 团队发布了关于其最新模型 DeepSeek-V3的一篇技术论文,重点讨论了在大规模人工智能模型训练中遇到的 “扩展挑战” 以及与硬件架构相关的思考。 这篇长达14页的论文不仅总结了 DeepSeek 在开发 V3过程中的经验与教训,还为未来的硬件设计提供了深刻的见解。 值得注意的是,DeepSeek 的 CEO 梁文锋也参与了论文的撰写。
5/16/2025 9:00:55 AM
AI在线

英伟达发布新 RL 范式:受 DeepSeek-R1 启发,重塑 AI 模型外部工具能力

英伟达联合推出 Nemotron-Research-Tool-N1 系列模型,受 DeepSeek-R1 启发,采用新型强化学习(RL)范式,强化模型推理能力。
5/14/2025 2:03:30 PM
故渊

Poe:DeepSeek使用率下降50%,快手崛起、OpenAI暴涨

今天凌晨,全球著名大模型整合应用平台Poe发布了,2025年春季AI模型使用趋势报告。 结果显示,DeepSeek R1的使用率从2月中旬的峰值7%下降到了4月底的3%,整体使用率下降超过50%;OpenAI由于在GPT-4o推出新的文生图功能后,例如,吉卜力风格、仿真自拍等类型图片,实现病毒式增长使用率暴涨。 下面「AIGC开放社区」将从文本、视频、推理、图像和音频5大领域为大家解读这份报告。
5/14/2025 9:16:39 AM

绝!三招教你私有化部署 DeepSeek

在数字化转型的进程中,企业不仅需要高效、智能的工具来提升运营效率,还需确保数据安全与满足隐私保护要求。 DeepSeek 私有化部署正是为解决这一需求而生的,它通过将 DeepSeek 智能助手从公共云端迁移至企业内部服务器,为企业提供了一种安全、可控且高度定制化的解决方案。 这种部署方 式不仅能够满足企业对敏感数据的保护需求,还能根据具体业务场景进行灵活 调整,从而为企业数字化转型提供强有力的支持。
5/14/2025 2:00:00 AM

DeepSeek回应“崩了”:部分功能已恢复正常

今日,DeepSeek突发状况引发网友广泛关注与热议,迅速成为网络焦点。 大量网友反馈,在使用DeepSeek时遭遇严重问题。 不少人表示,点进DeepSeek后页面疯狂转圈,根本无法正常使用。
5/13/2025 8:00:42 PM
AI在线

(更新:对话功能恢复正常)DeepSeek 出现服务问题,登录失败、无法对话

据IT之家小伙伴反馈,DeepSeek 今日下午出现服务问题,主要影响网页端对话。#deepseek崩了##deepseek#
5/13/2025 6:09:37 PM
汪淼

DeepSeek公开致谢腾讯技术团队 助力DeepSeek通信框架提速100%

DeepSeek近日发文公开致谢腾讯技术团队,称其对DeepSeek开源通信框架DeepEP的优化是一项“huge speedup”级别的代码贡献。 此次优化聚焦于在多种网络环境下提升通信性能。 经测试,优化后的DeepEP在RoCE网络环境下性能提升高达100%,在IB(InfiniBand)网络环境下提升约30%,显著增强了通信效率,为AI大模型训练提供了更稳定、高效的底层支撑。
5/8/2025 10:00:55 AM
AI在线

低价大模型 DeepSeek 实用指南

火爆全网的国产大模型 DeepSeek,其 API 价格仅为同类模型的几十分之一。 图片DeepSeek 网页端与 API 应用场景DeepSeek 网页端界面简洁直观,但 API 使用需要一定技巧。 本文将从对话、知识库、AI 翻译、AI 编程及 Python 调用等多个场景,分篇评测 DeepSeek API 的实际应用。
5/8/2025 8:10:25 AM
红绿灯灯灯灯

DeepSeek 致谢腾讯技术团队,DeepEP 开源通信框架性能显著提升

经测试,优化后的通信框架性能在 RoCE 网络环境提升 100%,IB 网络环境提升 30%,为企业开展 AI 大模型训练提供更高效的解决方案。
5/7/2025 7:55:10 PM
汪淼

腾讯元宝宣布文生图功能升级:混元和 DeepSeek 都已支持生图

腾讯元宝宣布文生图功能升级,结合混元和DeepSeek技术,用户只需一句话指令即可生成高质量图像。新功能已在元宝全端上线,支持复杂场景和艺术风格生成。#腾讯元宝# #AI生图#
5/7/2025 4:34:04 PM
远洋

DeepSeek开源的文件系统,是如何提升大模型效率的?

在 AI 领域里,大模型通常具有百亿甚至数千亿参数,训练和推理过程对计算资源、存储系统和数据访问效率提出了极高要求。 2 月 28 日,DeepSeek 开源了一种高性能分布式文件系统 3FS,官方表示其目的是解决人工智能训练和推理工作负载的挑战。 作为一种并行文件系统,3FS 可以在 180 节点集群中实现 6.6 TiB/s 的聚合读取吞吐量,对于提高 DeepSeek V3、R1 大模型的训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和 KVCache 查找等工作的效率有重要帮助。
5/6/2025 9:03:00 AM
机器之心