AIGC宇宙 AIGC宇宙

理论

OpenAI的GPT-5即将问世:目前我们所知道的一切

想象一下,一个能浏览互联网、理解世界、记忆事物,还能像人一样自然聊天并进行复杂推理的AI。 这听起来像科幻电影里的情节,但实际上,这样的技术已经离我们不远了。 随着ChatGPT的不断进化,其最新版本GPT-5即将横空出世,预示着AI正朝着通用智能的目标大步迈进。
2/20/2025 11:20:41 AM
Bernard Marr

新突破!中国电信复现DeepSeek R1,探索行业大模型建设新路径

DeepSeek是由深度求索开发的低成本、高性能开源大语言模型,该模型通过强化学习与混合专家结构(MOE)的技术创新,以工程优化突破硬件限制,实现了“算力需求下降但性能提升”的反共识路径。 开源策略重塑了AI生态,为全球开发者提供普惠工具,标志着从“算力堆砌”向“算法效率”的产业转型。 中国电信政企信息服务事业群DeepSeek攻坚团队紧跟技术潮流,基于行业数据复现R1模型,提出行业大模型优化的新思路。
2/20/2025 11:12:11 AM

从大模型性能优化到DeepSeek部署

一、背景Deepseek-r1模型的爆火标志着本地部署大模型的需求日益增长。 本文主要探讨如何优化本地部署大模型的性能,并结合我们的实践进行评测分析,文章最后我们将分享如何在本地高效部署满血版Deepseek-r1大模型。 在生产环境中,我们已部署专用的大模型推理集群,并对其性能进行了全面优化。
2/20/2025 9:27:46 AM
menglinggong

DeepSeek公务员上岗!公务员铁饭碗不保?

图片2月18日,“AI公务员上岗”冲上热搜第一名,在深圳福田区率先推出基于DeepSeek开发的AI数字员工,首批70名上岗。 这一事件标志着智能体技术从实验室走向社会治理的第一线,开启人机协作的新纪元。 据介绍,福田这70名新员工可实现:公文格式修正准确率超 95%,审核时间缩短90%错误率控制在 5%以内;“执法文书生成助手”将执法笔录秒级生成执法文书初稿;民生诉求分拨准确率从70%提升至95%;“AI招商助手”企业分析筛选效率提升 30%……“幸福福田”官微显示,广东深圳福田区推出基于DeepSeek开发的AI数智员工,上线福田区政务大模型2.0版,除了有DeepSeek通用能力外,还结合各部门各单位实际业务流程,量身定制个性化智能体,首批满足240个业务场景使用。
2/20/2025 12:00:00 AM
数仓宝贝库

DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本

DeepSeek新注意力机制论文一出,再次引爆讨论热度。 依然是熟悉的画风,熟悉的味道——那边马斯克疯狂烧了20万张卡训出Grok 3,这厢DeepSeek重点关注的依然是压缩计算和推理成本。 具体来说,新论文提出了一种可原生训练的稀疏注意力机制,名为NSA(Native Sparse Attention)。
2/19/2025 4:01:37 PM
量子位

OpenAI掀「百万美金」编程大战!Claude 3.5 Sonnet狂赚40万拿下第一

昨天马斯克刚刚发布了号称「地表最聪明」的Grok 3模型,抢走了所有关注。 这边OpenAI就开始坐不住了,立刻扔出了SWE-Lancer(AI编码测试基准),看一下AI到底能在现实任务中挣到多少钱。 SWE-Lance是一个全新的、更贴近现实的基准测试,用于评估AI模型的编码性能。
2/19/2025 4:01:37 PM
新智元

李彦宏最新财报会议内容流出:百度从DeepSeek身上学到了一件事;调用量涨30倍百度AI搜索的打法;50亿股票回购回馈股东

编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)开年,各大科技巨头都被DeepSeek狠狠冲击已经近三周。 本周将会迎来各大公司的2024的Q4财报会议。 百度率先公开了过去三个月取得的成绩。
2/19/2025 4:01:29 PM
言征

Spring Boot 接入 DeepSeek API:实现智能应用的全新路径

在数字化时代,人工智能技术的飞速发展为各行业带来了前所未有的变革机遇。 自然语言处理作为 AI 领域的重要分支,正逐渐渗透到我们日常生活的方方面面,从智能客服、文本生成到知识问答等应用场景,其价值不断凸显。 DeepSeek 作为一种先进且功能强大的自然语言处理 API,为开发者提供了高效、精准的语言理解和生成能力。
2/19/2025 4:00:00 PM
Java技术营地

DeepSeek满血微调秘籍开源!站在巨人肩膀打造私有模型,一手教程在此

DeepSeek爆火甚至引发API低价内卷……但是别忘了开源模型的最大好处是提供了“巨人的肩膀”啊! 微调DeepSeek-V3/R1,低成本打造高质量私有模型、提高业务竞争力,或许才是当下行业内更迫切的需求。 就在刚刚,已收获近4万GitHub StarColossal-AI发布开源大模型后训练工具箱,它包含:DeepSeek-V3/R1满血671B LoRA低成本SFT微调;完整的强化学习工具链PPO、GRPO、DPO、SimPO等;无缝适配DeepSeek系列蒸馏模型在内的HuggingFace开源模型;兼容支持英伟达GPU、华为昇腾NPU等多种硬件;支持混合精度训练,gradient checkpoint等训练加速降低成本;灵活的训练配置接口,支持自定义奖励函数、损失函数等;提供灵活的并行策略配置接口,包括数据并行、模型并行、专家并行、ZeRO和Offload等,以适应不同硬件规模。
2/19/2025 2:02:11 PM
量子位

Spring Boot + DeepSeek:解锁 AI 开发新姿势

在当今数字化时代,人工智能(AI)技术正以前所未有的速度改变着我们的生活和工作方式。 作为开发者,我们一直在寻找更高效、更智能的方式来构建应用程序。 今天,我们要为大家介绍一个强大的组合:Spring Boot DeepSeek,这将为你的应用注入智能新动力,开启 AI 开发的新篇章。
2/19/2025 12:00:00 PM
Java技术营地

Llama都在用的RoPE有了视频版,复旦上海AI Lab等提出长视频理解/检索绝佳拍档

Llama都在用的RoPE(旋转位置嵌入)被扩展到视频领域,长视频理解和检索更强了。 复旦大学、上海AI实验室等提出VideoRoPE,并确定了将RoPE有效应用于视频所需的四个关键特性。 在长视频检索、视频理解和视频幻觉等各种下游任务中,VideoRoPE始终优于先前的RoPE变体。
2/19/2025 11:28:00 AM

DeepSeek-V3深入解读!

上一篇文章对DeepSeek-R1进行了详细的介绍,今天来看看DeepSeek-R1的基座模型DeepSeek-V3。 项目地址::现有的开源模型在性能和训练成本之间往往难以达到理想的平衡。 一方面,为了提升模型性能,需要增加模型规模和训练数据量,这会导致训练成本急剧上升;另一方面,高效的训练和推理架构对于降低计算资源消耗至关重要。
2/19/2025 10:49:30 AM
Glodma

官宣!OpenAI前CTO新公司:北大校友翁荔加盟,创始29人2/3来自OpenAI

正式官宣! OpenAI前CTO Mira Murati 成立新公司——Thinking Machines Lab。 整个创业团队可以说前所未有之豪华了,三分之二的都是以前的OpenAI旧部追随——其中包括OpenAI前研究(后训练)副总裁Barret Zoph,担任公司CTO;刚刚离职Anthropic、OpenAI离职联创John Schulman,任公司首席科学家,还有包括前OpenAI VP、北大校友翁荔等等。
2/19/2025 9:20:30 AM
量子位

Deepseek 这么厉害,普通人怎么用好它?

最近,Deepseek 的风头可谓是一时无两,相关消息一波接着一波。 它强大的能力让人惊叹不已,写代码、做翻译、生成文案……简直无所不能! 不少小伙伴跃跃欲试,却又担心自己不是程序员、不会写代码,用不好这么“高大上”的工具。
2/19/2025 8:50:05 AM
架构精进之路

前OpenAI CTO另立门户,2/3 ChatGPT骨干被挖!北大校友Lilian Weng加盟

离职近5个月,OpenAI前CTO Mira Murati终于官宣了! 新公司名叫「思考机器实验室」(Thinking Machines Lab),将人类价值观编码到AI模型中,让其更安全、更可靠。 Mira任CEO,OpenAI前后训练研究副总Barret Zoph任CTO,OpenAI联创John Schulman任首席科学家。
2/19/2025 8:29:27 AM
新智元

DeepSeek-R1详细解读!

DeepSeek-R1爆火,今天来详细看下。 论文地址::::现有LLMs在推理任务上的改进主要依赖监督微调(SFT)和后训练(Post-Training)方法,但这些方法需要大量人工标注数据且成本高昂。 OpenAI的o1系列模型虽通过扩展推理链(Chain-of-Thought, CoT)提升了性能,但其测试时扩展仍存在挑战。
2/19/2025 8:00:00 AM
GoldMa

基于Deepseek的安全分析工具设计实践

一、分享背景DeepSeek近日红的发紫,春节前发现一个叫Deepseek的LLM送 10 RMB的Token!!!,正巧符合生产工作中拥抱大模型的主旋律,又本着有羊毛必薅的原则配合B站ollama本地部署喂饭视频起了阿里qwen2.5(1.5b)就行Coding辅助。 ollama本地部署Coding模型复制step2:step3:效果:二、工具需求分析GUI化,免去命令行操作,12-80年龄段各类人群均适用。 固定的LLM回复结果,使每一次提问都能得到相同格式的回答(区分在线提问和工具脚本的关键)。
2/19/2025 7:59:06 AM
沈家伟

超简单:三步教你搞定DeepSeek本地部署

最近,国产AI神器DeepSeek爆火,其深度思考能力完美的体现了DeepSeek先进的算力和优越的性能。 可以这么说,DeepSeek的问世,推动了AI大模型的跨越式发展。 作为一款AI领域的现象级产品,DeepSeek的用户量在短时间内暴增,服务器也被大量攻击,不少小伙伴在使用DeepSeek时,经常会出现服务器繁忙的提示。
2/19/2025 7:53:19 AM
冰河