理论
OpenAI的GPT-5即将问世:目前我们所知道的一切
想象一下,一个能浏览互联网、理解世界、记忆事物,还能像人一样自然聊天并进行复杂推理的AI。 这听起来像科幻电影里的情节,但实际上,这样的技术已经离我们不远了。 随着ChatGPT的不断进化,其最新版本GPT-5即将横空出世,预示着AI正朝着通用智能的目标大步迈进。
2/20/2025 11:20:41 AM
Bernard Marr
新突破!中国电信复现DeepSeek R1,探索行业大模型建设新路径
DeepSeek是由深度求索开发的低成本、高性能开源大语言模型,该模型通过强化学习与混合专家结构(MOE)的技术创新,以工程优化突破硬件限制,实现了“算力需求下降但性能提升”的反共识路径。 开源策略重塑了AI生态,为全球开发者提供普惠工具,标志着从“算力堆砌”向“算法效率”的产业转型。 中国电信政企信息服务事业群DeepSeek攻坚团队紧跟技术潮流,基于行业数据复现R1模型,提出行业大模型优化的新思路。
2/20/2025 11:12:11 AM
从大模型性能优化到DeepSeek部署
一、背景Deepseek-r1模型的爆火标志着本地部署大模型的需求日益增长。 本文主要探讨如何优化本地部署大模型的性能,并结合我们的实践进行评测分析,文章最后我们将分享如何在本地高效部署满血版Deepseek-r1大模型。 在生产环境中,我们已部署专用的大模型推理集群,并对其性能进行了全面优化。
2/20/2025 9:27:46 AM
menglinggong
DeepSeek公务员上岗!公务员铁饭碗不保?
图片2月18日,“AI公务员上岗”冲上热搜第一名,在深圳福田区率先推出基于DeepSeek开发的AI数字员工,首批70名上岗。 这一事件标志着智能体技术从实验室走向社会治理的第一线,开启人机协作的新纪元。 据介绍,福田这70名新员工可实现:公文格式修正准确率超 95%,审核时间缩短90%错误率控制在 5%以内;“执法文书生成助手”将执法笔录秒级生成执法文书初稿;民生诉求分拨准确率从70%提升至95%;“AI招商助手”企业分析筛选效率提升 30%……“幸福福田”官微显示,广东深圳福田区推出基于DeepSeek开发的AI数智员工,上线福田区政务大模型2.0版,除了有DeepSeek通用能力外,还结合各部门各单位实际业务流程,量身定制个性化智能体,首批满足240个业务场景使用。
2/20/2025 12:00:00 AM
数仓宝贝库
DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本
DeepSeek新注意力机制论文一出,再次引爆讨论热度。 依然是熟悉的画风,熟悉的味道——那边马斯克疯狂烧了20万张卡训出Grok 3,这厢DeepSeek重点关注的依然是压缩计算和推理成本。 具体来说,新论文提出了一种可原生训练的稀疏注意力机制,名为NSA(Native Sparse Attention)。
2/19/2025 4:01:37 PM
量子位
OpenAI掀「百万美金」编程大战!Claude 3.5 Sonnet狂赚40万拿下第一
昨天马斯克刚刚发布了号称「地表最聪明」的Grok 3模型,抢走了所有关注。 这边OpenAI就开始坐不住了,立刻扔出了SWE-Lancer(AI编码测试基准),看一下AI到底能在现实任务中挣到多少钱。 SWE-Lance是一个全新的、更贴近现实的基准测试,用于评估AI模型的编码性能。
2/19/2025 4:01:37 PM
新智元
李彦宏最新财报会议内容流出:百度从DeepSeek身上学到了一件事;调用量涨30倍百度AI搜索的打法;50亿股票回购回馈股东
编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)开年,各大科技巨头都被DeepSeek狠狠冲击已经近三周。 本周将会迎来各大公司的2024的Q4财报会议。 百度率先公开了过去三个月取得的成绩。
2/19/2025 4:01:29 PM
言征
Spring Boot 接入 DeepSeek API:实现智能应用的全新路径
在数字化时代,人工智能技术的飞速发展为各行业带来了前所未有的变革机遇。 自然语言处理作为 AI 领域的重要分支,正逐渐渗透到我们日常生活的方方面面,从智能客服、文本生成到知识问答等应用场景,其价值不断凸显。 DeepSeek 作为一种先进且功能强大的自然语言处理 API,为开发者提供了高效、精准的语言理解和生成能力。
2/19/2025 4:00:00 PM
Java技术营地
DeepSeek满血微调秘籍开源!站在巨人肩膀打造私有模型,一手教程在此
DeepSeek爆火甚至引发API低价内卷……但是别忘了开源模型的最大好处是提供了“巨人的肩膀”啊! 微调DeepSeek-V3/R1,低成本打造高质量私有模型、提高业务竞争力,或许才是当下行业内更迫切的需求。 就在刚刚,已收获近4万GitHub StarColossal-AI发布开源大模型后训练工具箱,它包含:DeepSeek-V3/R1满血671B LoRA低成本SFT微调;完整的强化学习工具链PPO、GRPO、DPO、SimPO等;无缝适配DeepSeek系列蒸馏模型在内的HuggingFace开源模型;兼容支持英伟达GPU、华为昇腾NPU等多种硬件;支持混合精度训练,gradient checkpoint等训练加速降低成本;灵活的训练配置接口,支持自定义奖励函数、损失函数等;提供灵活的并行策略配置接口,包括数据并行、模型并行、专家并行、ZeRO和Offload等,以适应不同硬件规模。
2/19/2025 2:02:11 PM
量子位
Spring Boot + DeepSeek:解锁 AI 开发新姿势
在当今数字化时代,人工智能(AI)技术正以前所未有的速度改变着我们的生活和工作方式。 作为开发者,我们一直在寻找更高效、更智能的方式来构建应用程序。 今天,我们要为大家介绍一个强大的组合:Spring Boot DeepSeek,这将为你的应用注入智能新动力,开启 AI 开发的新篇章。
2/19/2025 12:00:00 PM
Java技术营地
Llama都在用的RoPE有了视频版,复旦上海AI Lab等提出长视频理解/检索绝佳拍档
Llama都在用的RoPE(旋转位置嵌入)被扩展到视频领域,长视频理解和检索更强了。 复旦大学、上海AI实验室等提出VideoRoPE,并确定了将RoPE有效应用于视频所需的四个关键特性。 在长视频检索、视频理解和视频幻觉等各种下游任务中,VideoRoPE始终优于先前的RoPE变体。
2/19/2025 11:28:00 AM
DeepSeek-V3深入解读!
上一篇文章对DeepSeek-R1进行了详细的介绍,今天来看看DeepSeek-R1的基座模型DeepSeek-V3。 项目地址::现有的开源模型在性能和训练成本之间往往难以达到理想的平衡。 一方面,为了提升模型性能,需要增加模型规模和训练数据量,这会导致训练成本急剧上升;另一方面,高效的训练和推理架构对于降低计算资源消耗至关重要。
2/19/2025 10:49:30 AM
Glodma
官宣!OpenAI前CTO新公司:北大校友翁荔加盟,创始29人2/3来自OpenAI
正式官宣! OpenAI前CTO Mira Murati 成立新公司——Thinking Machines Lab。 整个创业团队可以说前所未有之豪华了,三分之二的都是以前的OpenAI旧部追随——其中包括OpenAI前研究(后训练)副总裁Barret Zoph,担任公司CTO;刚刚离职Anthropic、OpenAI离职联创John Schulman,任公司首席科学家,还有包括前OpenAI VP、北大校友翁荔等等。
2/19/2025 9:20:30 AM
量子位
Deepseek 这么厉害,普通人怎么用好它?
最近,Deepseek 的风头可谓是一时无两,相关消息一波接着一波。 它强大的能力让人惊叹不已,写代码、做翻译、生成文案……简直无所不能! 不少小伙伴跃跃欲试,却又担心自己不是程序员、不会写代码,用不好这么“高大上”的工具。
2/19/2025 8:50:05 AM
架构精进之路
前OpenAI CTO另立门户,2/3 ChatGPT骨干被挖!北大校友Lilian Weng加盟
离职近5个月,OpenAI前CTO Mira Murati终于官宣了! 新公司名叫「思考机器实验室」(Thinking Machines Lab),将人类价值观编码到AI模型中,让其更安全、更可靠。 Mira任CEO,OpenAI前后训练研究副总Barret Zoph任CTO,OpenAI联创John Schulman任首席科学家。
2/19/2025 8:29:27 AM
新智元
DeepSeek-R1详细解读!
DeepSeek-R1爆火,今天来详细看下。 论文地址::::现有LLMs在推理任务上的改进主要依赖监督微调(SFT)和后训练(Post-Training)方法,但这些方法需要大量人工标注数据且成本高昂。 OpenAI的o1系列模型虽通过扩展推理链(Chain-of-Thought, CoT)提升了性能,但其测试时扩展仍存在挑战。
2/19/2025 8:00:00 AM
GoldMa
基于Deepseek的安全分析工具设计实践
一、分享背景DeepSeek近日红的发紫,春节前发现一个叫Deepseek的LLM送 10 RMB的Token!!!,正巧符合生产工作中拥抱大模型的主旋律,又本着有羊毛必薅的原则配合B站ollama本地部署喂饭视频起了阿里qwen2.5(1.5b)就行Coding辅助。 ollama本地部署Coding模型复制step2:step3:效果:二、工具需求分析GUI化,免去命令行操作,12-80年龄段各类人群均适用。 固定的LLM回复结果,使每一次提问都能得到相同格式的回答(区分在线提问和工具脚本的关键)。
2/19/2025 7:59:06 AM
沈家伟
超简单:三步教你搞定DeepSeek本地部署
最近,国产AI神器DeepSeek爆火,其深度思考能力完美的体现了DeepSeek先进的算力和优越的性能。 可以这么说,DeepSeek的问世,推动了AI大模型的跨越式发展。 作为一款AI领域的现象级产品,DeepSeek的用户量在短时间内暴增,服务器也被大量攻击,不少小伙伴在使用DeepSeek时,经常会出现服务器繁忙的提示。
2/19/2025 7:53:19 AM
冰河
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
英伟达
Anthropic
论文
代码
AI新词
训练
算法
Stable Diffusion
芯片
LLM
蛋白质
开发者
腾讯
Claude
苹果
生成式
AI for Science
Agent
神经网络
3D
机器学习
研究
xAI
生成
人形机器人
AI视频
计算
百度
Sora
GPU
AI设计
华为
工具
大语言模型
RAG
搜索
具身智能
字节跳动
大型语言模型
场景
深度学习
预测
视频生成
伟达
视觉
Transformer
AGI
架构
亚马逊
神器推荐
Copilot
DeepMind
特斯拉
应用