DeepSeek
从大模型性能优化到DeepSeek部署
一、背景Deepseek-r1模型的爆火标志着本地部署大模型的需求日益增长。 本文主要探讨如何优化本地部署大模型的性能,并结合我们的实践进行评测分析,文章最后我们将分享如何在本地高效部署满血版Deepseek-r1大模型。 在生产环境中,我们已部署专用的大模型推理集群,并对其性能进行了全面优化。
2/20/2025 9:27:46 AM
menglinggong
多地政务服务系统接入DeepSeek大模型 服务效率大提升
随着人工智能技术的迅速发展,越来越多的地方政府开始将 AI 引入政务服务,试图通过智能化手段提升服务质量和效率。 近期,北京经济技术开发区和深圳福田区纷纷上线了基于 DeepSeek 大模型的智能政务助手,标志着 AI 在政务领域的应用迈出了重要一步。 在北京经济技术开发区,新的智能政务小助手经过多家企业的测试后正式投入使用。
2/20/2025 9:23:00 AM
AI在线
DeepSeek 被曝首次考虑进行外部融资,巨头阿里巴巴有意参投
外媒 The Information 报道提到,由于其 AI 模型大受欢迎,因而要增加资源投放以满足明显增加的需求,所以促成内部讨论引入更多投资者。
2/20/2025 1:26:23 AM
汪淼
DeepSeek服务器繁忙?实测30个接入平台,28个快速直达!
一、现象级表现. DeepSeek 自发布以来,热度直逼两年前 ChatGPT 横空出世的时候。 英伟达、亚马逊、微软等巨头率先接入,国内厂商也迅速跟进。
2/20/2025 12:35:33 AM
AI设计师Lena
DeepSeek公务员上岗!公务员铁饭碗不保?
图片2月18日,“AI公务员上岗”冲上热搜第一名,在深圳福田区率先推出基于DeepSeek开发的AI数字员工,首批70名上岗。 这一事件标志着智能体技术从实验室走向社会治理的第一线,开启人机协作的新纪元。 据介绍,福田这70名新员工可实现:公文格式修正准确率超 95%,审核时间缩短90%错误率控制在 5%以内;“执法文书生成助手”将执法笔录秒级生成执法文书初稿;民生诉求分拨准确率从70%提升至95%;“AI招商助手”企业分析筛选效率提升 30%……“幸福福田”官微显示,广东深圳福田区推出基于DeepSeek开发的AI数智员工,上线福田区政务大模型2.0版,除了有DeepSeek通用能力外,还结合各部门各单位实际业务流程,量身定制个性化智能体,首批满足240个业务场景使用。
2/20/2025 12:00:00 AM
数仓宝贝库
DeepSeek 清华原版宝典:工作、学习、生活、科研中的难题,轻松搞定
这次给大家分享的 PDF 下载,是原汁原味的原版哦,网上有太多卖课者魔改的内置其广告版本。
2/19/2025 8:03:48 PM
泓澄
理想同学 App 接入 DeepSeek R1 满血版
理想汽车官方今日发文宣布,理想汽车旗下人工智能助手理想同学 App 全面接入 DeepSeek R1&V3 671B 满血版,支持与理想自研 MindGPT 大模型的双向切换。
2/19/2025 6:28:25 PM
归泷(实习)
DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本
DeepSeek新注意力机制论文一出,再次引爆讨论热度。 依然是熟悉的画风,熟悉的味道——那边马斯克疯狂烧了20万张卡训出Grok 3,这厢DeepSeek重点关注的依然是压缩计算和推理成本。 具体来说,新论文提出了一种可原生训练的稀疏注意力机制,名为NSA(Native Sparse Attention)。
2/19/2025 4:01:37 PM
量子位
李彦宏最新财报会议内容流出:百度从DeepSeek身上学到了一件事;调用量涨30倍百度AI搜索的打法;50亿股票回购回馈股东
编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)开年,各大科技巨头都被DeepSeek狠狠冲击已经近三周。 本周将会迎来各大公司的2024的Q4财报会议。 百度率先公开了过去三个月取得的成绩。
2/19/2025 4:01:29 PM
言征
Spring Boot 接入 DeepSeek API:实现智能应用的全新路径
在数字化时代,人工智能技术的飞速发展为各行业带来了前所未有的变革机遇。 自然语言处理作为 AI 领域的重要分支,正逐渐渗透到我们日常生活的方方面面,从智能客服、文本生成到知识问答等应用场景,其价值不断凸显。 DeepSeek 作为一种先进且功能强大的自然语言处理 API,为开发者提供了高效、精准的语言理解和生成能力。
2/19/2025 4:00:00 PM
Java技术营地
Nature推荐的大模型,现如今最好用的AI工具应当更好地助力科学研究
编辑丨toileterAI 大模型的演变随着时间呈现出井喷的增长趋势,几乎每周甚至于没几天就会有全新的 AI 工具被推出,引来蜂拥而至的研究人员去尝试它们。 现如今花样百出的 AI 工具,让研究者们无论在何种需求上都能自行配置最得心应手的模型,每个大型语言模型 (LLM) 都得以适配不同的任务需要。 总部位于华盛顿州西雅图的 Fred Hutchinson 癌症中心的数据科学家 Carrie Wright 表示,尽管 LLM 会产生类似人类的反应,但它们仍然太容易出错,无法单独使用。
2/19/2025 3:02:19 PM
ScienceAI
浙大满血版 DeepSeek 上线免费使用:无惧系统繁忙,全国 829 所 CARSI 联盟高校开放共享
通过 CARSI 联盟,全国 829 所高校的师生可以直接登录 chat.zju.edu.cn,免费使用 DeepSeek V3 / R1 模型及其它智能体应用,打破校园 IP 的限制。2 月 20 日起,该入口将正式开放。
2/19/2025 2:03:18 PM
汪淼
DeepSeek满血微调秘籍开源!站在巨人肩膀打造私有模型,一手教程在此
DeepSeek爆火甚至引发API低价内卷……但是别忘了开源模型的最大好处是提供了“巨人的肩膀”啊! 微调DeepSeek-V3/R1,低成本打造高质量私有模型、提高业务竞争力,或许才是当下行业内更迫切的需求。 就在刚刚,已收获近4万GitHub StarColossal-AI发布开源大模型后训练工具箱,它包含:DeepSeek-V3/R1满血671B LoRA低成本SFT微调;完整的强化学习工具链PPO、GRPO、DPO、SimPO等;无缝适配DeepSeek系列蒸馏模型在内的HuggingFace开源模型;兼容支持英伟达GPU、华为昇腾NPU等多种硬件;支持混合精度训练,gradient checkpoint等训练加速降低成本;灵活的训练配置接口,支持自定义奖励函数、损失函数等;提供灵活的并行策略配置接口,包括数据并行、模型并行、专家并行、ZeRO和Offload等,以适应不同硬件规模。
2/19/2025 2:02:11 PM
量子位
水滴公司接入 DeepSeek,赋能研发 AI 保险专家
水滴公司正式宣布接入 DeepSeek 模型产品,进一步丰富其保险大模型的生态布局。 这一举措将为公司的业务发展注入强劲动力,推动大模型技术在保险行业的广泛应用,尤其是在销售辅助、质量检测、风险控制以及产品创新等关键环节的智能化解决方案方面。 借助这一新技术,水滴公司研发的 “AI 保险专家” 已经能够支持多种交互形式,包括语音和文本。
2/19/2025 2:00:51 PM
AI在线
Spring Boot + DeepSeek:解锁 AI 开发新姿势
在当今数字化时代,人工智能(AI)技术正以前所未有的速度改变着我们的生活和工作方式。 作为开发者,我们一直在寻找更高效、更智能的方式来构建应用程序。 今天,我们要为大家介绍一个强大的组合:Spring Boot DeepSeek,这将为你的应用注入智能新动力,开启 AI 开发的新篇章。
2/19/2025 12:00:00 PM
Java技术营地
DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍
DeepSeek V3/ R1 火爆全网,基于原始模型的解决方案和 API 服务已随处可见,陷入低价和免费内卷。 如何站在巨人肩膀上,通过后训练(post-training)结合专业领域数据,低成本打造高质量私有模型,提升业务竞争力与价值? 已收获近 4 万 GitHub Star 的 Colossal-AI,发布开源大模型后训练工具箱,包含:DeepSeek V3/ R1 满血 671B LoRA 低成本 SFT 微调;完整的强化学习工具链 PPO,GRPO,DPO,SimPO 等;无缝适配 DeepSeek 系列蒸馏模型在内的 HuggingFace 开源模型;兼容支持英伟达 GPU、华为昇腾 NPU 等多种硬件;支持混合精度训练,gradient checkpoint 等训练加速降低成本;灵活的训练配置接口,支持自定义奖励函数、损失函数等;提供灵活的并行策略配置接口,包括数据并行、模型并行、专家并行、ZeRO 和 Offload 等,以适应不同硬件规模。
2/19/2025 11:56:00 AM
机器之心
百度旗下小度官宣接入DeepSeek
今日,百度旗下小度正式官宣接入DeepSeek。 据了解,在此之前,百度地图、百度搜索、百度 Apollo智舱大模型、文心一言、文小言App等已相继接入DeepSeek。 2月13日,百度发文透露,随着文心大模型的迭代升级和成本的不断优化,文心一言将于4月1日起全面免费开放,届时所有PC端和APP端用户都将有机会体验到文心系列的最新模型。
2/19/2025 11:16:00 AM
AI在线
DeepSeek-V3深入解读!
上一篇文章对DeepSeek-R1进行了详细的介绍,今天来看看DeepSeek-R1的基座模型DeepSeek-V3。 项目地址::现有的开源模型在性能和训练成本之间往往难以达到理想的平衡。 一方面,为了提升模型性能,需要增加模型规模和训练数据量,这会导致训练成本急剧上升;另一方面,高效的训练和推理架构对于降低计算资源消耗至关重要。
2/19/2025 10:49:30 AM
Glodma
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
模态
字节跳动
Claude
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
科技
亚马逊
智能体
DeepMind
特斯拉