DeepSeek
DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本
DeepSeek新注意力机制论文一出,再次引爆讨论热度。 依然是熟悉的画风,熟悉的味道——那边马斯克疯狂烧了20万张卡训出Grok 3,这厢DeepSeek重点关注的依然是压缩计算和推理成本。 具体来说,新论文提出了一种可原生训练的稀疏注意力机制,名为NSA(Native Sparse Attention)。
2/19/2025 4:01:37 PM
量子位
李彦宏最新财报会议内容流出:百度从DeepSeek身上学到了一件事;调用量涨30倍百度AI搜索的打法;50亿股票回购回馈股东
编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)开年,各大科技巨头都被DeepSeek狠狠冲击已经近三周。 本周将会迎来各大公司的2024的Q4财报会议。 百度率先公开了过去三个月取得的成绩。
2/19/2025 4:01:29 PM
言征
Spring Boot 接入 DeepSeek API:实现智能应用的全新路径
在数字化时代,人工智能技术的飞速发展为各行业带来了前所未有的变革机遇。 自然语言处理作为 AI 领域的重要分支,正逐渐渗透到我们日常生活的方方面面,从智能客服、文本生成到知识问答等应用场景,其价值不断凸显。 DeepSeek 作为一种先进且功能强大的自然语言处理 API,为开发者提供了高效、精准的语言理解和生成能力。
2/19/2025 4:00:00 PM
Java技术营地
Nature推荐的大模型,现如今最好用的AI工具应当更好地助力科学研究
编辑丨toileterAI 大模型的演变随着时间呈现出井喷的增长趋势,几乎每周甚至于没几天就会有全新的 AI 工具被推出,引来蜂拥而至的研究人员去尝试它们。 现如今花样百出的 AI 工具,让研究者们无论在何种需求上都能自行配置最得心应手的模型,每个大型语言模型 (LLM) 都得以适配不同的任务需要。 总部位于华盛顿州西雅图的 Fred Hutchinson 癌症中心的数据科学家 Carrie Wright 表示,尽管 LLM 会产生类似人类的反应,但它们仍然太容易出错,无法单独使用。
2/19/2025 3:02:19 PM
ScienceAI
浙大满血版 DeepSeek 上线免费使用:无惧系统繁忙,全国 829 所 CARSI 联盟高校开放共享
通过 CARSI 联盟,全国 829 所高校的师生可以直接登录 chat.zju.edu.cn,免费使用 DeepSeek V3 / R1 模型及其它智能体应用,打破校园 IP 的限制。2 月 20 日起,该入口将正式开放。
2/19/2025 2:03:18 PM
汪淼
DeepSeek满血微调秘籍开源!站在巨人肩膀打造私有模型,一手教程在此
DeepSeek爆火甚至引发API低价内卷……但是别忘了开源模型的最大好处是提供了“巨人的肩膀”啊! 微调DeepSeek-V3/R1,低成本打造高质量私有模型、提高业务竞争力,或许才是当下行业内更迫切的需求。 就在刚刚,已收获近4万GitHub StarColossal-AI发布开源大模型后训练工具箱,它包含:DeepSeek-V3/R1满血671B LoRA低成本SFT微调;完整的强化学习工具链PPO、GRPO、DPO、SimPO等;无缝适配DeepSeek系列蒸馏模型在内的HuggingFace开源模型;兼容支持英伟达GPU、华为昇腾NPU等多种硬件;支持混合精度训练,gradient checkpoint等训练加速降低成本;灵活的训练配置接口,支持自定义奖励函数、损失函数等;提供灵活的并行策略配置接口,包括数据并行、模型并行、专家并行、ZeRO和Offload等,以适应不同硬件规模。
2/19/2025 2:02:11 PM
量子位
水滴公司接入 DeepSeek,赋能研发 AI 保险专家
水滴公司正式宣布接入 DeepSeek 模型产品,进一步丰富其保险大模型的生态布局。 这一举措将为公司的业务发展注入强劲动力,推动大模型技术在保险行业的广泛应用,尤其是在销售辅助、质量检测、风险控制以及产品创新等关键环节的智能化解决方案方面。 借助这一新技术,水滴公司研发的 “AI 保险专家” 已经能够支持多种交互形式,包括语音和文本。
2/19/2025 2:00:51 PM
AI在线
Spring Boot + DeepSeek:解锁 AI 开发新姿势
在当今数字化时代,人工智能(AI)技术正以前所未有的速度改变着我们的生活和工作方式。 作为开发者,我们一直在寻找更高效、更智能的方式来构建应用程序。 今天,我们要为大家介绍一个强大的组合:Spring Boot DeepSeek,这将为你的应用注入智能新动力,开启 AI 开发的新篇章。
2/19/2025 12:00:00 PM
Java技术营地
DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍
DeepSeek V3/ R1 火爆全网,基于原始模型的解决方案和 API 服务已随处可见,陷入低价和免费内卷。 如何站在巨人肩膀上,通过后训练(post-training)结合专业领域数据,低成本打造高质量私有模型,提升业务竞争力与价值? 已收获近 4 万 GitHub Star 的 Colossal-AI,发布开源大模型后训练工具箱,包含:DeepSeek V3/ R1 满血 671B LoRA 低成本 SFT 微调;完整的强化学习工具链 PPO,GRPO,DPO,SimPO 等;无缝适配 DeepSeek 系列蒸馏模型在内的 HuggingFace 开源模型;兼容支持英伟达 GPU、华为昇腾 NPU 等多种硬件;支持混合精度训练,gradient checkpoint 等训练加速降低成本;灵活的训练配置接口,支持自定义奖励函数、损失函数等;提供灵活的并行策略配置接口,包括数据并行、模型并行、专家并行、ZeRO 和 Offload 等,以适应不同硬件规模。
2/19/2025 11:56:00 AM
机器之心
百度旗下小度官宣接入DeepSeek
今日,百度旗下小度正式官宣接入DeepSeek。 据了解,在此之前,百度地图、百度搜索、百度 Apollo智舱大模型、文心一言、文小言App等已相继接入DeepSeek。 2月13日,百度发文透露,随着文心大模型的迭代升级和成本的不断优化,文心一言将于4月1日起全面免费开放,届时所有PC端和APP端用户都将有机会体验到文心系列的最新模型。
2/19/2025 11:16:00 AM
AI在线
DeepSeek-V3深入解读!
上一篇文章对DeepSeek-R1进行了详细的介绍,今天来看看DeepSeek-R1的基座模型DeepSeek-V3。 项目地址::现有的开源模型在性能和训练成本之间往往难以达到理想的平衡。 一方面,为了提升模型性能,需要增加模型规模和训练数据量,这会导致训练成本急剧上升;另一方面,高效的训练和推理架构对于降低计算资源消耗至关重要。
2/19/2025 10:49:30 AM
Glodma
腾讯新搞了个深度思考模型,我们拿它和DeepSeek掐架
AI好好用报道编辑:杨文这波「左右互搏」有看头了。 腾讯向来以「慢」著称。 无论是游戏、搜索还是音乐、短视频,腾讯都比其他家慢了半拍。
2/19/2025 10:27:00 AM
AI好好用
神州信息引入国产开源大模型 DeepSeek
近日,神州信息宣布引入国产开源大模型 DeepSeek,旨在实现其全栈金融解决方案的智能化升级。 这一举措不仅标志着技术的迭代,也为银行客户带来了低成本且安全的私域环境部署。 通过 DeepSeek 的接入,神州信息旗下九大产品线及30多款关键业务解决方案得到了智能化的全面提升,涵盖了零售客户运营、数字化渠道、开放银行、信贷业务、数据智能及企业级中台等多个领域。
2/19/2025 10:04:00 AM
AI在线
李彦宏解读文心大模型 4.5 开源的意义:开源促进技术普及
在最近的财报电话会上,百度创始人李彦宏就文心大模型4.5系列的开源决策进行了深入的分析。 他表示,从其自主研发的 DeepSeek 项目中,百度深刻认识到开源的最佳模型将大大推动用户的使用和接受程度。 当一个强大的模型实现开源时,自然会吸引更多的人出于好奇心进行尝试,这样的行为不仅能够促进技术的普及,也会带来更广泛的应用。
2/19/2025 10:02:00 AM
AI在线
Deepseek 这么厉害,普通人怎么用好它?
最近,Deepseek 的风头可谓是一时无两,相关消息一波接着一波。 它强大的能力让人惊叹不已,写代码、做翻译、生成文案……简直无所不能! 不少小伙伴跃跃欲试,却又担心自己不是程序员、不会写代码,用不好这么“高大上”的工具。
2/19/2025 8:50:05 AM
架构精进之路
掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!
DeepSeek 这次直接把桌子掀了! 继把大模型价格打到地板价后,他们最新开源的多模态模型更狠——不仅看得懂《清明上河图》的细节,还能照着你的描述生图。 这个多模态模型就是他们悄悄开源的“双脑”视觉模型 Janus-Pro,被称为“左脑能当福尔摩斯解密图片,右脑能当画家挥毫泼墨。
2/19/2025 8:45:43 AM
言川Artie
短期高估、长期低估:微信接入DeepSeek的产品深度思考
微信搜索接入 DeepSeek 后,我看到了太多 DeepSeek 生成的水文,也看到了太多“王炸”、“里程碑”、“深水炸弹”、“重构 AI 搜索”、“游戏终结”等虎狼之词。 比如这篇,直接把 DeepSeek 幻觉搬上来了. 实在忍不住了,决定出来基于事实和逻辑来一版的冷静分析。
2/19/2025 8:41:48 AM
DeepSeek-R1详细解读!
DeepSeek-R1爆火,今天来详细看下。 论文地址::::现有LLMs在推理任务上的改进主要依赖监督微调(SFT)和后训练(Post-Training)方法,但这些方法需要大量人工标注数据且成本高昂。 OpenAI的o1系列模型虽通过扩展推理链(Chain-of-Thought, CoT)提升了性能,但其测试时扩展仍存在挑战。
2/19/2025 8:00:00 AM
GoldMa
资讯热榜
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
苹果将 ChatGPT 和其他 AI 模型引入 Xcode
消息称 OpenAI 已同谷歌敲定一份云 AI 算力交易,减少对微软依赖
苹果 WWDC 2025:iOS 26升级视觉智能,AI 助力屏幕内容识别
“程序员炸锅”!Claude一夜撤离 Windsurf,OpenAI 收购遭"精准狙击"
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
Meta
GPT
学习
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
英伟达
代码
Anthropic
芯片
开发者
生成式
蛋白质
腾讯
神经网络
训练
3D
研究
生成
智能体
苹果
计算
机器学习
Sora
AI设计
Claude
AI for Science
GPU
AI视频
人形机器人
搜索
华为
百度
场景
大语言模型
xAI
预测
伟达
深度学习
Transformer
LLM
字节跳动
Agent
模态
具身智能
神器推荐
工具
文本
视觉
LLaMA
算力
Copilot
驾驶
大型语言模型
API
RAG
应用
架构