开源
超越DeepSeek-R1!阿里万相大模型登上全球开源榜首
今日,阿里巴巴股价在盘初阶段出现拉升,一度上涨超过4%,报价达到133.1港元。 这一市场表现与近期阿里巴巴在人工智能领域取得的显著进展密切相关。 据开源社区Hugging Face最新发布的榜单显示,阿里巴巴推出的万相大模型在开源仅6天后,便成功超越了DeepSeek-R1,一举登上了模型热榜和模型空间榜两大重要榜单的榜首。
3/3/2025 10:32:00 AM
AI在线
智谱华章完成超10亿元融资 计划开源新一代大模型
近日,北京智谱华章科技有限公司宣布其最新一轮战略融资金额超过10亿元人民币。 这轮融资的参与方包括杭州城投产业基金和上城资本等,显示了市场对智谱的强大信心与支持。 作为国内最早开源大模型的 AI 公司之一,智谱的目标是在2025年成为其开源发展的关键年份。
3/3/2025 10:04:00 AM
AI在线
智谱AI宣布完成新一笔金额超10亿元战略融资
近日,国内领先的人工智能企业智谱宣布完成了一笔金额超过10亿元人民币的战略融资。 此次融资由杭州城投产业基金、上城资本等多家投资机构共同参与,为智谱的进一步发展和技术创新注入了强劲动力。 据悉,这笔融资将主要用于推动国产基座GLM大模型的技术创新和生态发展。
3/3/2025 9:09:00 AM
AI在线
DeepSeek第五弹炸裂收官!开源全新并行文件系统,榨干SSD全部带宽
DeepSeek开源周,今日正式收官! 内容依旧惊喜且重磅,直接公开了V3和R1训练推理过程中用到的文件系统。 具体来说,包括以下两项内容:Fire-Flyer文件系统(简称3FS,第三个F代表File),一种利用现代SSD和RDMA网络的全部带宽的并行文件系统;Smallpond,基于3FS和DuckDB构建的轻量级数据处理框架。
3/3/2025 2:00:00 AM
百度文心大模型4.5将于3月16日发布 具备原生多模态、深度思考等能力
百度公司宣布,其最新的文心大模型4.5将于3月16日正式上线。 据悉,文心大模型是百度在人工智能领域的重要布局,自两年前首次发布以来,已在全球范围内产生了深远影响。 作为全球大厂中首个发布的生成式AI产品,文心大模型在不断发展壮大,而此次发布的4.5版本,在基础模型能力上有了大幅提升,并具备了原生多模态、深度思考等先进功能。
2/28/2025 2:00:00 PM
AI在线
DeepSeek开源周最后一天:让数据处理「从自行车升级到高铁」
DeepSeek 的开源周终于迎来了最后一天。 今天他们开源了一个名为 3FS(Fire-Flyer File System)的系统。 这是一种并行文件系统,它利用现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络的全部带宽,能够加速和推动 DeepSeek 平台上所有数据访问操作。
2/28/2025 10:36:25 AM
机器之心
DeepSeek 开源进度 5/5:高性能并行文件系统 3FS 实现聚合吞吐 6.6 TiB/s
2 月 28 日消息,DeepSeek 在开源周第五天发布了 3FS(Fire-Flyer File . System),这是一个专为充分利用现代 SSD 和 RDMA . 网络带宽而设计的并行文件系统,具备惊人的数据访问性能,为深度学习等数据密集型应用提供了强大的支持。
2/28/2025 10:01:06 AM
故渊
摩尔线程成功支持 DeepSeek 开源通信库 DeepEP 和并行算法 DualPipe
在 DeepSeek 开源周第四日,摩尔线程宣布已成功支持 DeepSeek 开源通信库 DeepEP 和并行算法 DualPipe,并发布相关开源代码仓库:MT-DeepEP 和 MT-DualPipe。
2/27/2025 11:39:00 PM
归泷(实习)
DeepSeek今日连开3源!针对优化的并行策略,梁文锋本人参与开发
按时整活! DeepSeek开源周第四天,直接痛快「1日3连发」,且全都围绕一个主题:优化并行策略。 DualPipe:一种创新的双向流水线并行算法,能够完全重叠前向和后向计算-通信阶段,并减少“流水线气泡”。
2/27/2025 1:10:00 PM
量子位
外网夸爆DeepSeek开源周!今天一口气开源3个重磅!压轴戏期待拉满,R2、V4、被提名
出品 | 51CTO技术栈(微信号:blog51cto)好家伙! DeepSeek是真的OpenAI啊! 在第四天的开源日中,竟然一口气放出三个重磅的优化并行策略代码库,而且又是V3/R1模型中的干货:DualPipe:一种优化的双向流水线并行算法,旨在优化V3/R1模型训练中的计算和通信重叠。
2/27/2025 12:31:40 PM
DeepSeek开源三箭齐发,梁文峰亲自上阵!双向并行LLM训练飙升
开源周第4天,DeepSeek放出的是——优化并行策略,一共三个项目。 DualPipe:一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法EPLB:一个针对V3/R1的专家并行负载均衡工具深入分析V3/R1模型中的计算与通信重叠机制值得一提的是,DualPipe是由三个人——Jiashi Li、Chengqi Deng和梁文峰共同研发。 有网友对此表示,这是一个颠覆性的突破。
2/27/2025 12:06:45 PM
新智元
DeepSeek 开源第二弹 DeepEP,但它究竟是个啥?(终于懂了...)
deepseek开源周,继Flash-MLA之后,开源了第二弹DeepEP。 画外音:上一顿还没消化完,新的大餐又来了。 今天简单聊聊:吃瓜:DeepEP是干嘛的?
2/27/2025 9:40:00 AM
58沈剑
分析一下EP并行和DeepSeek开源的DeepEP代码
被好几个团队的人追着要渣B来分析一下DeepEP的工作, 公司内外的团队都有...简单的一句话说, 非常棒的工作,很多细节都值得学习. 但是还有一些硬件上的缺陷, 在DeepSeek-V3的论文中提出的建议要结合在一起看就会更清楚了. 我们还是由浅入深来谈谈EP并行, 并进一步分析一下这份出色的工作.
2/27/2025 9:06:34 AM
渣B
手把手演示 IDEA 如何接入 DeepSeek,你学会了吗?
本文介绍如何在 IntelliJ IDEA 中集成 DeepSeek , 并展示如何利用它来提升开发效率 。 1.安装 CodeGPT 插件图片在插件市场里,搜索 CodeGPT ,安装即可。 假如网络安装慢,可以从插件下载地址,直接下载。
2/26/2025 10:31:35 AM
勇哥
DeepSeek开源周第3天:发布DeepGEMM,FP8 GEMM库助力AI训练与推理
中国人工智能公司DeepSeek在其“开源周”第3天宣布推出DeepGEMM——一款支持FP8通用矩阵乘法(GEMM)的开源库。 这一工具专为密集型和混合专家(MoE)矩阵运算设计,为DeepSeek V3和R1模型的训练与推理提供强大支持。 官方消息通过X平台发布,迅速引发技术社区的热烈反响。
2/26/2025 9:33:00 AM
AI在线
DeepSeek开源放大招:FlashMLA让H800算力狂飙!曝光低成本秘笈
就在刚刚,DeepSeek放出了开源周首日的重磅炸弹——FlashMLA。 这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核,特别针对变长序列进行了优化,目前已正式投产使用。 经实测,FlashMLA在H800 SXM5平台上(CUDA 12.6),在内存受限配置下可达最高3000GB/s,在计算受限配置下可达峰值580 TFLOPS。
2/24/2025 11:32:57 AM
dream
国产 AI 大模型加速迭代,厂商迈向开源、集聚化
据央视新闻报道,在上海举行的 2025 全球开发者先锋大会上,多家厂商展示了自家在 AI 大模型方面的落地应用,涉及“可跟随使用者的抚摸和语言随机互动的AI仿生宠物”、“城市节水AI智能系统”等。
2/23/2025 9:19:42 PM
归泷(实习)
刚刚,DeepSeek官宣:下周将是重磅开源周!网友:真正的OpenAI来了!
DeepSeek在X上发布推文,为即将到来的开源周预热。 下周起,DeepSeek将连续开源5个代码库! DeepSeek的通知翻译如下:我们是一个小团队@deepseek_ai ,正在探索 AGI。
2/21/2025 3:18:20 PM
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
英伟达
Anthropic
代码
算法
Stable Diffusion
训练
芯片
开发者
蛋白质
腾讯
生成式
苹果
LLM
神经网络
AI新词
Claude
3D
研究
生成
机器学习
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
模态
架构
LLaMA