大模型
14B 小模型逆袭翻译赛道,论文财报实测超Claude,不信试试“我命由我不由天”
都说通用大模型轻松拿捏翻译,结果有人来掀桌了。 来自网易有道的14B翻译小模型,测试达行业第一,翻译质量超越一众国内外主流通用大模型。 它就是子曰翻译大模型2.0(下文简称子曰2.0),在英译中方面轻松超越Claude 3.5 Sonnet等12个主流通用大模型,中译英也和Claude 3.5 Sonnet达到同等水平。
3/13/2025 10:04:06 AM
量子位
大模型长文推理迎来“核弹级”提速!清华APBB框架狂飙10倍,Flash Attention直接被秒
还在为大模型处理长文本“龟速”而抓狂?别急!清华大学祭出“王炸”技术——APB 序列并行推理框架,直接给大模型装上“涡轮增压”引擎!实测显示,这项黑科技在处理超长文本时,速度竟比肩 Flash Attention 快10倍!没错,你没听错,是10倍!要知道,随着 ChatGPT 等大模型的爆火,AI 们“阅读”能力也水涨船高,动辄处理十几万字的长文不在话下。 然而,面对海量信息,传统大模型的“大脑”却有点卡壳—— Transformer 架构虽强,但其核心的注意力机制就像一个“超级扫描仪”,文本越长,扫描范围呈指数级膨胀,速度自然就慢了下来。 为了解决这个“卡脖子”难题,清华大学的科学家们联合多家研究机构和科技巨头,另辟蹊径,推出了 APB 框架。
3/13/2025 9:50:00 AM
AI在线
不需要 AI 和数学知识背景,这篇文章带你学会大模型应用开发
作者 | ronaldo最近几年,大模型在技术领域的火热程度属于一骑绝尘遥遥领先,不论是各种技术论坛还是开源项目,大多都围绕着大模型展开。 大模型的长期目标是实现AGI,这可能还有挺长的路要走,但是眼下它已经深刻地影响了“编程”领域。 各种copilot显著地提升了开发者的效率,但与此同时,开发者也变得非常地焦虑。
3/13/2025 8:00:00 AM
腾讯技术工程
科大讯飞依靠国产算力卡成功进入大模型研发梯队
近日,科大讯飞在互动平台上回答投资者提问,透露了其在国产算力领域的最新进展,引发广泛关注。 科大讯飞表示,凭借仅仅1万张910B 国产算力卡,他们已经跻身于大模型研发的第一梯队。 这一成绩令人瞩目,因为同类企业在此领域所需的算力往往远超此数。
3/11/2025 2:15:00 PM
AI在线
从鹦鹉学舌到灵魂对话,AI的人话革命
2030年,一位老人对家庭机器人说:“我想念年轻时在西湖划船的日子。 ”AI不仅能调出当年的老照片,还能结合实时天气与老人健康数据,规划一场安全舒适的怀旧之旅,并同步预约无人游船。 当机器对人类产生“主动关怀”,标志着AI从工具进化为“生活伴侣”。
3/11/2025 1:20:43 PM
佚名
基于Dify与DeepSeek:零门槛训练自己的专属AI大模型
在人工智能(AI)技术日益普及的今天,训练属于自己的AI大模型不再是遥不可及的梦想。 随着DeepSeek R1的发布,其部署成本仅为ChatGPT的十分之一,这一突破让更多企业和个人能够轻松参与AI开发。 未来,垂直领域的AI大模型和应用将如雨后春笋般涌现,这无疑是一个巨大的机遇。
3/11/2025 10:51:35 AM
冰河技术
字节跳动豆包大模型团队开源MoE架构优化技术,训练成本节省40%
字节跳动豆包大模型团队官宣开源一项针对 MoE(混合专家模型)架构的关键优化技术,可将大模型训练效率提升 1.7 倍,成本节省 40%。据悉,该技术叫做 COMET,已实际应用于字节的万卡集群训练,累计帮助节省了数百万 GPU 小时训练算力。
3/10/2025 5:42:41 PM
远洋
如何看待”首个真干活”AI—Manus?
话题背景今日凌晨,一款通用AI Agent产品「Manus」正式发布。 GAIA评分已超越OpenAI的DeepResearch,成为GAIA评分第一。 这一产品以“数字代理人”自居,宣称能独立完成复杂任务并交付完整成果,迅速成为科技圈的焦点。
3/10/2025 12:00:00 PM
腾讯技术工程
2025年AI投资热潮延续:九家美国公司获超亿美元融资
2024年是人工智能行业具有里程碑意义的一年,据TechCrunch统计,去年有49家初创公司获得了价值1亿美元或以上的融资,其中七家公司筹集了10亿美元以上资金,三家公司甚至获得了多轮"巨额融资"。 而2025年开年以来,这一势头不减。 尽管年初刚过,融资额超过1亿美元的美国AI公司数量已接近两位数,且已有一轮融资突破10亿美元大。
3/10/2025 10:00:43 AM
AI在线
大模型本地部署的“隐形炸弹”,你的数据安全吗?
作者 | 朱雀实验室随着DeepSeek R1等开源大模型的火爆,越来越多的开发者、企业甚至开始尝试在本地部署大语言模型,享受AI带来的便利。 然而近期腾讯混元安全团队-朱雀实验室发现:这些广受欢迎的AI工具中有不少存在安全隐患。 如果使用不当,攻击者可能窃取用户数据、滥用算力资源,甚至控制用户设备。
3/10/2025 9:10:00 AM
腾讯技术工程
Ollama的配置修改与接口调用
一、修改环境变量1.1 配置远程访问在我们本地部署好ollama之后,仅支持本机访问,我们可以通过修改环境变量让其他人可以远程访问。 在wins电脑上增加环境变量:复制1.2 配置本地模型路径1.2.1 本地模型默认路径wins本地模型默认路径:C:\Users\%username%\.ollama\models。 这里 %username% 是当前登录的用户名。
3/10/2025 9:00:00 AM
Python伊甸园
Ollama的介绍与测试
一、Ollama介绍Ollama是一个开源工具,专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计。 它提供了一个简洁高效的界面,让用户能够轻松地创建、执行和管理这些复杂的模型。 此外,Ollama还配备了一个丰富的预构建模型库,使得这些模型能够无缝集成到各种应用程序之中,大大提升了开发效率和用户体验。
3/10/2025 8:30:00 AM
Python伊甸园
Phi-4-multimodal:图、文、音频统一的多模态大模型架构、训练方法、数据细节
Phi-4-Multimodal 是一种参数高效的多模态模型,通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。 训练过程包括多阶段优化,确保在不同模式和任务上的性能,数据来源多样,覆盖高质量合成数据。 它的设计体现了小型语言模型在多模态任务上的潜力。
3/10/2025 2:00:00 AM
余俊晖
7B级形式化推理与验证小模型,媲美满血版DeepSeek-R1,全面开源!
研究团队构成:香港科技大学、中国科学院软件研究所、西安电子科技大学和重庆大学。 团队核心成员:香港科技大学的研究助理教授曹嘉伦,主要研究领域包括 AI&SE、人工智能测试、形式化验证等;中国科学院软件研究所副研究员陆垚杰,主要研究领域包括大语言模型及其应用。 随着 DeepSeek-R1 的流行与 AI4Math 研究的深入,大模型在辅助形式化证明写作方面的需求日益增长。
3/8/2025 3:46:00 PM
机器之心
阿里通义千问推理大模型QwQ-32B勇夺全球开源社区榜榜首
在全球最大的 AI 开源社区 HuggingFace 的最新更新中,阿里巴巴近期推出的通义千问推理模型 QwQ-32B 成功夺得了大模型榜单的第一名。 这一模型在刚发布后便引起了广泛关注,超越了诸如微软的 Phi-4和 DeepSeek-R1等知名模型,展现出了强大的性能。 QwQ-32B 模型在数学、代码处理及通用能力等多个方面都取得了质的飞跃,特别是其参数数量较小的特点,使得其整体性能能够与 DeepSeek-R1相媲美。
3/7/2025 1:58:00 PM
AI在线
FP8 训练新范式:减少 40% 显存占用,训练速度提高 1.4 倍
近期DeepSeek V3 引爆国内外的社交媒体,他们在训练中成功应用了 FP8 精度,显著降低了 GPU 内存使用和计算开销。 这表明,FP8 量化技术在优化大型模型训练方面正发挥着越来越重要的作用。 近期,来自伯克利,英伟达,MIT 和清华的研究者们提出了显存高效的 FP8 训练方法:COAT(Compressing Optimizer states and Activation for Memory-Efficient FP8 Training),致力于通过 FP8 量化来压缩优化器状态和激活值,从而提高内存利用率和训练速度。
3/7/2025 10:02:10 AM
机器之心
大模型系列:DeepSeek大模型与应用场景介绍
今天给大家聊聊DeepSeek 究竟有哪些强大的模型? 这些模型又适用于哪些具体的场景呢? 希望对大家了解 DeepSeek 大模型提供一些参考。
3/6/2025 7:28:31 AM
郝光明
资讯热榜
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
ChatGPT 语音功能升级,实时翻译对话更自然流畅
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
谷歌 Gemini 应用月下载量超越 ChatGPT,用户活跃度仍显不足
长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试
肝了30小时,Flux Kontext是我用过最稳、最能干活的AI图像模型!
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
数据
谷歌
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
生成式
开发者
蛋白质
腾讯
神经网络
研究
3D
生成
训练
苹果
计算
智能体
Sora
机器学习
AI设计
AI for Science
Claude
GPU
AI视频
人形机器人
华为
搜索
场景
百度
大语言模型
xAI
预测
伟达
深度学习
Transformer
字节跳动
Agent
模态
具身智能
神器推荐
LLaMA
文本
视觉
Copilot
算力
工具
LLM
驾驶
API
大型语言模型
应用
RAG
亚马逊