大模型

14B 小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

都说通用大模型轻松拿捏翻译，结果有人来掀桌了。来自网易有道的14B翻译小模型，测试达行业第一，翻译质量超越一众国内外主流通用大模型。它就是子曰翻译大模型2.0（下文简称子曰2.0），在英译中方面轻松超越Claude 3.5 Sonnet等12个主流通用大模型，中译英也和Claude 3.5 Sonnet达到同等水平。

3/13/2025 10:04:06 AM

量子位

大模型长文推理迎来“核弹级”提速！清华APBB框架狂飙10倍，Flash Attention直接被秒

还在为大模型处理长文本“龟速”而抓狂?别急!清华大学祭出“王炸”技术——APB 序列并行推理框架，直接给大模型装上“涡轮增压”引擎!实测显示，这项黑科技在处理超长文本时，速度竟比肩 Flash Attention 快10倍!没错，你没听错，是10倍!要知道，随着 ChatGPT 等大模型的爆火，AI 们“阅读”能力也水涨船高，动辄处理十几万字的长文不在话下。然而，面对海量信息，传统大模型的“大脑”却有点卡壳—— Transformer 架构虽强，但其核心的注意力机制就像一个“超级扫描仪”，文本越长，扫描范围呈指数级膨胀，速度自然就慢了下来。为了解决这个“卡脖子”难题，清华大学的科学家们联合多家研究机构和科技巨头，另辟蹊径，推出了 APB 框架。

3/13/2025 9:50:00 AM

AI在线

不需要 AI 和数学知识背景，这篇文章带你学会大模型应用开发

作者 | ronaldo最近几年，大模型在技术领域的火热程度属于一骑绝尘遥遥领先，不论是各种技术论坛还是开源项目，大多都围绕着大模型展开。大模型的长期目标是实现AGI，这可能还有挺长的路要走，但是眼下它已经深刻地影响了“编程”领域。各种copilot显著地提升了开发者的效率，但与此同时，开发者也变得非常地焦虑。

3/13/2025 8:00:00 AM

腾讯技术工程

科大讯飞依靠国产算力卡成功进入大模型研发梯队

近日，科大讯飞在互动平台上回答投资者提问，透露了其在国产算力领域的最新进展，引发广泛关注。科大讯飞表示，凭借仅仅1万张910B 国产算力卡，他们已经跻身于大模型研发的第一梯队。这一成绩令人瞩目，因为同类企业在此领域所需的算力往往远超此数。

3/11/2025 2:15:00 PM

AI在线

从鹦鹉学舌到灵魂对话，AI的人话革命

2030年，一位老人对家庭机器人说：“我想念年轻时在西湖划船的日子。 ”AI不仅能调出当年的老照片，还能结合实时天气与老人健康数据，规划一场安全舒适的怀旧之旅，并同步预约无人游船。当机器对人类产生“主动关怀”，标志着AI从工具进化为“生活伴侣”。

3/11/2025 1:20:43 PM

佚名

基于Dify与DeepSeek：零门槛训练自己的专属AI大模型

在人工智能（AI）技术日益普及的今天，训练属于自己的AI大模型不再是遥不可及的梦想。随着DeepSeek R1的发布，其部署成本仅为ChatGPT的十分之一，这一突破让更多企业和个人能够轻松参与AI开发。未来，垂直领域的AI大模型和应用将如雨后春笋般涌现，这无疑是一个巨大的机遇。

3/11/2025 10:51:35 AM

冰河技术

字节跳动豆包大模型团队开源MoE架构优化技术，训练成本节省40%

字节跳动豆包大模型团队官宣开源一项针对 MoE（混合专家模型）架构的关键优化技术，可将大模型训练效率提升 1.7 倍，成本节省 40%。据悉，该技术叫做 COMET，已实际应用于字节的万卡集群训练，累计帮助节省了数百万 GPU 小时训练算力。

3/10/2025 5:42:41 PM

远洋

如何看待”首个真干活”AI—Manus？

话题背景今日凌晨，一款通用AI Agent产品「Manus」正式发布。 GAIA评分已超越OpenAI的DeepResearch，成为GAIA评分第一。这一产品以“数字代理人”自居，宣称能独立完成复杂任务并交付完整成果，迅速成为科技圈的焦点。

3/10/2025 12:00:00 PM

腾讯技术工程

2025年AI投资热潮延续：九家美国公司获超亿美元融资

2024年是人工智能行业具有里程碑意义的一年，据TechCrunch统计，去年有49家初创公司获得了价值1亿美元或以上的融资，其中七家公司筹集了10亿美元以上资金，三家公司甚至获得了多轮"巨额融资"。而2025年开年以来，这一势头不减。尽管年初刚过，融资额超过1亿美元的美国AI公司数量已接近两位数，且已有一轮融资突破10亿美元大。

3/10/2025 10:00:43 AM

AI在线

大模型本地部署的“隐形炸弹”，你的数据安全吗？

作者 | 朱雀实验室随着DeepSeek R1等开源大模型的火爆，越来越多的开发者、企业甚至开始尝试在本地部署大语言模型，享受AI带来的便利。然而近期腾讯混元安全团队-朱雀实验室发现：这些广受欢迎的AI工具中有不少存在安全隐患。如果使用不当，攻击者可能窃取用户数据、滥用算力资源，甚至控制用户设备。

3/10/2025 9:10:00 AM

腾讯技术工程

Ollama的配置修改与接口调用

一、修改环境变量1.1 配置远程访问在我们本地部署好ollama之后，仅支持本机访问，我们可以通过修改环境变量让其他人可以远程访问。在wins电脑上增加环境变量：复制1.2 配置本地模型路径1.2.1 本地模型默认路径wins本地模型默认路径：C:\Users\%username%\.ollama\models。这里 %username% 是当前登录的用户名。

3/10/2025 9:00:00 AM

Python伊甸园

Ollama的介绍与测试

一、Ollama介绍Ollama是一个开源工具，专为在本地机器上便捷部署和运行大型语言模型（LLM）而设计。它提供了一个简洁高效的界面，让用户能够轻松地创建、执行和管理这些复杂的模型。此外，Ollama还配备了一个丰富的预构建模型库，使得这些模型能够无缝集成到各种应用程序之中，大大提升了开发效率和用户体验。

3/10/2025 8:30:00 AM

Python伊甸园

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

Phi-4-Multimodal 是一种参数高效的多模态模型，通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。训练过程包括多阶段优化，确保在不同模式和任务上的性能，数据来源多样，覆盖高质量合成数据。它的设计体现了小型语言模型在多模态任务上的潜力。

3/10/2025 2:00:00 AM

余俊晖

7B级形式化推理与验证小模型，媲美满血版DeepSeek-R1，全面开源！

研究团队构成：香港科技大学、中国科学院软件研究所、西安电子科技大学和重庆大学。团队核心成员：香港科技大学的研究助理教授曹嘉伦，主要研究领域包括 AI&SE、人工智能测试、形式化验证等；中国科学院软件研究所副研究员陆垚杰，主要研究领域包括大语言模型及其应用。随着 DeepSeek-R1 的流行与 AI4Math 研究的深入，大模型在辅助形式化证明写作方面的需求日益增长。

3/8/2025 3:46:00 PM

机器之心

阿里通义千问推理大模型QwQ-32B勇夺全球开源社区榜榜首

在全球最大的 AI 开源社区 HuggingFace 的最新更新中，阿里巴巴近期推出的通义千问推理模型 QwQ-32B 成功夺得了大模型榜单的第一名。这一模型在刚发布后便引起了广泛关注，超越了诸如微软的 Phi-4和 DeepSeek-R1等知名模型，展现出了强大的性能。 QwQ-32B 模型在数学、代码处理及通用能力等多个方面都取得了质的飞跃，特别是其参数数量较小的特点，使得其整体性能能够与 DeepSeek-R1相媲美。

3/7/2025 1:58:00 PM

AI在线

FP8 训练新范式：减少 40% 显存占用，训练速度提高 1.4 倍

近期DeepSeek V3 引爆国内外的社交媒体，他们在训练中成功应用了 FP8 精度，显著降低了 GPU 内存使用和计算开销。这表明，FP8 量化技术在优化大型模型训练方面正发挥着越来越重要的作用。近期，来自伯克利，英伟达，MIT 和清华的研究者们提出了显存高效的 FP8 训练方法：COAT（Compressing Optimizer states and Activation for Memory-Efficient FP8 Training），致力于通过 FP8 量化来压缩优化器状态和激活值，从而提高内存利用率和训练速度。

3/7/2025 10:02:10 AM

机器之心