AIGC宇宙 AIGC宇宙

大模型

14B 小模型逆袭翻译赛道,论文财报实测超Claude,不信试试“我命由我不由天”

都说通用大模型轻松拿捏翻译,结果有人来掀桌了。 来自网易有道的14B翻译小模型,测试达行业第一,翻译质量超越一众国内外主流通用大模型。 它就是子曰翻译大模型2.0(下文简称子曰2.0),在英译中方面轻松超越Claude 3.5 Sonnet等12个主流通用大模型,中译英也和Claude 3.5 Sonnet达到同等水平。
3/13/2025 10:04:06 AM
量子位

大模型长文推理迎来“核弹级”提速!清华APBB框架狂飙10倍,Flash Attention直接被秒

还在为大模型处理长文本“龟速”而抓狂?别急!清华大学祭出“王炸”技术——APB 序列并行推理框架,直接给大模型装上“涡轮增压”引擎!实测显示,这项黑科技在处理超长文本时,速度竟比肩 Flash Attention 快10倍!没错,你没听错,是10倍!要知道,随着 ChatGPT 等大模型的爆火,AI 们“阅读”能力也水涨船高,动辄处理十几万字的长文不在话下。 然而,面对海量信息,传统大模型的“大脑”却有点卡壳—— Transformer 架构虽强,但其核心的注意力机制就像一个“超级扫描仪”,文本越长,扫描范围呈指数级膨胀,速度自然就慢了下来。 为了解决这个“卡脖子”难题,清华大学的科学家们联合多家研究机构和科技巨头,另辟蹊径,推出了 APB 框架。
3/13/2025 9:50:00 AM
AI在线

不需要 AI 和数学知识背景,这篇文章带你学会大模型应用开发

作者 | ronaldo最近几年,大模型在技术领域的火热程度属于一骑绝尘遥遥领先,不论是各种技术论坛还是开源项目,大多都围绕着大模型展开。 大模型的长期目标是实现AGI,这可能还有挺长的路要走,但是眼下它已经深刻地影响了“编程”领域。 各种copilot显著地提升了开发者的效率,但与此同时,开发者也变得非常地焦虑。
3/13/2025 8:00:00 AM
腾讯技术工程

科大讯飞依靠国产算力卡成功进入大模型研发梯队

近日,科大讯飞在互动平台上回答投资者提问,透露了其在国产算力领域的最新进展,引发广泛关注。 科大讯飞表示,凭借仅仅1万张910B 国产算力卡,他们已经跻身于大模型研发的第一梯队。 这一成绩令人瞩目,因为同类企业在此领域所需的算力往往远超此数。
3/11/2025 2:15:00 PM
AI在线

从鹦鹉学舌到灵魂对话,AI的人话革命

2030年,一位老人对家庭机器人说:“我想念年轻时在西湖划船的日子。 ”AI不仅能调出当年的老照片,还能结合实时天气与老人健康数据,规划一场安全舒适的怀旧之旅,并同步预约无人游船。 当机器对人类产生“主动关怀”,标志着AI从工具进化为“生活伴侣”。
3/11/2025 1:20:43 PM
佚名

基于Dify与DeepSeek:零门槛训练自己的专属AI大模型

在人工智能(AI)技术日益普及的今天,训练属于自己的AI大模型不再是遥不可及的梦想。 随着DeepSeek  R1的发布,其部署成本仅为ChatGPT的十分之一,这一突破让更多企业和个人能够轻松参与AI开发。 未来,垂直领域的AI大模型和应用将如雨后春笋般涌现,这无疑是一个巨大的机遇。
3/11/2025 10:51:35 AM
冰河技术

字节跳动豆包大模型团队开源MoE架构优化技术,训练成本节省40%

字节跳动豆包大模型团队官宣开源一项针对 MoE(混合专家模型)架构的关键优化技术,可将大模型训练效率提升 1.7 倍,成本节省 40%。据悉,该技术叫做 COMET,已实际应用于字节的万卡集群训练,累计帮助节省了数百万 GPU 小时训练算力。
3/10/2025 5:42:41 PM
远洋

如何看待”首个真干活”AI—Manus?

话题背景今日凌晨,一款通用AI Agent产品「Manus」正式发布。 GAIA评分已超越OpenAI的DeepResearch,成为GAIA评分第一。 这一产品以“数字代理人”自居,宣称能独立完成复杂任务并交付完整成果,迅速成为科技圈的焦点。
3/10/2025 12:00:00 PM
腾讯技术工程

2025年AI投资热潮延续:九家美国公司获超亿美元融资

2024年是人工智能行业具有里程碑意义的一年,据TechCrunch统计,去年有49家初创公司获得了价值1亿美元或以上的融资,其中七家公司筹集了10亿美元以上资金,三家公司甚至获得了多轮"巨额融资"。 而2025年开年以来,这一势头不减。 尽管年初刚过,融资额超过1亿美元的美国AI公司数量已接近两位数,且已有一轮融资突破10亿美元大。
3/10/2025 10:00:43 AM
AI在线

大模型本地部署的“隐形炸弹”,你的数据安全吗?

作者 | 朱雀实验室随着DeepSeek R1等开源大模型的火爆,越来越多的开发者、企业甚至开始尝试在本地部署大语言模型,享受AI带来的便利。 然而近期腾讯混元安全团队-朱雀实验室发现:这些广受欢迎的AI工具中有不少存在安全隐患。 如果使用不当,攻击者可能窃取用户数据、滥用算力资源,甚至控制用户设备。
3/10/2025 9:10:00 AM
腾讯技术工程

Ollama的配置修改与接口调用

一、修改环境变量1.1  配置远程访问在我们本地部署好ollama之后,仅支持本机访问,我们可以通过修改环境变量让其他人可以远程访问。 在wins电脑上增加环境变量:复制1.2  配置本地模型路径1.2.1 本地模型默认路径wins本地模型默认路径:C:\Users\%username%\.ollama\models。 这里 %username% 是当前登录的用户名。
3/10/2025 9:00:00 AM
Python伊甸园

Ollama的介绍与测试

一、Ollama介绍Ollama是一个开源工具,专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计。 它提供了一个简洁高效的界面,让用户能够轻松地创建、执行和管理这些复杂的模型。 此外,Ollama还配备了一个丰富的预构建模型库,使得这些模型能够无缝集成到各种应用程序之中,大大提升了开发效率和用户体验。
3/10/2025 8:30:00 AM
Python伊甸园

Phi-4-multimodal:图、文、音频统一的多模态大模型架构、训练方法、数据细节

Phi-4-Multimodal 是一种参数高效的多模态模型,通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。 训练过程包括多阶段优化,确保在不同模式和任务上的性能,数据来源多样,覆盖高质量合成数据。 它的设计体现了小型语言模型在多模态任务上的潜力。
3/10/2025 2:00:00 AM
余俊晖

7B级形式化推理与验证小模型,媲美满血版DeepSeek-R1,全面开源!

研究团队构成:香港科技大学、中国科学院软件研究所、西安电子科技大学和重庆大学。 团队核心成员:香港科技大学的研究助理教授曹嘉伦,主要研究领域包括 AI&SE、人工智能测试、形式化验证等;中国科学院软件研究所副研究员陆垚杰,主要研究领域包括大语言模型及其应用。 随着 DeepSeek-R1 的流行与 AI4Math 研究的深入,大模型在辅助形式化证明写作方面的需求日益增长。
3/8/2025 3:46:00 PM
机器之心

​阿里通义千问推理大模型QwQ-32B勇夺全球开源社区榜榜首

在全球最大的 AI 开源社区 HuggingFace 的最新更新中,阿里巴巴近期推出的通义千问推理模型 QwQ-32B 成功夺得了大模型榜单的第一名。 这一模型在刚发布后便引起了广泛关注,超越了诸如微软的 Phi-4和 DeepSeek-R1等知名模型,展现出了强大的性能。 QwQ-32B 模型在数学、代码处理及通用能力等多个方面都取得了质的飞跃,特别是其参数数量较小的特点,使得其整体性能能够与 DeepSeek-R1相媲美。
3/7/2025 1:58:00 PM
AI在线

FP8 训练新范式:减少 40% 显存占用,训练速度提高 1.4 倍

近期DeepSeek V3 引爆国内外的社交媒体,他们在训练中成功应用了 FP8 精度,显著降低了 GPU 内存使用和计算开销。 这表明,FP8 量化技术在优化大型模型训练方面正发挥着越来越重要的作用。 近期,来自伯克利,英伟达,MIT 和清华的研究者们提出了显存高效的 FP8 训练方法:COAT(Compressing Optimizer states and Activation for Memory-Efficient FP8 Training),致力于通过 FP8 量化来压缩优化器状态和激活值,从而提高内存利用率和训练速度。
3/7/2025 10:02:10 AM
机器之心

如何理解模型的蒸馏和量化

在LLM领域内,经常会听到两个名词:蒸馏和量化。 这代表了LLM两种不同的技术,它们之间有什么区别呢? 本次我们就来详细聊一下。
3/7/2025 8:00:00 AM

大模型系列:DeepSeek大模型与应用场景介绍

今天给大家聊聊DeepSeek 究竟有哪些强大的模型? 这些模型又适用于哪些具体的场景呢? 希望对大家了解 DeepSeek 大模型提供一些参考。
3/6/2025 7:28:31 AM
郝光明