性能
DeepSeek-V3.2-Exp:用稀疏注意力机制,开启长文本处理的“加速引擎”
随着人工智能技术的飞速发展,大语言模型在各个领域都展现出了巨大的潜力。 然而,传统的大语言模型在处理长文本时面临着效率低下和计算成本高昂的问题。 为了解决这一难题,DeepSeek-AI推出了实验性版本DeepSeek-V3.2-Exp,该模型通过引入DeepSeek稀疏注意力机制(DSA),在保持与V3.1-Terminus相当性能的同时,显著提升了长文本处理的效率。
10/14/2025 9:00:48 AM
AGI小兵
只需一次指令微调,大模型变身全能专家天团,8B模型性能反超全微调基线 | ACL25 Oral
只需一次指令微调,即可让普通大模型变身“全能专家天团”? 改造位置自动定位专家协作动态平衡8B模型性能反超全微调基线1.6%,安全指标暴涨10%,推理内存直降30%! 图片当前预训练语言大模型(LLM)虽具备通用能力,但适应专业领域需高昂的指令微调成本;稀疏混合专家(SMoE)架构作为可扩展的性能-效率平衡框架,虽能提升推理效率并灵活扩展模型容量,但其从头训练消耗巨大资源,因此复用密集大模型参数的升级改造(LLM Upcycling)成为更具成本效益的替代方案。
7/29/2025 2:12:00 AM
大模型的性能提升:KV-Cache
大语言模型(LLM)在生成文本时,通常是一个 token 一个 token 地进行。 每当模型生成一个新的 token,它就会把这个 token 加入输入序列,作为下一步预测下一个 token 的依据。 这一过程不断重复,直到完成整个输出。
6/18/2025 11:16:50 AM
曹洪伟
ScaleOT框架亮相AAAI 2025:提升隐私保护50%,降算力成本90%
近日,在全球人工智能顶级学术会议AAAI2025期间,蚂蚁数科、浙江大学、利物浦大学和华东师范大学联合团队提出创新的跨域微调(offsite-tuning)框架——ScaleOT。 该框架能在模型性能无损前提下,将隐私保护效果提升50%,与知识蒸馏技术相比,算力消耗显著降低90%,为百亿级参数模型的跨域微调提供高效轻量化方案,论文因创新性入选AAAI的oral论文(本届大会近13000篇投稿,口头报告比例仅4.6%)。 跨域微调是目前业内保护模型产权与数据隐私的主流方案,通过有损压缩将大模型转换为仿真器,数据持有方基于其训练适配器并返回给大模型完成调优,数据和模型均未出域,可保护双方隐私,但存在局限性:一是“均匀抽积木”式处理易致模型关键层缺失,使性能显著下降;二是用蒸馏技术弥补性能损失,计算成本高;且现有方法隐私保护缺乏灵活性。
2/26/2025 2:13:00 PM
AI在线
李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在
李飞飞谢赛宁再发新成果:直接把o1式思考拉至下一个level——多模态大语言模型的空间思维! 这项研究系统评估了多模态大模型的视觉空间智能,结果发现:当前,即使是最先进的多模态大模型,在空间认知方面与人类相比仍有显著差距,测试中约71%的错误都源于空间推理方面的缺陷,即空间推理能力是当前主要瓶颈。 图片更为有趣的是,在这种情况下,思维链、思维树等常用的语言提示技术直接失灵了——不仅没有提升模型在空间任务上的表现,反而会使性能下降。
12/23/2024 12:37:34 PM
明确了:文本数据中加点代码,训练出的大模型更强、更通用
代码知识原来这么重要。如今说起大语言模型(LLM),写代码能力恐怕是「君子六艺」必不可少的一项。在预训练数据集中包含代码,即使对于并非专门为代码设计的大模型来说,也已是必不可少的事。虽然从业者们普遍认为代码数据在通用 LLM 的性能中起着至关重要的作用,但分析代码对非代码任务的精确影响的工作却非常有限。在最近由 Cohere 等机构提交的一项工作中,研究者系统地研究了代码数据对通用大模型性能的影响。论文链接:「预训练中使用的代码数据对代码生成以外的各种下游任务有何影响」。作者对范围广泛的自然语言推理任务、世界知识任
8/22/2024 6:20:00 PM
机器之心
- 1
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
大模型
数据
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
Agent
AI for Science
芯片
苹果
腾讯
Stable Diffusion
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
RAG
人形机器人
研究
AI视频
生成
大语言模型
具身智能
Sora
工具
GPU
百度
华为
计算
字节跳动
AI设计
AGI
大型语言模型
搜索
视频生成
场景
深度学习
DeepMind
架构
生成式AI
编程
视觉
Transformer
预测
AI模型
伟达
亚马逊
MCP