AIGC宇宙 AIGC宇宙

「精而巧」的端侧大模型为何火了?

大模型爆火伊始,很多厂商提的最多的就是自家的模型(云端大模型)参数有多大,性能有多好。 但近两年,相较云端大模型外,端侧大模型的热度被炒的越来越高。 很重要的原因在于,越来越多的厂商开始布局端侧大模型赛道。

大模型爆火伊始,很多厂商提的最多的就是自家的模型(云端大模型)参数有多大,性能有多好。但近两年,相较云端大模型外,端侧大模型的热度被炒的越来越高。

很重要的原因在于,越来越多的厂商开始布局端侧大模型赛道。具体表现在,终端设备厂商,如苹果、荣耀、小米、OV等,AI公司如商汤科技,都推出了自研的纯端侧大模型。

如今,各大手机厂商会说自己的AI本地运行,芯片硬件厂商也会强调自己的边缘计算能力有多强大。

「精而巧」的端侧大模型为何火了?

端侧大模型为何能火?

简单来说,端侧大模型是能够在你的手机、电脑、汽车这些"端设备"上直接运行的大语言模型,区别于依赖云端服务器进行大规模计算的大型语言模型。

平时用ChatGPT或其他云端大模型的场景是这样的:打开网页或APP,输入问题,等待几秒钟,输出答案。这个过程中,你的问题被发送到云端服务器,在云端的大型GPU集群上处理,然后把结果传回给你。

所以端侧大模型与云端大模型的核心区别在于“计算发生的地点”:

云端大模型:你的设备负责输入和输出,将问题上传到云端的超算中心,计算完成后,再将结果返回给你的设备。

端侧大模型:模型本身已经预装或下载到你的设备上,计算过程完全在设备自身的芯片(如CPU、GPU、NPU)上完成。

从定义来说,也就能解释为何云端大模型能在短时间内杀出重围。可以从端侧大模型的弊端拆解,其一,云端大模型对网络高度依赖,在没有网络或者网络差的情况下,是不能运行的;其二,隐私安全问题难保证,用户在各种平台的记录,甚至个人隐私都可能被上传到网上,很可能因隐私泄露酿成大祸;其三,很难满足个性化需求,云端模型服务的是全球用户,很难针对个人的使用习惯和需求进行深度定制。

反观端侧大模型,首先,对于用户最关心的隐私问题能做到最优。用户的所有数据始终在本地设备上,永远不会被上传到服务器。这彻底杜绝了数据在传输和云端存储过程中可能存在的泄露风险,对于企业机密、个人隐私信息、金融数据等敏感场景至关重要。

其次,超低延迟与实时响应。由于无需网络传输往返云端,端侧模型的响应速度极快,几乎可以做到“瞬时回答”。对于需要实时交互的应用至关重要,如AI语音助手、实时翻译、会议摘要、游戏NPC交互等。

再者,离线可用性极强。在没有网络连接或信号差的环境下,端侧大模型依然能够正常工作,提供了无缝的、不间断的AI体验。

更值得一体的是,端侧大模型不仅可以根据每位用户的不同需求提供定制化服务,还能在很大程度上降低成本:对用户而言,节省了流量;对厂商而言,将计算负载分散到海量终端设备上,能极大地减轻云端服务器的压力和运营成本。

端侧大模型,任重道远

但这并不意味着拥有了端侧大模型就能一劳永逸,仍存在很大的困难挑战。一方面是技术挑战,为了在终端运行,模型必须经过大幅度的压缩、剪枝、量化和蒸馏,这通常会带来模型性能的下降。如何在小体积下保持强大的能力,是研发的核心。

另一方面是商业挑战,端侧模型需要深度优化和适配不同芯片平台,开发门槛极高,需要算法、软件和硬件团队的紧密协同。

面对端侧部署的严峻挑战,产业界和学术界正在从多个维度寻求技术突破,核心目标是在有限的硬件资源下,尽可能保留模型的核心能力。

模型压缩与量化就是最直接的手段。通过剪枝移除模型中不重要的权重;通过量化将模型参数从32位或16位浮点数转换为8位甚至4位整数,大幅减少模型体积和内存占用。例如,将70亿参数的模型从FP16(16GB)量化到INT4(仅需约4GB),使其能够在高端手机上运行。

在架构的选择上,研发人员倾向于设计更轻量、更高效的模型结构。比如,采用混合专家模型,在推理时只激活部分参数,从而在总参数量巨大的情况下,实际计算成本却很低。

当然在软硬件协同优化方面,不少厂商也下足了功夫。部分芯片厂商在其SoC中集成更强大的专用NPU。同时,软件框架提供了高度优化的运行时库,能将模型指令高效地映射到硬件底层,最大化发挥每一分算力。

“云端协同” ——AI应用的主流架构

尽管端侧大模型发展迅猛,但它并非要取代云端大模型,而是其必要的补充和延伸。它代表了AI发展的下一个重要方向:从集中式、通用的“超级大脑”,走向分布式、个性化的“贴身智慧”。

但未来,“云端协同” 才是AI应用的主流架构。

端侧作为前沿哨站:处理即时、高频、高隐私要求的任务。如本地的语音识别、照片编辑、初步理解用户意图等,提供快速、安全的第一响应。

云端作为中央大脑:处理复杂、耗资源的深度计算任务。当端侧模型遇到无法解决的复杂问题时,可以匿名化、脱敏后向云端超级模型求助,将最终结果返回给设备。同时,云端负责持续训练和更新,再将更优秀的轻量化模型下发至终端。

这种架构完美平衡了用户体验、隐私安全和计算效率。例如,当你用手机AI助手规划旅行时,端侧模型本地处理你的日历和偏好,而查询机票酒店、生成复杂攻略等任务则悄然由云端完成,整个过程浑然一体。

结语

端侧大模型的兴起,标志着AI的发展从追求绝对的“大而全”,进入了务实落地的“精而巧”的新阶段。它将智能从云端的神坛推下,嵌入到我们生活的每一个角落,让AI变得真正触手可及、安全可靠。

虽然前路仍充满挑战,但在巨头押注、生态协同的趋势下,端侧大模型必将与云端模型双翼齐飞,共同推动我们加速迈向一个真正智能化的未来。下一次换机的理由,或许不再是摄像头像素的高低,而是你的手机,是否拥有一个足够智慧的“本地大脑”。

相关资讯

Meta杨立昆引燃全民大讨论:美政府有些人被洗脑了,监管让开源变得像非法一样!Meta也犯过错!大模型不如猫,保质期就3年!

编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)1月23日,在冬季达沃斯论坛的“辩论技术”环节,Meta公司副总裁兼首席人工智能科学家Yann Lecun、麻省理工学院媒体实验室主任 Dava Newman、Axios首席技术记者Ina Turpen Fried(主持人)就未来十年前沿科技进行了时长47分钟的“全民”大讨论,话题涵盖了LLM、智能体、消费机器人、脑机接口、跨物种、太空探索,也讨论了非常让Meta敏感的“技术作恶”、审查监管、开闭源之争。 观众们更是抓住机会让两位嘉宾抖出了很多猛料。 Lecun表示,现在的大模型并没有达到预期效果,在很多方面都存在不足:“我认为当前 LLM范式的保质期相当短,可能只有3到5年。
1/26/2025 11:35:05 AM
言征

DeepSeek R1 震撼登场:从介绍到使用

春节期间,DeepSeek 掀起了一股热潮,成为了科技领域的热门话题。 身边很多非圈内人士茶余饭后也在讨论 DeepSeek,足以见得其火爆程度。 介绍DeepSeek 全称:杭州深度求索人工智能基础技术研究有限公司,成立于 2023 年 7 月 17 日。
2/11/2025 8:35:30 AM
oec2003

从 DeepSeek 看25年前端的一个小趋势

从 DeepSeek 看25年前端的一个小趋势大家好,我卡颂。 最近DeepSeek R1爆火。 有多火呢?
2/11/2025 10:17:19 AM
卡颂
  • 1