MLP

LLM注意力Attention，Q、K、V矩阵通俗理解

QKV的重要性要理解大语言模型效果的底层实现原理，很大一部分就是理解Transformers Block里面的QKV矩阵。现在前沿的大模型研究工作很大一部分都是围绕着QKV矩阵去做的，比如注意力、量化、低秩压缩等等。其本质原因是因为QKV权重占比着大语言模型50%以上的权重比例，在推理过程中，QKV存储量还会随着上下文长度的增长而线性增长，计算量也平方增加。

1/13/2025 8:23:07 AM

咚咚呛

LLM为何频频翻车算术题？研究追踪单个神经元，「大脑短路」才是根源

由于缺少对运行逻辑的解释，大模型一向被人称为「黑箱」，但近来的不少研究已能够在单个神经元层面上解释大模型的运行机制。例如Claude在2023年发表的一项研究，将大模型中大约500个神经元分解成约4000个可解释特征。而10月28日的一项研究，以算术推理作为典型任务，借鉴类似的研究方法，确定了大模型中的一个模型子集，能解释模型大部分的基本算术逻辑行为。

11/19/2024 12:53:50 PM

新智元

资讯热榜

Former DeepSeek executive secretly starts new AI Agent project, already backed by top VC 消息称 OpenAI 已同谷歌敲定一份云 AI 算力交易，减少对微软依赖 “程序员炸锅”！Claude一夜撤离 Windsurf，OpenAI 收购遭"精准狙击" OpenAI年化收入突破100亿美元过去一年亏损约50亿美元 Mistral 将推出其首个推理模型 Magistral，与 OpenAI 和 DeepSeek 展开竞争 60%情况下，主流大模型没理解风险只是装懂！别被模型的“安全答案”骗了 ColorOS 小布助手月活量达 1.5 亿，OPPO 手机（含一加）接入 DeepSeek 设备量行业第一 All Ohio State University students will receive AI training to enhance technical application skills

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌数据机器人大模型 Midjourney 用户智能开源微软 GPT Meta 学习图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法英伟达代码 Anthropic 芯片开发者生成式蛋白质腾讯神经网络训练 3D 研究生成智能体苹果计算机器学习 Sora Claude AI设计 AI for Science GPU AI视频人形机器人搜索华为百度场景大语言模型 xAI 预测伟达深度学习 LLM 字节跳动 Transformer Agent 工具模态神器推荐具身智能文本视觉 LLaMA 算力 Copilot 驾驶大型语言模型 API RAG 应用架构