LLaMA

Meta 公布 Llama AI 模型家族下载量数据：全球超 3.5 亿、3.1-405B 模型最受欢迎

Meta 公司昨日发布新闻稿披露了旗下 Llama 开源 AI 模型家族在 Hugging Face 的下载量情况，仅在上个月（8 月 1 日- 8 月 31 日），相关模型的下载次数就超过了 2000 万次，截至 9 月 1 日，Llama 模型家族全球下载量已突破 3.5 亿次。参考AI在线报道，Meta 公司在今年 4 月发布了 LLM Llama 3，于今年 7 月推出了 Llama 3.1，将上下文长度扩展至 128K，新增支持 8 种语言，并首次提供了 405B 参数版本，Meta 提到，目前“Llam

9/3/2024 9:50:06 PM

漾仔

一年翻番，OpenAI 称 ChatGPT AI 聊天机器人全球周活跃用户数量破 2 亿

科技媒体 Axios 今天（8 月 30 日）发布博文，报道称 OpenAI 的 AI 聊天机器人目前周活跃用户数量已经超过 2 亿，短短 1 年时间实现翻倍。OpenAI 还表示在全球财富 500 强企业中，92% 正在使用其产品；自 7 月份发布 GPT-4o mini 以来，其自动 API 的使用量已翻了一番。首席执行官山姆・阿尔特曼（Sam Altman）在给该媒体的一份声明中表示：人们正在使用我们的工具，将其融入到日常生活中，在医疗保健和教育等领域发挥着真正的作用，可以帮助完成日常任务、解决棘手问题，还是

8/30/2024 6:22:49 AM

故渊

Meta 部署新网络爬虫机器人，为其 AI 模型收集大量数据

北京时间 8 月 21 日，近日，Meta 悄悄地发布了一款新的网络爬虫，用于搜索互联网并收集大量数据，为其人工智能模型提供支持。据三家追踪网络抓取器的公司称，Meta 新网络爬虫机器人 Meta External Agent 于上月推出，类似于 OpenAI 的 GPTBot，可以抓取网络上的人工智能训练数据，例如新闻文章中的文本或在线讨论组中的对话。根据使用档案历史记录显示，Meta 确实在 7 月底更新了一个面向开发者的公司网站，其中一个标签显示了新爬虫的存在，但 Meta 至今还没有公开宣布其新爬虫机器人。

8/21/2024 1:10:05 PM

余青

小而强，英伟达剪枝、蒸馏出 Llama-3.1-Minitron 4B AI 模型

英伟达公司联合 Meta 公司发布了最新的 Llama-3.1-Minitron 4B AI 模型，主要通过结构化权重剪枝、知识提炼等尖端技术，成功蒸馏（Distill）出 40 亿参数的“小而强”模型。图源：英伟达Llama-3.1-Minitron 4B 模型在 Llama-3.1-Minitron 8B 基础上蒸馏而来，英伟达在深度和宽度方向上使用了结构化剪枝技术。AI在线注：剪枝是一种删除网络中不那么重要的层或神经元的技术，保留其性能的情况下，目的是减小模型的大小和复杂度。英伟达通过从模型中删除 16 层来

8/17/2024 7:21:02 AM

故渊

手机跑大模型提速 4-5 倍：微软亚研院开源新技术 T-MAC，有 CPU 就行

有 CPU 就能跑大模型，性能甚至超过 NPU / GPU！没错，为了优化模型端侧部署，微软亚洲研究院提出了一种新技术 —— T-MAC。这项技术主打性价比，不仅能让端侧模型跑得更快，而且资源消耗量更少。咋做到的？？在 CPU 上高效部署低比特大语言模型一般来说，要想在手机、PC、树莓派等端侧设备上使用大语言模型，我们需要解决存储和计算问题。常见的方法是模型量化，即将模型的参数量化到较低的比特数，比如 4 比特、3 比特甚至更低，这样模型所需的存储空间和计算资源就会减少。不过这也意味着，在执行推理时，需要进行混合精

8/9/2024 12:58:46 PM

汪淼

小扎自曝砸重金训 Meta Llama 4 模型：24 万块 GPU 齐发力，预计 2025 年发布

Llama 3.1 刚发布不久，Llama 4 已完全投入训练中。这几天，小扎在二季度财报会上称，Meta 将用 Llama 3 的十倍计算量，训练下一代多模态 Llama 4，预计在 2025 年发布。这笔账单，老黄又成为最大赢家十倍计算量，是什么概念？要知道，Llama 3 是在两个拥有 24,000 块 GPU 集群完成训练。也就是说，Llama 4 训练要用 24 万块 GPU。那么，Meta 存货还够不够？还记得小扎曾在年初宣布，计划到年底要部署 35 万块英伟达 H100。他还透露了更多的细节，Meta

8/5/2024 1:30:22 PM

汪淼

Llama3.1 训练平均 3 小时故障一次，H100 万卡集群好脆弱，气温波动都会影响吞吐量

每 3 个小时 1 次、平均 1 天 8 次，Llama 3.1 405B 预训练老出故障，H100 是罪魁祸首？最近有人从 Meta 发布的 92 页超长 Llama 3.1 论文中发现了华点：Llama 3.1 在为期 54 天的预训练期间，经历了共 466 次任务中断。其中只有 47 次是计划内的，419 次纯属意外，意外中 78% 已确认或怀疑是硬件问题导致。而且 GPU 问题最严重，占了 58.7%。Llama 3.1 405 模型是在一个含 16384 块 Nvidia H100 80GB GPU 集群

7/29/2024 5:54:34 PM

清源

为什么AI数不清Strawberry里有几个 r？Karpathy：我用表情包给你解释一下

让模型知道自己擅长什么、不擅长什么是一个很重要的问题。还记得这些天大模型被揪出来的低级错误吗？不知道 9.11 和 9.9 哪个大，数不清 Strawberry 单词里面有多少个 r…… 每每被发现一个弱点，大模型都只能接受人们的无情嘲笑。嘲笑之后，大家也冷静了下来，开始思考：低级错误背后的本质是什么？大家普遍认为，是 Token 化（Tokenization）的锅。在国内，Tokenization 经常被翻译成「分词」。这个翻译有一定的误导性，因为 Tokenization 里的 token 指的未必是词，也可以

7/27/2024 11:22:00 PM

机器之心

开源是未来 AI 之路，扎克伯格：Meta 要将 Llama 打造成为“AI 界的 Linux”

Meta 创始人兼首席执行官马克・扎克伯格（Mark Zuckerberg）昨日（7 月 23 日）发布博文，表达了他对开源 AI 生态系统的愿景，认为 Llama 有潜力成为“AI 界的 Linux”。扎克伯格表示 Linux 凭借着开源特性，近乎成为通过其开源特性已成为云计算和移动操作系统的行业标准，而 Meta 公司希望将 Llama 打造成 AI 领域的 Linux。扎克伯格阐述了开源人工智能为何有利于开发者和行业的理由，AI在线简要梳理如下：训练、微调和蒸馏自己的 AI 模型每个组织都有不同的需求，而满足

7/24/2024 1:51:07 PM

故渊

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

最强大模型 Llama 3.1，上线就被攻破了。对着自己的老板扎克伯格破口大骂，甚至知道如何绕过屏蔽词。设计危险病毒、如何黑掉 Wifi 也是张口就来。Llama 3.1 405B 超越 GPT-4o，开源大模型登顶了，副作用是危险也更多了。不过也不全是坏事。Llama 系列前几个版本一直因为过度安全防护，还一度饱受一些用户批评：连一个 Linux 进程都不肯“杀死”，实用性太差了。现在，3.1 版本能力加强，也终于明白了此杀非彼杀。Llama 3.1 刚上线就被攻破第一时间把 Llama 3.1 破防的，还是越狱

7/24/2024 1:02:10 PM

汪淼

Meta 发布 Llama 3.1 开源大语言模型：128K 上下文长度，405B 版可与 GPT-4o 和 Claude 3.5 Sonnet 媲美

感谢Meta 今晚正式发布 Llama 3.1 开源大语言模型，提供 8B、70B 及 405B 参数版本。据介绍，Llama 3.1 系列改进了推理能力及多语言支持，上下文长度提升至 128K，首次推出 405B 参数的旗舰模型。Meta 称 4050 亿参数的 Llama 3.1-405B 在常识、可引导性、数学、工具使用和多语言翻译等一系列任务中，可与 GPT-4、GPT-4o、Claude 3.5 Sonnet 等领先的闭源模型相媲美。此外，8B 与 70B 参数的 Llama 3.1 模型与其他参数量相似

7/23/2024 11:38:18 PM

泓澄（实习）

开源 AI 模型挑战闭源里程碑？Meta Llama 3.1-405B 多项跑分超越 OpenAI GPT-4o

网友在 LocalLLaMA 子 Reddit 板块中发帖，分享了 4050 亿参数的 Meta Llama 3.1 信息，从该 AI 模型在几个关键 AI 基准测试的结果来看，其性能超越目前的领先者（OpenAI 的 GPT-4o）。这是开源人工智能社区的一个重要里程碑，标志着开源模型可能首次击败目前最先进的闭源 LLM 模型。如基准测试所示，Meta Llama 3.1 在 GSM8K、Hellaswag、boolq、MMLU-humanities、MMLU-other、MMLU-stem 和 winograd

7/23/2024 7:26:36 AM

故渊

因监管问题，Meta 将不会在欧盟发布新的多模态 AI 模型

据 Axios 报道，Meta 在一份声明中表示，他们即将发布一个多模态的 Llama 模型，但由于监管环境的不确定性，该模型不会在欧盟发布。Meta 表示，这一决定也意味着即使在开放许可下发布，欧盟的客户和公司也无法使用多模态模型，Meta 将向欧盟的客户和公司提供仅支持文本（text only）的 Llama 3 模型。报道称，Meta 的问题不在于《人工智能法案》，而在于如何在遵守《通用数据保护条例》（GDPR）的同时，使用欧盟客户的数据来训练模型。Meta 表示使用当地数据进行训练，对于确保其产品正确反映该

7/18/2024 9:01:21 AM

沛霖（实习）

“最强开源 AI 模型”，4050 亿参数版 Meta Llama 3 被曝 7 月 23 日发布

感谢科技媒体 The Information 本周五发布博文，援引内部员工曝料称 Meta 公司计划 7 月 23 日发布开源 AI 模型 Llama 3-405B，在现有 80 亿和 700 亿参数两个版本之外，推出 4050 亿参数版本，号称是最强大的开源大语言模型。Meta 公司今年 4 月发布 Llama 3 AI 模型时，扎克伯格就在采访中透露正在训练 4050 亿像素的密集模型，但当时没有透露太多的信息。AI在线注：上图为机翻字幕，存在错误报道称 Llama 3-405B 是一个多模态 AI 开源模型，

7/13/2024 8:09:19 AM

故渊

Llama分子嵌入优于GPT，LLM能理解分子吗？这一局Meta赢了OpenAI

编辑 | 萝卜皮OpenAI 的 GPT 和 Meta AI 的 Llama 等大型语言模型（LLM），因其在化学信息学领域的潜力而日益受到认可，特别是在理解简化分子输入行输入系统（SMILES）方面。这些 LLM 还能够将 SMILES 字符串解码为矢量表示。加拿大温莎大学（University of Windsor）的研究人员比较了 GPT 和 Llama 与 SMILES 上的预训练模型在下游任务中嵌入 SMILES 字符串的性能，重点关注两个关键应用：分子特性预测和药物-药物相互作用预测。该研究以「Can

7/11/2024 11:51:00 AM

ScienceAI

俄罗斯科技巨头 Yandex 宣布开源“YaFSDP”大语言模型训练工具：大幅提升 GPU 利用率，对 Llama 3 可实现 26% 加速

俄罗斯科技巨头 Yandex 推出了一款开源的大语言模型训练工具 ——YaFSDP，号称与现有工具相比速度最高可提升 26%。据介绍，YaFSDP 在训练速度方面优于传统的 FSDP 方法，尤其适用于大型模型。在预训练 LLM 方面，YaFSDP 速度提高了 20%，并且在高内存压力条件下表现更佳。例如，YaFSDP 对具有 700 亿参数的 Llama 2 可以实现 21% 的效率提升，对具有同级参数的 Llama 3 也实现了 26% 的效率提升。IT之家附官方数据一览：模型gpu-countseq-lenn

6/11/2024 6:03:24 PM

问舟

最强开源编程大模型一夜易主：Codestral 精通 80 + 语言，参数量仅 22B

开源代码大模型的王座，再次易主！来自素有“欧洲 OpenAI”之称的 Mistral，用 22B 参数量表现超越了 70B 的 Code Llama。模型名为 Codestral，将代码的英文 Code 与公司名结合而成。在 80 多种编程语言上进行过训练后，Codestral 用更少的参数实现了更高的性能，窗口长度也达到了 32k，相比之前一众 4k、8k 的模型大幅增加。而且已经有人表示，GPT-4o 和 Claude3-Opus 都失败的代码编辑任务，被 Codestral 成功解决了。于是有网友直言，Cod

5/30/2024 3:07:05 PM

清源

高通与 Meta 宣布合作，优化 Llama 3 大语言模型在智能手机等终端运行

Meta 公司昨日宣布推出下一代大语言模型 Llama 3，共有 80 亿和 700 亿参数两种版本，号称是最强大的开源大语言模型。与此同时，高通宣布支持 Meta Llama 3 在骁龙终端上运行。据介绍，双方将优化 Meta Llama 3 大语言模型（LLM）直接在智能手机、PC、VR / AR 头显和汽车等终端上的执行。开发者将能够访问高通 AI Hub 中的资源和工具，以实现在骁龙平台上优化运行 Llama 3，从而缩短产品上市时间并充分发挥终端侧 AI 的优势，包括出色的响应能力、增强的隐私性和可靠性，

4/20/2024 7:22:44 PM

浩渺

资讯热榜

苹果发布全新Xcode 26开发者工具：内置ChatGPT先进AI功能首月 1 美元，ChatGPT Team 会员美区 / 英区 / 欧洲区 / 澳洲区迎优惠那个男人回来了！Ilya现身多伦多大学毕业典礼：AI 像是用数字方式复制出来的大脑！不管你愿不愿意，AI都将深刻影响你的一生！ DeepSeek前高管秘密创业，新AI Agent项目已获顶级VC押注支持MCP！开源智能体开发框架 Rowboat：打造你的智能助手只需几分钟 ChatGPT 语音功能升级，实时翻译对话更自然流畅谷歌 Gemini 应用月下载量超越 ChatGPT，用户活跃度仍显不足长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画数据谷歌机器人大模型 Midjourney 用户智能开源微软 GPT 学习 Meta 图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法代码英伟达 Anthropic 芯片生成式开发者蛋白质腾讯神经网络研究 3D 生成训练苹果计算智能体 Sora 机器学习 AI设计 AI for Science Claude GPU AI视频人形机器人华为搜索场景百度大语言模型 xAI 预测伟达深度学习 Transformer 字节跳动 Agent 模态具身智能神器推荐 LLaMA 文本视觉 Copilot 算力工具 LLM 驾驶 API 大型语言模型应用 RAG 亚马逊