大模型
Meta 构建分布式 RoCEv2 网络:探索串联数万片 GPU,训练千亿参数级 AI 模型
Meta 公司于 8 月 5 日发布博文,表示为了满足大规模分布式 AI 训练对网络的需求,构建了基于 RoCEv2 协议的大规模 AI 网络。RoCEv2 的全称是 RDMA Over Converged Ethernet version 2,是一种节点间通信传输方式,用于大部分人工智能容量。Meta 公司已成功扩展了 RoCE 网络,从原型发展到部署了众多集群,每个集群可容纳数千个 GPU。这些 RoCE 集群支持广泛的生产型分布式 GPU 训练工作,包括排名、内容推荐、内容理解、自然语言处理和 GenAI 模
8/7/2024 7:35:32 AM
故渊
英伟达被曝未经许可抓取 YouTube、Netflix 平台视频用于训练 AI
科技媒体 404Media 披露的文件显示,英伟达收集了大量受版权包含的内容,用于训练人工智能(AI)。该媒体披露的内部邮件、电子邮件、Slack 对话以及相关文件显示,英伟达从 YouTube 等多个来源收集视频素材,用于扩充训练 AI 的数据集。该媒体披露的对话显示参与该项目的员工曾提出质疑,认为擅自使用 YouTube 视频以及研究目的编译的数据集,在法律层面可能会存在问题。不过项目经理的回复是,这种收集模式已经获得了公司最高层的许可,可以使用这些内容训练 AI,并认为“完全符合版权法的文字描述和精神”。一位
8/6/2024 1:53:57 PM
故渊
小扎自曝砸重金训 Meta Llama 4 模型:24 万块 GPU 齐发力,预计 2025 年发布
Llama 3.1 刚发布不久,Llama 4 已完全投入训练中。这几天,小扎在二季度财报会上称,Meta 将用 Llama 3 的十倍计算量,训练下一代多模态 Llama 4,预计在 2025 年发布。这笔账单,老黄又成为最大赢家十倍计算量,是什么概念?要知道,Llama 3 是在两个拥有 24,000 块 GPU 集群完成训练。也就是说,Llama 4 训练要用 24 万块 GPU。那么,Meta 存货还够不够?还记得小扎曾在年初宣布,计划到年底要部署 35 万块英伟达 H100。他还透露了更多的细节,Meta
8/5/2024 1:30:22 PM
汪淼
AI 大语言模型价格战将启?谷歌本月下调 Gemini 1.5 Flash 费用:降幅最高 78.6%
大语言模型的价格战要来了吗?谷歌公司昨日(8 月 2 日)更新价格页面,宣布将于 2024 年 8 月 12 日开始,Gemini 1.5 Flash 模型每百万输入 tokens 成本为 0.075 美元、每百万输出 tokens 成本为 0.3 美元(AI在线备注:当前约 2.2 元人民币)。这让 Gemini 1.5 Flash 模型的使用成本,比 OpenAI 的 GPT-4o mini 便宜近 50%。根据计算,Gemini 1.5 Flash 模型费用输入费用比此前降低 78.6%,输出费用比此前降低
8/3/2024 2:44:56 PM
故渊
谷歌勇攀 AI 新高峰,邀测最强 Gemini 1.5 Pro 模型:Arena 竞技场跑分超 GPT-4o
谷歌 AI Studio 产品总监 Logan Kilpatrick 昨日(8 月 2 日)在 X 平台发布推文,推出了实验版 Gemini 1.5 Pro AI 模型(0801),并邀请用户通过 AI Studio 和 Gemini API 测试和反馈。AI在线援引 Kilpatrick 后续推文,他表示在 LMSYS 的聊天机器人竞技场(Chatbot Arena)比赛中,无论是文本还是多模态,实验版 Gemini 1.5 Pro AI 模型(0801)均取得了第一名。实验版 Gemini 1.5 Pro AI
8/3/2024 11:50:14 AM
故渊
贾扬清一吐为快:要想赚钱,AI模型到底该大该小?
最近的AI社区,关于模型规模的讨论有些活跃。 一方面,此前在大模型开发奉为“圣经”的Scaling Law,似乎正在褪去光环。 去年大家还在猜测GPT-5的规模“可能会大到想不到”,现在这种讨论几乎绝迹。
8/3/2024 10:46:00 AM
刘洁
新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5
8月2日,lmsys官方在推特发布一则消息,恭喜DeepMind研发的Gemini 1.5 Pro 实验版 (0801)在Chatbot Arena排名登顶,超越GPT 4o和Claude-3.5夺得第一。 这是继今年3月Claude 3 “超大杯”Opus版本短暂超越GPT-4以来,OpenAI第二次让出Chatbot Arena的Overall ranking宝座。 Gemini 1.5 Pro 实验版 (0801)在Chatbot Arena测试一周后。
8/3/2024 10:35:00 AM
刘洁
现已下架,谷歌 Gemini 奥运广告遭吐槽:剥夺儿童学习机会,助涨过度依赖 AI 不良风气
谷歌在奥运期间为宣传自家 Gemini AI 服务,推出了名为《Dear Sydney》的宣传视频,不过发布后遭到广泛差评,目前已经下架。视频剧情视频的主角是一位年轻的女运动员,她的偶像是美国田径明星 Sydney McLaughlin-Levrone,旁白部分是她的父亲。她想要给 Sydney 写信,然后她的父亲借助 Gemini 来撰写了一封信件,该父亲在旁白中表示“她想向 Sydney 表达崇敬之情,情绪要饱满,但必须恰到好处”。 于是该父亲向 Gemini 发出提示词:“帮我女儿写一封信,告诉 Sydney
8/3/2024 10:07:56 AM
故渊
Poe 的新功能好强 !编程0基础,也能10分钟整出一个梗图编辑器
机器之能报道编辑:Sia国内大模型是不是要迅速跟上?最近,「北美知乎」问答社区 Quora 旗下的 AI 聊天平台 Poe,推出了一项名为「 Previews 」的新功能。有了这个实时预览功能,用户就能直接查看和使用在 Poe 聊天中生成的 Web 应用程序。也就是说,在 Poe ,你可以和一些非常擅长编码的 LLM 聊天,如 Claude-3.5-Sonnet 、GPT-4、Gemini 1.5 Pro 。聊天过程中生成的代码片段、网页设计、游戏等内容,都能在这个窗口预览到,还能上手体验。 上手体验第一把
8/1/2024 4:02:00 PM
机器之能
视频生成赛道再添“猛将”,智谱清影正式上线
年初 Sora 横空出世,验证了 Scalling Law 在视频生成方面的有效性。 但 Sora 始终止步于公开的 60 秒 demo,产品落地计划迟迟未有公开。 随后的半年时间,不少“玩家”继续在AI视频生成赛道展开角逐,并逐步实现落地。
7/31/2024 2:36:00 PM
朱可轩
厦大团队材料预测迁移学习范式登Nature子刊,发现高性能催化剂
编辑 | KX传统的材料发现依赖反复试验或偶然发现,效率低下且成本高昂。AI 在发现新型催化剂方面潜力巨大。然而,受到算法的选择,以及数据质量和数量的影响。在此,来自厦门大学、深圳大学、武汉大学、南京航空航天大学和英国利物浦大学的研究团队开发了一种迁移学习范式,结合了预训练模型、集成学习和主动学习,能够预测未被发现的钙钛矿氧化物,并增强该反应的通用性。通过筛选 16,050 种成分,鉴定和合成了 36 种新的钙钛矿氧化物,其中包括 13 种纯钙钛矿结构。Pr0.1Sr0.9Co0.5Fe0.5O3(PSCF)和 P
7/31/2024 2:18:00 PM
ScienceAI
寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯:虚拟试衣新框架,只需两张图 30 秒即生成
只需两张图像,不到 30 秒,就能让马斯克穿牛仔走红毯~或者让寡姐带货国风 Polo 衫~就是二次元换装也不在话下。来自中山大学、Pixocial 等机构联合发布轻量化模型架构 CatVTON。他们是以 Stable Diffusion v1.5 inpainitng 为基础模型。来看看更多效果。用扩散模型进行虚拟试衣CatVTON 可以实现传统平铺服装图到人物的换装。不管是上衣、裤子、裙子,还是套装,各种不同品类服装都可以。其形状和纹理都能保持较高的一致性。另外,CatVTON 还可以实现人物 A 到人物 B 的
7/30/2024 8:57:58 PM
汪淼
Llama3.1 训练平均 3 小时故障一次,H100 万卡集群好脆弱,气温波动都会影响吞吐量
每 3 个小时 1 次、平均 1 天 8 次,Llama 3.1 405B 预训练老出故障,H100 是罪魁祸首?最近有人从 Meta 发布的 92 页超长 Llama 3.1 论文中发现了华点:Llama 3.1 在为期 54 天的预训练期间,经历了共 466 次任务中断。其中只有 47 次是计划内的,419 次纯属意外,意外中 78% 已确认或怀疑是硬件问题导致。而且 GPU 问题最严重,占了 58.7%。Llama 3.1 405 模型是在一个含 16384 块 Nvidia H100 80GB GPU 集群
7/29/2024 5:54:34 PM
清源
英伟达最新技术分享:手把手教你用 Llama 3.1 合成数据改进模型!附代码
适逢 Llama 3.1 模型刚刚发布,英伟达就发表了一篇技术博客,手把手教你如何好好利用这个强大的开源模型,为领域模型或 RAG 系统的微调生成合成数据。Epoch AI 上个月刚刚发文预言「数据墙」迫近,结果英伟达转头就甩出了 340B 开源巨兽 Nemotron。真实数据稀缺可能不再是问题了,Nemotron 9T token 的预训练预料中,98% 都是合成数据。也许你还对合成数据存在顾虑,或者不知道如何应用 LLM 驱动数据生成。或许,英伟达的这篇博客可以提供答案。原文地址:,用 LLM 合成数据的本质究
7/29/2024 4:20:08 PM
清源
FBI-LLM低比特基础大语言模型来了,首个完全从头训练的二值化语言模型
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]作者介绍:论文一作Liqun Ma目前是MBZUAI机器学习系的博士生,导师为Zhiqiang Shen助理教授,同时也是该论文的最后作者,其在加入MBZUAI之前为CMU博士后,研究领域
7/28/2024 11:17:00 PM
机器之心
OpenAI SearchGPT 官方演示大翻车,源代码竟暴露搜索机制
SearchGPT 发布刚过两天,已有人灰度测试到了。今天,网友 Kesku 自制的 demo 全网刷屏,SearchGPT 结果输出如此神速,让所有人为之震惊。当询问 Porter Robinson 出了新唱片吗?只见,SearchGPT 眨眼功夫之间,即刻给出了答案「Smile」,最后还附上了链接。再来看移动版本的回答速度,回答延迟几乎为 0。评论区下方,震惊体铺屏。但另一方面,OpenAI 当天放出的官方演示,被外媒《大西洋月刊》曝出其中的问题。在回答「8 月在北卡罗来纳 Boone 举办的音乐节」的问题时,
7/28/2024 5:33:29 PM
远洋
为什么AI数不清Strawberry里有几个 r?Karpathy:我用表情包给你解释一下
让模型知道自己擅长什么、不擅长什么是一个很重要的问题。还记得这些天大模型被揪出来的低级错误吗?不知道 9.11 和 9.9 哪个大,数不清 Strawberry 单词里面有多少个 r…… 每每被发现一个弱点,大模型都只能接受人们的无情嘲笑。嘲笑之后,大家也冷静了下来,开始思考:低级错误背后的本质是什么?大家普遍认为,是 Token 化(Tokenization)的锅。在国内,Tokenization 经常被翻译成「分词」。这个翻译有一定的误导性,因为 Tokenization 里的 token 指的未必是词,也可以
7/27/2024 11:22:00 PM
机器之心
“AI 分析师”登陆华尔街,摩根大通开始内部推广聊天机器人
据《金融时报》今日报道,摩根大通开始在公司内部推出一款生成式 AI 产品,并告诉员工这款“自有版本的 ChatGPT”可以完成研究分析师的工作。▲ 图源摩根大通报道援引摩根大通内部备忘录称,该公司已经向其资产和财富管理部门的员工提供了一个名为 LLM Suite 的大型语言模型平台。高管们告诉员工,LLM Suite 可以通过访问第三方模型帮助他们撰写、生成创意和总结文件。LLM Suite 被描述为一个“类似 ChatGPT 的产品”,用于“通用生产力”领域。知情人士表示,摩根大通今年早些时候开始向部分银行员工推
7/26/2024 11:09:38 PM
清源
资讯热榜
6秒视频10秒生成!全新AI视频神器 Grok Imagine 深度体验+元提示词分享
AI玩拼图游戏暴涨视觉理解力,告别文本中心训练,无需标注的多模态大模型后训练范式
OpenAI 为 ChatGPT 推出智能记忆清理功能,Plus 用户率先体验
大的来了:谷歌Gemini 3.0 Pro单次生成网页版操作系统,Win、Mac、Linux一网打尽
AI圈重磅发布!九大章节深度解读313页的State of AI 2025报告
大模型降本增效,稀疏注意力机制的魔力在哪?
算力帝国再扩张!OpenAI豪掷3500-5000亿美元购博通10吉瓦算力
前董事长罕见曝OpenAI的“痛苦与困境”:我们正走向计算稀缺世界!内部GPU分配如玩俄罗斯方块,Sora2实为被削弱的原始模型
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
论文
LLM
代码
算法
芯片
Stable Diffusion
苹果
腾讯
AI for Science
Agent
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
研究
人形机器人
生成
AI视频
百度
大语言模型
Sora
工具
GPU
具身智能
RAG
华为
计算
字节跳动
AI设计
搜索
AGI
大型语言模型
场景
视频生成
深度学习
架构
DeepMind
视觉
预测
伟达
Transformer
编程
AI模型
生成式AI
神器推荐
Copilot