大模型

美欧亚三洲开发者联手，全球首个组团训练的大模型来了，全流程开源

11 月 22 日，Prime Intellect 宣布通过去中心化方式训练完成了一个 10B 模型。 30 号，他们开源了一切，包括基础模型、检查点、后训练模型、数据、PRIME 训练框架和技术报告。据了解，这应该是有史以来首个以去中心化形式训练得到的 10B 大模型。

12/2/2024 12:47:08 PM

机器之心

图结构转文本序列，大模型直接读懂！图推理性能大涨

大语言模型直接理解复杂图结构的新方法来了：将图（Graph）转换为适合Transformer架构的线性token序列。 belike：这种最新图线性化方法，反映了自然语言中局部依赖性和全局对齐性两个关键属性，即：不仅需要保留基于前文上下文预测下一个token的能力（局部依赖性），而且不同图的token序列应该从具有相似特征的token开始或结束（全局对齐性），就像自然语言文本经常以特定词语开头或结尾。如此一来，在海量文本数据上训练的LLM也能更好地理解图结构中的关系和属性，如节点计数、最大度数计算和图式形状分类等图推理任务都能完成。

12/2/2024 12:37:42 PM

微软：两个AI相互纠错，数学再涨5分

提升LLM数学能力的新方法来了——一个大模型不行，那就两个。让他们彼此合作，纠正对方的错误。这就是来自加州大学和微软研究院的最新研究成果：Flow-DPO。

12/2/2024 12:30:44 PM

微软发明全新「LLM语言」，AI智能体交互效率翻倍！

在《星球大战》中，机器人R2-D2和其他机器人使用特殊的语言进行交流。这种语言主要由蜂鸣声和口哨声组成，被称为「二进制语」（Binary）或「机器人语」（Droidspeak）。 Droidspeak是专门为机器人之间的交流设计的，只有机器人能够完全理解其精确含义。

12/2/2024 10:15:00 AM

新智元

揭秘：为何大模型总是赚不到钱？行业内幕大曝光！

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）一个扎心的问题：大模型盈利了吗？随着技术的发展，AI 逐渐走下了「神坛」，整个业界都变得更加客观和务实。从OpenAI 今年高达 50 亿的天价亏损，到月暗沸沸扬扬的前投资人仲裁风波，大模型厂商的生意之路不是铺满大额融资的花路，而是充满了坎坷和荆棘。

12/2/2024 9:37:09 AM

伊风

将大语言模型集成到现有软件系统的完整指南

译者 | 布加迪审校 | 重楼随着最近应用迅速普及开来、人工智能（AI）得到广泛采用，大语言模型（LLM）已变得备受广大公司企业、开发人员和非开发人员的欢迎，因为它们为用户提供了诸多好处。它们帮助开发人员调试代码并生成代码片段，还帮助澄清看似复杂的编程概念和任务，从而提高生产力。只要用于训练的数据集涵盖主题，使用LLM的非开发人员就可以受益于对问题做出快速且定制的响应和答复。

12/2/2024 8:10:31 AM

布加迪

清华新VLA框架加速破解具身智能止步实验室“魔咒”，LLM开销节省4-6倍 | NeurIPS'24

计算、存储消耗高，机器人使用多模态模型的障碍被解决了！来自清华大学的研究者们设计了DeeR-VLA框架，一种适用于VLA的“动态推理”框架，能将LLM部分的相关计算、内存开销平均降低4-6倍。（VLA：视觉-语言-动作模型，代表一类用于处理多模态输入的模型）简单来说，DeeR-VLA就像人的决策系统：简单任务快速思考，复杂任务仔细思考。

12/2/2024 7:10:00 AM

apk 文件显示，谷歌 Gemini 未来将支持代码文件夹 AI 分析功能

如果这一功能上线，用户将能够直接向 Gemini 上传代码文件夹。虽然 Gemini 已具备阅读单个代码文件并提供反馈的能力，但实际开发项目往往由多个代码文件组成。

11/30/2024 9:48:15 PM

清源

国家管网“管网”大模型正式上线应用，基于华为算力底座和技术栈

据华为官方消息，11 月 29 日，国家管网集团“管网”大模型正式上线应用。“管网”大模型基于华为算力底座和技术栈，打造“管网制度流程 + 数据 + IT + 大模型”体系，构建具有管网特色的大模型方案。

11/30/2024 5:57:28 PM

浩渺

关于 Meta Llama 3，你知道多少？

2024年，对于人工智能领域来说可谓意义非凡。继 OpenAI 推出备受赞誉的 GPT-4o mini后，Meta 的 Llama 3.1 模型亦在 . 7月23日惊艳亮相，再一次掀起了新一轮人工智能热潮。

11/29/2024 4:55:04 PM

架构驿站

重磅开源！Kimi把自家底层推理架构都开源了，开源贡献阵容相当豪华：清华、阿里、华为、AISoft、面壁智能

就在昨天，Kimi宣布要把自家底层的大模型推理架构Mooncake开源出来！有媒体称该架构正是承载了月之暗面Kimi线上80%以上流量的正在用的底层架构。小编立马求证了一番，的确Github上有提到：Mooncake 正在服务Kimi平台。

11/29/2024 1:54:13 PM

Kimi开源底层推理框架，1小时GitHub揽星1.2k

什么？ Kimi底层推理架构刚刚宣布：开！源！

11/29/2024 7:00:00 AM

OpenAI API：LLM编程的事实标准

当下，大模型领域已然步入 “百模大战” 时期，形形色色的大模型如雨后春笋般不断涌现。那么，若我们打算学习大模型的 API，是否真的需要逐一去钻研呢？答案无疑是否定的。

11/28/2024 4:45:50 PM

greencoatman

官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake

2024年6月，国内优质大模型应用月之暗面Kimi与清华大学MADSys实验室（Machine Learning, AI, Big Data Systems Lab）联合发布了以 KVCache 为中心的大模型推理架构 Mooncake。通过使用以 KVCache 为中心的 PD 分离和以存换算架构，大幅提升大模型应用Kimi智能助手推理吞吐的同时有效降低了推理成本，自发布以来受到业界广泛关注。近日，清华大学和研究组织9#AISoft，联合以阿里云为代表的多家企业和研究机构，正式开源大模型资源池化项目 Mooncake。

11/28/2024 3:51:00 PM

新闻助手

上海AI实验室版o1已上线！数学竞赛题、Leetcode赛题全拿下，还会玩24点

国产o1新选手登场！它能快速解决更复杂的数学解题、代码编程、数字游戏等任务。这就是上海AI实验室版o1——强推理模型书生InternThinker，刚刚正式开放试用！

11/28/2024 1:40:00 PM

量子位

月之暗面 Kimi 联合清华大学等开源大模型推理架构 Mooncake

本次开源将采用分阶段的方式，逐步开源高性能 KVCache 多级缓存 Mooncake Store 的实现，同时针对各类推理引擎和底层存储 / 传输资源进行兼容。

11/28/2024 1:06:19 PM

汪淼

标记化在LLM中有怎样的重要作用？

译者 | 李睿审校 | 重楼如今，GPT-3、GPT-4或谷歌的BERT等大型语言模型（LLM）已经成为人工智能理解和处理人类语言的重要组成部分。但在这些模型展现出令人印象深刻的能力背后，却隐藏着一个很容易被忽视的过程：标记化。本文将解释标记化的定义，标记化如此重要的原因，以及在实际应用中是否能够规避这一步骤。

11/28/2024 8:15:44 AM

李睿

1行代码改进大模型训练，Llama训练速度提升至1.47倍，全华人团队出品

只要改一行代码，就能让大模型训练效率提升至1.47倍。拥有得州大学奥斯汀分校背景四名华人学者，提出了大模型训练优化器Cautious Optimizers。在提速的同时，Cautious能够保证训练效果不出现损失，而且语言和视觉模型都适用。

11/27/2024 2:30:00 PM

量子位

资讯热榜

腾讯云大模型升级公告:DeepSeek-V3/ DeepSeek-R1模型将于24日正式下线 OpenAI低调更新GPT4o模型，多项能力反超DeepSeek DeepSeek-R1 登顶 Hugging Face：以10000 赞力压 150 万个模型自有歪果仁为DeepSeek「辩经」：揭穿围绕DeepSeek的谣言 IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线东风日产N7首款接入DeepSeek大模型，实现智能化人机交互腾讯云上线DeepSeek全系API接口并打通联网搜索微信搜索接入DeepSeek大模型称AI不会使用朋友圈聊天等信息

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习技术智能体 Gemini 马斯克 Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法苹果 AI for Science Agent Claude 腾讯芯片 Stable Diffusion 蛋白质具身智能开发者 xAI 生成式神经网络机器学习人形机器人 3D AI视频 RAG 大语言模型研究百度 Sora 生成 GPU 工具华为字节跳动计算 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind 特斯拉场景 AI模型深度学习亚马逊架构 Transformer MCP 编程视觉预测

大模型