大模型

小米黑客马拉松落幕，大模型「智能头盔」获一等奖

本届黑客松上，319 位小米人，产出了 63 个新技术作品。

7/9/2024 7:13:00 PM

新闻助手

港大马毅：现在的大模型只有「知识」，没有「智能」

导语：知识与智能是两个概念。访谈 | 陈彩娴撰文丨马蕊蕾编辑丨陈彩娴当多数人将 Scaling Law（规模定律）作为信仰并投身其中时，马毅却选择了一条少有人走的路。「模型无所谓大小，我们说正确的模型，主要看机制是否正确，这才是智能的本质。

7/9/2024 3:31:00 PM

马蕊蕾

开源3D医学大模型SAT，支持497类器官，性能超越72个nnU-Nets，上交大团队发布

作者 | 上海交通大学、上海人工智能实验室编辑 | ScienceAI近日，上海交通大学与上海人工智能实验室联合团队发布3D医学图像分割大模型SAT（Segment Anything in radiology scans, driven by Text prompts），在3D医学图像（CT、MR、PET）上，基于文本提示实现对人体497种器官/病灶的通用分割。所有数据和代码、模型均已开源。论文链接：：：、手术规划和疾病监测等一系列临床任务中都有重要作用。然而，传统的研究针对每个特定的分割任务训练「专用」模型，导致

7/9/2024 1:41:00 PM

ScienceAI

北大千问团队推出数学专用版 CriticGPT，“找茬”让大模型进步更快

批评不仅能让人进步，也能让大模型的能力提升。OpenAI 就用这个思路造了个“找茬模型”CriticGPT。非常巧合的是，就在 CriticGPT 放出的前几天，北大联合千问等团队以类似的思路设计出了“数学专用版”CriticGPT。在无需训练的设置下，验证器能够在推理时辅助模型在 GSM8K 上的准确率从 86.6% 提升到 88.2%。在 GSM8K 数据集上，它可以让模型的准确率从 86.6% 提升到 88.2%。CriticGPT 的核心思路是在代码中故意设置 bug 并进行详细标注，然后用得到的数据训练出

7/8/2024 11:30:24 PM

清源

Anthropic 首席执行官：未来三年内，AI 大模型训练成本将上升至百亿甚至千亿美元

据 Tom's Hardware 今日报道，AI 初创公司 Anthropic 的首席执行官 Dario Amodei 近期接受播客节目采访时表示，目前像 GPT-4o 这样的模型训练成本约为 1 亿美元，而目前正在开发的 AI 大模型训练成本可能高达 10 亿美元（AI在线备注：当前约 72.94 亿元人民币）。当然，10 亿美元还不是“终点”。Dario Amodei 作出预测，未来三年内，AI 大模型的训练成本将上升至 100 亿美元甚至 1000 亿美元（当前约 7294.28 亿元人民币）。Dario A

7/8/2024 3:58:29 PM

清源

启明创投发布2024生成式AI十大展望

7月6日，由启明创投主办的2024世界人工智能大会（WAIC）“启明创投·创业与投资论坛——超级模型、超级应用、超级机遇”在上海世博中心红厅成功举办。大语言模型、多模态模型、具身智能和生成式AI应用领域的著名专家与学者，顶尖投资人和领军创业者汇聚一堂，围绕生成式AI基础技术进展、商业应用前景和创业投资生态等主题展开分享与交流。启明创投从2013年开始系统性布局人工智能领域，从AI 1.0到AI 2.0，经过十余年的深耕与前沿洞察，启明创投在AI领域投资了众多项目，多家上市或成长为独角兽企业。

7/7/2024 10:48:00 PM

晓楠

100天后，阶跃星辰交出了第二份答卷

今年 3 月，「借着」 2024 全球开发者先锋大会的场子，「国内最后一家通用大模型公司」——阶跃星辰发布了 Step 系列通用大模型，包括 Step-1 千亿参数语言大模型、Step-1V 千亿参数多模态大模型以及 Step-2 万亿参数 MoE 语言大模型预览版，正式进入大众视野，并成功跻身国内六大大模型独角兽行列。另外五家分别是月之暗面、智谱、MiniMax、百川、零一万物。当然，这一份成绩很是亮眼，一举将国内大模型卷到万亿参数赛道（预览版）。

7/5/2024 9:29:00 PM

晓楠

无限光年发布光语大模型，以灰盒可信技术深耕专业场景，赋能千行百业

7月4日，可信大模型公司无限光年（INF）在2024年世界人工智能大会（WAIC）上发布可信光语大模型及其技术报告。可信光语大模型结合大语言模型与符号推理，有效解决幻觉问题，大幅增强模型可信度，赋能金融服务、医疗诊断等垂直领域，让生成式AI真正成为新质生产力工具。在“人工智能：科研范式变革与产业发展”主题论坛上，无限光年联合创始人徐盈辉博士表示，幻觉问题是大模型被用作生产力工具的核心挑战之一：如果大模型生成的内容不可控、难以解释，就很难满足专业领域对准确性、可靠性、严谨性的要求。

7/5/2024 2:30:00 PM

晓楠

13瓦功耗处理10亿参数，接近大脑效率，消除LLM中的矩阵乘法来颠覆AI现状

编辑 | 萝卜皮通常，矩阵乘法 (MatMul) 在大型语言模型（LLM）总体计算成本中占据主导地位。随着 LLM 扩展到更大的嵌入维度和上下文长度，这方面的成本只会增加。加州大学、LuxiTech 和苏州大学的研究人员声称开发出一种新方法，通过消除过程中的矩阵乘法来更有效地运行人工智能语言模型。这从根本上重新设计了目前由 GPU 芯片加速的神经网络操作方式。研究人员描述了如何在不使用 MatMul 的情况下创建一个自定义的 27 亿参数模型，性能与当前最先进的 Transformer 模型相当。该研究以「Scal

7/4/2024 3:42:00 PM

ScienceAI

巴西政府机构出手，禁止 Meta 公司使用用户数据训练生成式 AI 模型

感谢据美联社报道，巴西国家数据保护局当地时间周二（2 日）认定，拥有 Facebook、Instagram、WhatsApp 等平台的社交网络巨头 Meta 将不得使用来自巴西的数据来训练其生成式 AI 模型。Meta 近期更新了隐私政策，允许公司可将人们的公开帖子用于训练其模型。根据巴西国家数据保护局的公报，Meta 此举将会对受影响数据主体的基本权利造成严重的、不可挽回的或难以修复的损害，此次下达的禁令是“预防性措施”。巴西是 Meta 的最大市场之一。在该国 2.03 亿的总人口（IT之家注：数据来自 202

7/3/2024 7:16:46 PM

清源

亮点剧透丨大模型产业应用如何落地，WAIC 探讨技术突破与最新实践

以大模型为代表的新一代人工智能技术变革仍在加速迭代，为“新质生产力”的发展注入强劲动力，助力产业智能化升级和经济发展。目前，大模型在产业端，已经开始从任务简单、容错率高的场景向任务复杂、容错率低的场景渗透，这个趋势既得益于基础技术的提升与创新实践的探索，也进一步推动着技术变革与实践深化。由世界人工智能大会组委会办公室指导，新一代人工智能产业技术创新战略联盟（AITISA）主办，蚂蚁集团承办的“可信大模型助力产业创新发展论坛”，将于7月5日在上海·世博中心金厅举行。

7/2/2024 12:04:00 PM

我在思考中

从零开始，用英伟达T4、A10训练小型文生视频模型，几小时搞定

很翔实的一篇教程。OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion 以及许多其他已经发布或未来将出现的文本生成视频模型，是继大语言模型 (LLM) 之后 2024 年最流行的 AI 趋势之一。在这篇博客中，作者将展示如何将从头开始构建一个小规模的文本生成视频模型，涵盖了从理解理论概念、到编写整个架构再到生成最终结果的所有内容。由于作者没有大算力的 GPU，所以仅编写了小规模架构。以下是在不同处理器上训练模型所需时间的比较。作者表示，在 CPU 上运行显然需要更长

7/1/2024 5:22:00 PM

机器之心

击败25个分子设计算法，佐治亚理工、多伦多大学、康奈尔提出大语言模型MOLLEO

作者 | 佐治亚理工学院王浩瑞编辑 | ScienceAI分子发现作为优化问题，因其优化目标可能不可微分而带来显著的计算挑战。进化算法（EAs）常用于优化分子发现中的黑箱目标，通过随机突变和交叉来遍历化学空间，但这会导致大量昂贵的目标评估。在这项工作中，佐治亚理工学院、多伦多大学和康奈尔大学研究者合作提出了分子语言增强进化优化（MOLLEO），通过将拥有化学知识的预训练大语言模型（LLMs）整合到进化算法中，显著改善了进化算法的分子优化能力。该研究以《Efficient Evolutionary Search Ov

7/1/2024 4:14:00 PM

ScienceAI

Meta 推出 LLM Compiler 代码优化模型，可搭配其他 AI 改善代码生成 / 编译能力

Meta 前天推出了一款名为“LLM Compiler”的模型，该模型基于 Meta 现有的 Code Llama 打造，主打代码优化，目前相关模型已登陆 Hugging Face，提供 70 亿参数及 130 亿参数两个版本，允许学术及商业使用，IT之家附项目地址如下：点此访问。Meta 认为，尽管业界各大语言模型已在各种编程代码任务中展现了出色的能力，但此类模型在代码优化还有进步空间，目前推出的 LLM Compiler 模型便是一款专为优化代码任务设计的预训练模型，能够模拟编译器对代码进行优化，或将“已经过优

6/30/2024 5:47:55 PM

漾仔

菲尔兹奖得主亲测 GPT-4o，经典过河难题破解失败

编辑：桃子乔杨【新智元导读】LLM 能否解决「狼-山羊-卷心菜」经典过河难题？最近，菲尔兹奖得主 Timothy Gowers 分享了实测 GPT-4o 的过程，模型在最简单的题目上竟然做错了，甚至网友们发现，就连 Claude 3.5 也无法幸免。在经典的「狼-山羊-卷心菜」过河问题上，如今所有的 LLM 都失败了！几天前，菲尔兹奖得主、剑桥大学研究主任 Timothy Gowers 直接拿 GPT-4o 开刀，去解决动物过河难题。在此，他给出了一个新的基准 —— 废话比率（crapness ratio），即 L

6/30/2024 2:15:14 PM

远洋

Meta 发布基于 Code Llama 的 LLM 编译器：优化代码大小、反汇编

感谢Meta 官方在 X 平台宣布推出 LLM 编译器，这是一个基于 Meta Code Llama 构建的模型家族，具有额外的代码优化和编译器功能。这些模型可以模拟编译器，预测代码大小的最佳传递，并可反汇编代码，可以针对新的优化和编译器任务进行微调。Meta 在 HuggingFace 上公开了 LLM 编译器的 7B 和 13B 模型，采用宽松的许可协议，允许用于研究和商业用途。IT之家附链接：，LLM 在各种软件工程和编码任务中展示其能力，然而在代码和编译器优化领域的应用仍然未被充分探索。为了解决这一问题，M

6/28/2024 1:25:58 PM

沛霖（实习）

200 亿估值之后，中国大模型公司还能拿谁的钱？

「200 亿」成为高风险投资代名词的直接原因，是无论美元基金（如红杉、IDG）或人民币基金（如启明、君联），其背后的 LP 主力背景里都有地方政府与国资，后者的投资喜好是风险厌恶。「200亿是不是一个坎」成为投资者与创业者都要思考的共同问题。目前，中国只有两家公司（智谱 AI 与月之暗面）在以估值约 30 亿美元、200 亿人民币进行新一轮融资。

6/28/2024 11:23:00 AM

张进

《Python 机器学习》作者新作：从头开始构建大型语言模型，代码已开源

自 ChatGPT 发布以来，大型语言模型（LLM）已经成为推动人工智能发展的关键技术。近期，机器学习和 AI 研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 又写了一本新书 ——《Build a Large Language Model (From Scratch)》，旨在讲解从头开始构建大型语言模型的整个过程，包括如何创建、训练和调整大型语言模型。最近，Sebastian Raschka 在 GitHub 上开源了这本新书对应的代码库。项目地址： LLM 来说，指令微调能够有效

6/24/2024 10:53:00 AM

机器之心

资讯热榜

苹果发布全新Xcode 26开发者工具：内置ChatGPT先进AI功能那个男人回来了！Ilya现身多伦多大学毕业典礼：AI 像是用数字方式复制出来的大脑！不管你愿不愿意，AI都将深刻影响你的一生！ DeepSeek前高管秘密创业，新AI Agent项目已获顶级VC押注 ChatGPT 语音功能升级，实时翻译对话更自然流畅支持MCP！开源智能体开发框架 Rowboat：打造你的智能助手只需几分钟谷歌 Gemini 应用月下载量超越 ChatGPT，用户活跃度仍显不足长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试苹果 WWDC 2025:iOS 26升级视觉智能，AI 助力屏幕内容识别

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画数据谷歌机器人大模型 Midjourney 用户智能开源微软 GPT 学习 Meta 图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法代码英伟达 Anthropic 芯片生成式开发者蛋白质腾讯神经网络研究 3D 生成训练苹果计算智能体 Sora 机器学习 AI设计 AI for Science Claude GPU AI视频人形机器人华为搜索场景百度大语言模型 xAI 预测伟达深度学习 Transformer 字节跳动 Agent 模态具身智能神器推荐 LLaMA 文本视觉 Copilot 算力工具 LLM 驾驶 API 大型语言模型应用 RAG 亚马逊