大模型

美媒：一些中国大模型已经追平甚至超越美国产品

CNBC报道称，中国想在AI领域成为统治者，这种尝试可能已经获得回报。一些美国AI业内人士和科技分析人士认为，中国AI模型已经相当流行，从性能角度看，中国的一些模型与美国产品齐头并进，甚至超越。由于无法采购美国先进AI芯片，中国只能寻找其它办法增强AI模型性能，比如依赖开源技术，开发自主软件和芯片。

12/18/2024 3:34:07 PM

小刀

Scaling Law撞墙？预训练终结？亚马逊云科技为什么还在做基础大模型

12 月 2-6 日，亚马逊云科技在美国拉斯维加斯举办了今年度的 re:Invent 大会。会上，亚马逊云科技发布了相当多东西，其中之一便是新的大模型系列 Nova。说实话，这确实出乎了相当多人的意料 —— 毕竟亚马逊已经重金押注 Anthropic，似乎没有必要再自起炉灶了。

12/18/2024 1:40:00 PM

机器之心

见证历史！AI想的科研idea，真被人类写成论文发表了

天啦撸！！ AI想出来的idea，还真有人写成论文了。

12/18/2024 1:30:00 PM

量子位

大模型超强内存优化：成本削减高达75%，性能不减弱！成果出自日本一初创AI公司之手；网友：电力可能够用了！

出品 | 51CTO技术栈（微信号：blog51cto）一项逆天的大模型优化技术来了！东京初创公司Sakana AI的研究人员开发了一种新技术，让大模型能够更有效地使用内存，不仅最多节省75%的内存占用，还甚至性能也有所提升！这种名为“通用Transformer内存”的技术使用特殊的神经网络优化LLM，保留重要的信息并丢弃冗余的细节。

12/18/2024 1:24:55 PM

百度关于大模型在研发领域落地的深度思考

一、智能研发工具的发展首先来看一下智能研发工具的发展历程和方向。智能化的发展背景与落地诉求早期的智能化工具，如 GitHub 的 Copilot 工具，大约在两年半前推出。最初，Copilot 的主要功能是在开发者编写代码时提供自动补全建议。

12/18/2024 8:33:01 AM

张立理

USENIX Sec'25 | LLM提示词注入攻击如何防？UC伯克利、Meta最新研究来了

本文介绍对 LLM 提示词注入攻击（prompt injection）的通用防御框架。首篇论文已被安全顶会 USENIX Security 2025 接收，第一作者陈思哲是 UC Berkeley 计算机系博士生，Meta FAIR 访问研究员，研究兴趣为真实场景下的 AI 安全。他的导师是 David Wagner (UCB), 郭川 (Meta), Nicholas Carlini (Google)。

12/18/2024 7:20:00 AM

AI大模型时代，人才的需求已经变了

什么是 AI 发展的第一驱动力？最近，全球科技大厂都在用行动告诉我们：人才。本月初，谷歌 NotebookLM 的核心团队共同宣布离职创业，他们新公司的网站已经进入了「建设中」的状态。

12/17/2024 9:08:00 PM

机器之心

宇树机器人强化学习代码全面开源，还有训练到仿真和实操手把手教学

9.9万元起，还能够大规模量产的国产人形机器人，表现得实在是太6了：而且还走上了开源路线，就在刚刚，宇树机器人开源的强化学习代码又更新了！更新之后不再是只能训练——不仅能够仿真运行，还能部署到实体机器，整个过程所有代码全部开放。一开始，宇树开源的是英伟达Issac Gym平台上的训练代码，这次新增了对MuJoCo模拟仿真的支持。

12/17/2024 1:00:00 PM

量子位

为多模态LLM引入ControlNet理念，开源插件解决灾难性遗忘

多模态大模型内嵌语言模型总是出现灾难性遗忘怎么办？像文生图那样有ControlNet即可解决。这就是由360人工智能研究院提出的IAA的核心思路。

12/17/2024 12:08:21 PM

华为诺亚解析：推荐系统的技术演进及大模型应用实践

一、推荐系统问题和背景首先来简要介绍一下个性化推荐系统。实际上，我们每个人每天都在与众多推荐系统进行交互。例如，购买衣物、阅读新闻或聆听音乐时，我们打开的每一个应用程序或网页，其展示的内容即为推荐系统所呈现。

12/17/2024 8:11:27 AM

刘卫文

本地构建Llama 3.2-Vision多模态LLM聊天应用实战

译者 | 朱先忠审校 | 重楼本文将以实战案例探讨如何在类似聊天的模式下从本地构建Llama3.2-Vision模型，并在Colab笔记本上探索其多模态技能。简介视觉功能与大型语言模型（LLM）的集成正在通过多模态LLM（MLLM）彻底改变计算机视觉领域。这些模型结合了文本和视觉输入，在图像理解和推理方面表现出令人印象深刻的能力。

12/17/2024 8:05:34 AM

朱先忠

谷歌 Gemini 2.0 成“P 图神器”，各种 P 图只需一句话

输入指令“把这辆车改装成敞篷车”，它就能立马将文字指令和图片结合起来，完成一键 P 图。

12/16/2024 10:49:09 PM

汪淼

Ilya错了，预训练没结束！LeCun等反击，「小模型时代」让奥特曼预言成真

最近，Ilya在NeurIPS 2024中宣布：预训练结束了！在他看来，数据如同化石燃料般难以再生，因此训练模型需要的海量数据即将枯竭。作为前OpenAI首席科学家，Ilya的这番话，有可能影响之后数十年的AI发展方向。

12/16/2024 6:20:32 PM

新智元

图像领域再次与LLM一拍即合！idea撞车OpenAI强化微调，西湖大学发布图像链CoT

OpenAI最近推出了在大语言模型LLM上的强化微调（Reinforcement Finetuning，ReFT），能够让模型利用CoT进行多步推理之后，通过强化学习让最终输出符合人类偏好。无独有偶，齐国君教授领导的MAPLE实验室在OpenAI发布会一周前公布的工作中也发现了图像生成领域的主打方法扩散模型和流模型中也存在类似的过程：模型从高斯噪声开始的多步去噪过程也类似一个思维链，逐步「思考」怎样生成一张高质量图像，是一种图像生成领域的「图像链CoT」。与OpenAI不谋而和的是，机器学习与感知（MAPLE）实验室认为强化学习微调方法同样可以用于优化多步去噪的图像生成过程，论文指出利用与人类奖励对齐的强化学习监督训练，能够让扩散模型和流匹配模型自适应地调整推理过程中噪声强度，用更少的步数生成高质量图像内容。

12/16/2024 5:44:18 PM

新智元

全球首个全模态理解开源端模型：长语音自动总结，图文音啥都会！300%推理速度领先，来自无问芯穹

全球首个端侧全模态理解开源模型来了！在菜单里帮忙选奶茶，不在话下：还能帮忙轻松提炼长语音，再也不用对着一串几十秒语音头皮发麻（doge）。就在刚刚，无问芯穹宣布开源目前世界上首个端侧全模态理解的开源模型Megrez-3B-Omni，不仅体积轻巧，速度飞快，更是一个多才多艺的全能选手，能够轻松处理图片、音频、文本三种模态数据。

12/16/2024 4:10:15 PM

世界模型进入4D时代！单视角视频构建的自由视角4D世界来了

人工智能技术正以前所未有的速度改变着我们对世界的认知与构建方式。近期，李飞飞教授团队通过单张图片生成三维物理世界的研究，再次向世界展示了空间智能技术的巨大潜力。单图生成三维世界，不仅让人们能以交互方式探索静态图像，更标志着 AI 在重建与理解物理场景方面迈入全新阶段。

12/16/2024 2:40:00 PM

机器之心

Bengio参与的首个《AI安全指数报告》出炉，最高分仅C、国内一家公司上榜

图片安全话题，在人工智能（AI）行业一向备受关注。尤其是诸如 GPT-4 这样的大语言模型（LLM）出现后，有不少业内专家呼吁「立即暂停训练比 GPT-4 更强大的人工智能模型」，包括马斯克在内的数千人纷纷起身支持，联名签署了一封公开信。这封公开信便来自生命未来研究所（Future of Life Institute），该机构由麻省理工学院教授、物理学家、人工智能科学家、《生命 3.0》作者 Max Tegmark 等人联合创立，是最早关注人工智能安全问题的机构之一，其使命为 “引导变革性技术造福生活，避免极端的大规模风险”。

12/16/2024 2:20:00 PM

机器之心

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

3 个月前，MiniMax 发布了首款 AI 高清视频生成模型 Abab-video-1。只用了 5 周时间，海螺 AI 的网页版访问量便增速超 800%，还登上了 AI 产品榜当月全球增速榜、国内增速榜双榜单 TOP 1。一时间，不少国内网友直呼其为“国产之光”。

12/16/2024 2:04:00 PM

郑佳美

资讯热榜

OpenAI低调更新GPT4o模型，多项能力反超DeepSeek 腾讯云大模型升级公告:DeepSeek-V3/ DeepSeek-R1模型将于24日正式下线 DeepSeek-R1 登顶 Hugging Face：以10000 赞力压 150 万个模型自有歪果仁为DeepSeek「辩经」：揭穿围绕DeepSeek的谣言 IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线东风日产N7首款接入DeepSeek大模型，实现智能化人机交互腾讯云上线DeepSeek全系API接口并打通联网搜索微信搜索接入DeepSeek大模型称AI不会使用朋友圈聊天等信息

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习技术智能体 Gemini 马斯克 Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法苹果 AI for Science Agent Claude 腾讯芯片 Stable Diffusion 蛋白质具身智能开发者 xAI 生成式神经网络机器学习人形机器人 3D AI视频 RAG 大语言模型研究百度 Sora 生成 GPU 工具华为字节跳动计算 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind 特斯拉场景 AI模型深度学习亚马逊架构 Transformer MCP 编程视觉预测