大模型

大模型容易忽视的安全，火山方舟早就「刻」进了基因

大模型时代，企业使用云上模型的痛点有哪些？你可能会说模型不够精准，又或者成本太高，但这些随着AI技术的快速发展，在不远的将来或许都不再是问题。比如成本，自豆包大模型首次将价格带进“厘”时代以来，行业纷纷跟进，企业客户从此不再为使用模型的成本过度高昂而烦扰。

11/15/2024 4:03:00 PM

代聪飞

谷歌 Gemini 发布苹果 iOS 版 App：集成灵动岛，支持 AI 语音聊天

谷歌本周为 iPhone 用户推出了专用的 Gemini AI 应用，突破了之前仅限于谷歌主应用的有限集成。相比此前的非独立版本，新 App 不仅增强了功能，还拥有 iOS 专属的灵动岛集成功能。

11/14/2024 10:51:37 PM

清源

简单了解大模型（LLM）智能体，传统软件工程思维依然适用

说到大模型应用的理想态，我相信很多人都可以想到《钢铁侠》里面的贾维斯，可以根据环境、天气、对手火力等情况，给钢铁侠提供决策指导或者自主决策。大模型Agent就是人们希望借助大模型实现的类似于贾维斯一样智能助手能力，它具备环境感知能力、自主理解、决策制定以及行动执行的能力。在实现Agent架构过程中，有很多思维方式和传统软件工程思维是相似的。

11/14/2024 10:48:37 AM

春哥大魔王

关于战略人工智能的深度综述

译者 | 朱先忠审校 | 重楼本文将全面探索战略性人工智能的概念、发展及相关博弈论理论，并对战略人工智能的未来发展方向提出建议。开场白1997年5月11日，纽约市。这是纽约市一个美丽的春日，天空晴朗，气温攀升至20摄氏度。

11/14/2024 8:22:34 AM

朱先忠

今日最热论文：Scaling Law后继乏力，量化也不管用，AI大佬齐刷刷附议

几十万人关注，一发表即被行业大佬评为“这是很长时间以来最重要的论文”。哈佛、斯坦福、MIT等团队的一项研究表明：训练的token越多，需要的精度就越高。例如，Llama-3在不同数据量下（圆形8B、三角形70B、星星405B），随着数据集大小的增加，计算最优的精度也会增加。

11/13/2024 3:00:42 PM

如何使用Hugging Face Transformers微调F5以回答问题？

译者 | 布加迪审校 | 重楼使用Hugging Face Transformers对T5模型进行微调以处理问题回答任务很简单：只需为模型提供问题和上下文，它就能学会生成正确的答案。 T5是一个功能强大的模型，旨在帮助计算机理解和生成人类语言。 T5的全称是“文本到文本转换器”。

11/13/2024 8:34:32 AM

布加迪

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

昨天，The Information爆料，传统的大模型Scaling Law已经撞墙，OpenAI下一代旗舰Orion遭遇瓶颈。就在刚刚，路透社也发文表示，由于当前方法受到限制，OpenAI和其他公司正在寻求通向更智能AI的新途径。有趣的是，昨天拱火的The Information，今天又急忙发出一篇文章来灭火。

11/12/2024 1:07:44 PM

新智元

在家中完成LLM微调高效指南（上）

编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）LLM在生成文本和理解信息方面非常有效，但它们最终受限于训练数据的语料库。例如，如果你让一个通用的预训练模型回答与你的业务特定流程或操作有关的问题，最好的结果是它拒绝，最坏的情况是它会信誓旦旦地给出一个看似合理但错误的答案。当然，你可以通过自己训练一个模型来解决这个问题，但所需的资源往往超出实际可行的范围。

11/11/2024 1:33:28 PM

言征

多模态模型免微调接入互联网，即插即用新框架，效果超闭源商用方案

一个5月份完成训练的大模型，无法对《黑神话·悟空》游戏内容相关问题给出准确回答。这是大模型的老毛病了。因为《黑神话》8月才上市，训练数据里没有它的相关知识。

11/11/2024 9:00:00 AM

量子位

谷歌、MIT等开发多智能体医疗决策框架MDAgents，医学LLM新用法

编辑 | 白菜叶基础模型正在成为医学领域的宝贵工具。然而，尽管它们前景广阔，但在复杂的医学任务中如何最好地利用大型语言模型 (LLM) 仍是一个悬而未决的问题。麻省理工学院、谷歌研究院和首尔国立大学医院的研究人员提出了一种新颖的多智能体框架，称为医疗决策智能体 (MDAgents)，它通过自动为 LLM 团队分配协作结构来帮助解决这一差距。

11/8/2024 2:56:00 PM

ScienceAI

Seed校招博士自述：我为什么选择来字节做大模型

原文来自知乎博主张逸霄对“大家能分享一下当前博士就业的情况吗”的回答。人在英国，刚过答辩。今年拿了腾讯 AI Lab（青云计划）、字节跳动（Seed），国外有之前实习的 Sony Research 和 Yamaha 的 return offer，国外也有正在面试的 Adobe 和 Meta。

11/8/2024 10:55:00 AM

机器之心

免训练加速DiT！Meta提出自适应缓存新方法，视频生成快2.6倍

现在，视频生成模型无需训练即可加速了？！ Meta提出了一种新方法AdaCache，能够加速DiT模型，而且是无需额外训练的那种（即插即用）。

11/8/2024 9:30:00 AM

量子位

类Sora模型到底懂不懂物理？字节完成系统性实验，图灵奖得主杨立昆赞转!

Sora爆火以来，“视频生成模型到底懂不懂物理规律”受到热议，但业界一直未有研究证实。近日，字节跳动豆包大模型团队公布最新论文，研究历时8个月，围绕“视频生成模型距离世界模型有多远”首次在业界完成系统性实验并给出明确结论：视频生成模型可以记忆训练案例，但暂时还无法真正理解物理规律，做到“举一反三”。图灵奖得主、Meta首席AI科学家杨立昆点赞并转发了该研究，表示“结论不令人意外，但很高兴终于有人做了这个尝试！

11/8/2024 9:24:00 AM

新闻助手

OpenAI o1太贵？那就自己做一个！纯提示方法让普通LLM进化出复杂推理能力

九月份，OpenAI o1正式登场。作为新一代的老大哥，o1系列专注于复杂的推理任务，一经推出也是直接屠榜了大模型竞技场。图片在下面这些难度较大的数学、编码、科学等任务中，o1不仅比GPT-4o强上一大截，甚至比人类专家还要凶猛。

11/7/2024 10:59:36 PM

新智元

借助LLM实现模型选择和试验自动化

译者 | 布加迪审校 | 重楼大语言模型（LLM）已成为一种工具，从回答问题到生成任务列表，它们在许多方面简化了我们的工作。如今个人和企业已经使用LLM来帮助完成工作。代码生成和评估最近已经成为许多商业产品提供的重要功能，以帮助开发人员处理代码。

11/7/2024 8:03:10 AM

布加迪

达摩院发布八观气象大模型：精度达1小时1公里，率先落地新能源场景

11月6日，阿里巴巴达摩院（湖畔实验室）在北京举行决策智能产品发布会，正式发布八观气象大模型，在全球气象模型基础上引入区域多源数据，时空精度最高可达1公里*1公里*1小时。通过大幅提升对温度、辐照、风速等关键气象指标的预测性能，八观气象大模型率先落地新能源占比高的新型电力系统，助力国网山东电力调控中心成功预测了多次极端天气，新能源发电功率、电力负荷预测准确率分别提升至96%和98%以上。传统上，气象学家们根据物理规律，将大气运动变化编写成一系列数学物理方程再进行数值计算，耗费大量算力资源，且受到物理模型的瓶颈制约，难以快速、高效地满足各行业不同准确率、分辨率的天气预需求。

11/6/2024 3:37:00 PM

新闻助手

IBM Granite 3.0模型：为大规模企业AI应用指明方向

IBM在企业AI领域做出了一系列颇为独特的探索。蓝色巨人目前正在推动全栈技术布局，以自2020年来兴起的AI和混合云作为企业战略领域的两大基础性支柱，同时借鉴了自身在其产品组合中积累下的优势。更重要的是，这套方案扭转了主要以AI概念验证为目标的总体趋势，转而专注于解决高度具体的业务用例，且执行效率更高。

11/6/2024 3:34:51 PM

大模型重构生命科学！最大基础模型面世，解锁DNA超长序列，参数规模达2100亿

生命科学领域，已经率先进入到基础模型时代！今年，化学诺贝尔奖授予了AlphaFold，AI Science受到空前的关注。人们惊叹于，仅仅是一个蛋白质结构预测模型，就能释放出如此巨大的行业潜力。

11/6/2024 2:58:05 PM

量子位

资讯热榜

腾讯云大模型升级公告:DeepSeek-V3/ DeepSeek-R1模型将于24日正式下线 OpenAI低调更新GPT4o模型，多项能力反超DeepSeek 腾讯云上线DeepSeek全系API接口并打通联网搜索东风日产N7首款接入DeepSeek大模型，实现智能化人机交互 DeepSeek-R1 登顶 Hugging Face：以10000 赞力压 150 万个模型自有歪果仁为DeepSeek「辩经」：揭穿围绕DeepSeek的谣言 IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线微信搜索接入DeepSeek大模型称AI不会使用朋友圈聊天等信息

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习技术智能体 Gemini 马斯克 Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法苹果 AI for Science Agent Claude 腾讯芯片 Stable Diffusion 蛋白质具身智能开发者 xAI 生成式神经网络机器学习人形机器人 3D AI视频 RAG 大语言模型 Sora 研究百度生成 GPU 工具华为字节跳动计算 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind 特斯拉场景 AI模型深度学习亚马逊架构 Transformer MCP 编程 Copilot 视觉