大模型

遗憾不？原来百度2017年就研究过Scaling Law，连Anthropic CEO灵感都来自百度

在追求 AGI 的道路上，Scaling Law 是绕不开的一环。如果 Scaling Law 撞到了天花板，扩大模型规模，增加算力不能大幅提升模型的能力，那么就需要探索新的架构创新、算法优化或跨领域的技术突破。作为一个学术概念，Scaling Law 为人所熟知，通常归功于 OpenAI 在 2020 年发的这篇论文：论文标题：Scaling Laws for Neural Language Models论文链接：、数据量、计算资源增加而指数提升。

11/27/2024 1:40:00 PM

机器之心

提示工程：更好地释放LLM的能力

提示工程，正如其名，主要聚焦于探究如何创作提示词。存在提示工程的一个关键缘由在于，大模型在不同人群的视角下所发挥的作用差异显著。普通使用者往往仅将大模型视作聊天机器人，他们着重关注的是大模型能否迅速且精准地予以反馈。

11/27/2024 10:23:31 AM

greencoatman

如何借助Cortex运行本地LLM

译者 | 布加迪审校 | 重楼AI行业正在经历一场转变，转向更小巧更高效的大语言模型（LLM），从而使用户能够在本地机器上运行模型，无需功能强大的服务器。本教程将指导你借助Cortex运行本地LLM，着重介绍其独特的功能和易用性，使任何拥有标准硬件的人都可以享用AI。注意：Cortex目前正在积极开发中，这可能会导致bug或某些功能无法正常运行。

11/27/2024 8:14:43 AM

布加迪

UC伯克利：给大模型测MBTI，Llama更敢说但GPT-4像理工男

如果你经常在不同大模型之间来回切换，或许会发现不同模型的回复语气有细微差异，如同有不同的性格。那么，LLM究竟有没有「性格」这种维度的特征？最近加州大学伯克利分校发表的新研究VibeCheck就证实了这种推测。

11/26/2024 1:40:00 PM

新智元

吴恩达开源大模型套件：11 个模型平台一种方式调用，已获星标超 1.2K

它把 11 家知名大模型平台集中到了一起，统一了接口，可以用相同的方式调用不同模型。切换模型时，只需要改动一个字符串，不用在不同的 API 之间摸不着头脑了。

11/26/2024 1:03:37 PM

汪淼

提示词：怎样与大模型沟通

同前面讲大模型特点类似，关于如何使用 GPT，我们也会分成两个视角：用户视角和技术视角。这一讲，我们先从用户视角来看看如何用好 GPT。用好 GPT若要充分发挥 GPT 的效用，需遵循以下步骤：首先是定义任务目标。

11/26/2024 11:44:04 AM

greencoatman

【RAG】浅看引入智能信息助理提升大模型处理复杂推理任务的潜力-AssisTRAG

AssisTRAG通过集成一个智能信息助手来提升LLMs处理复杂推理任务的能力。该框架由两个主要组件构成：一个冻结的主语言模型和一个可训练的助手语言模型。 AssisTRAG与之前的RAG对比1.

11/26/2024 8:50:20 AM

余俊晖

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

最近，OpenAI高级研究副总裁Mark Chen在炉边谈话中，正式否认「Scaling Law撞墙论」。他表示，并没有看到Scaling Law撞墙，甚至OpenAI还有两个范例——o系列和GPT系列，来保持这种Scaling。用他的话说，「我们准确地掌握了需要解决的技术挑战」。

11/25/2024 3:50:00 PM

新智元

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

AI智能体离自主研发，还有多远？ Nature期刊的一篇研究曾证明了，GPT-4能自主设计并开展化学实验，还能阅读文档学习如何使用实验室设备。另有Transformer作者之一研发的「世界首个AI科学家」，一口气肝出10篇论文，完全不用人类插手。

11/25/2024 9:10:00 AM

新智元

滴滴ChatBI技术实践：智能数据分析的前沿探索与应用

一、ABI 方向的演进及 ChatBI 领域现状1. BI 产品的演进方向BI 产品的发展经历了从报表式 BI 到自助式 BI 的演变，而当前智能 BI 则吸引了大家的广泛关注与大量投入。无论是早期的增强分析技术，还是如今新兴的 ChatBI 产品形态，其核心目的都在于降低用户利用数据的门槛与成本。

11/25/2024 8:50:24 AM

王涛

火山引擎基于大模型 ChatBI 的演进与实践

一、背景与趋势1. BI 平台演进 - 全面进入智能化在探讨火山引擎 BI 工具的发展历程时，可以清晰地划分为几个关键阶段，这些阶段亦与市面上主流 BI 工具的演进过程相吻合。最初，传统 BI 工具主要聚焦于报表平台，由业务方提出需求，产研团队作为数据的主要生产者，负责制造简单的报表，以辅助经营仪表盘的制作。

11/25/2024 8:20:22 AM

刘然

腾讯混元大模型核心论文曝光：Scaling law、MoE、合成数据以及更多

随着 ChatGPT 的横空出世，大语言模型能力开始在各项领域（传统 NLP、数学、代码等）得到广泛验证，目前已经深刻影响到腾讯混元团队日常生活的方方面面。腾讯混元团队长期致力于大语言模型的探索之路，大模型生产的各个环节开展研究创新以提升其基础能力，并将混元大模型的能力跟业务做深度结合，让生成式 AI 成为业务增长的放大器。大语言模型的设计、训练和优化是一项复杂的系统工程，涉及到模型结构创新、训练范式优化、数据获取和评测设计、关键能力提升和挑战性问题的解决等方方面面。

11/22/2024 5:23:00 PM

新闻助手

首个可保留情感的音频 LLM：Meta 重磅开源 7B-Spirit LM，一网打尽“音频 + 文本”多模态任务

Meta 开源了一个基础多模态语言模型 Spirit LM，基于一个 70 亿参数的预训练文本语言模型，交错使用文本和语音数据进行训练，使模型能够自由地混合文本和语音，在任一模态中生成语言内容。

11/22/2024 1:04:32 PM

问舟

谷歌 Gemini 突发试验版模型：重回竞技榜第一，新版 GPT-4o 只领先了 1 天

在新版 GPT-4o 刚登顶竞技榜后 1 天，立马发布最新试验版模型 Gemini-Exp-1121 夺回冠军宝座。要知道，一周前上一版模型 Gemini-Exp-1114 才发布。这怕不是拿准了 OpenAI 会来争擂台，故意留了一手。

11/22/2024 12:45:30 PM

汪淼

写给小白的大模型入门科普

什么是大模型？大模型，英文名叫Large Model，大型模型。早期的时候，也叫Foundation Model，基础模型。

11/22/2024 10:45:20 AM

小枣君

没有思考过 Embedding，谈何 RAG，更不足以谈 AI大模型

今天，我们来聊聊 AI 大模型，有一个非常重要概念 "Embedding"。你可能听说过它，也可能对它一知半解。如果你没有深入了解过 Embedding，那你就无法真正掌握 RAG 技术，更不能掌握 AI 大模型精髓所在。

11/21/2024 3:44:21 PM

渔夫

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 | NeurIPS 2024

混合专家模型（MoE, Mixture of Experts）是一种通过动态激活网络的部分结构来提升计算效率的架构，可以在保持相对稳定的计算成本的前提下大幅增加参数量，从而有效提升模型性能。这一特性使得MoE能够兼顾模型的规模与效率，已广泛应用于各种大规模任务。然而，MoE模型通常需要在大型数据集上预训练以获得理想性能，导致其对时间和计算资源的需求极高，这也限制了其在深度学习社区中的普及性。

11/21/2024 10:21:06 AM

新智元

405B大模型也能线性化！斯坦福MIT最新研究，0.2%训练量让线性注意力提分20+

生产级大模型应用线性注意力的方法，来了。线性Attention（包括RNN系列），再也不用困在几B参数的范围内娱乐了。一套方法，即可线性化现有各种量级的Transformer模型，上至Llama 3.1 405B，也只需要十来张显卡在两天内搞定！

11/21/2024 8:39:08 AM

新智元

资讯热榜

腾讯云大模型升级公告:DeepSeek-V3/ DeepSeek-R1模型将于24日正式下线 OpenAI低调更新GPT4o模型，多项能力反超DeepSeek DeepSeek-R1 登顶 Hugging Face：以10000 赞力压 150 万个模型自有歪果仁为DeepSeek「辩经」：揭穿围绕DeepSeek的谣言 IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线东风日产N7首款接入DeepSeek大模型，实现智能化人机交互腾讯云上线DeepSeek全系API接口并打通联网搜索微信搜索接入DeepSeek大模型称AI不会使用朋友圈聊天等信息

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习技术智能体 Gemini 马斯克 Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法苹果 AI for Science Agent Claude 腾讯芯片 Stable Diffusion 蛋白质具身智能开发者 xAI 生成式神经网络机器学习人形机器人 3D AI视频 RAG 大语言模型研究百度 Sora 生成 GPU 工具华为字节跳动计算 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind 特斯拉场景 AI模型深度学习亚马逊架构 Transformer MCP 编程视觉预测