大模型

提示工程：更好地释放LLM的能力

提示工程，正如其名，主要聚焦于探究如何创作提示词。存在提示工程的一个关键缘由在于，大模型在不同人群的视角下所发挥的作用差异显著。普通使用者往往仅将大模型视作聊天机器人，他们着重关注的是大模型能否迅速且精准地予以反馈。

11/27/2024 10:23:31 AM

greencoatman

如何借助Cortex运行本地LLM

译者 | 布加迪审校 | 重楼AI行业正在经历一场转变，转向更小巧更高效的大语言模型（LLM），从而使用户能够在本地机器上运行模型，无需功能强大的服务器。本教程将指导你借助Cortex运行本地LLM，着重介绍其独特的功能和易用性，使任何拥有标准硬件的人都可以享用AI。注意：Cortex目前正在积极开发中，这可能会导致bug或某些功能无法正常运行。

11/27/2024 8:14:43 AM

布加迪

UC伯克利：给大模型测MBTI，Llama更敢说但GPT-4像理工男

如果你经常在不同大模型之间来回切换，或许会发现不同模型的回复语气有细微差异，如同有不同的性格。那么，LLM究竟有没有「性格」这种维度的特征？最近加州大学伯克利分校发表的新研究VibeCheck就证实了这种推测。

11/26/2024 1:40:00 PM

新智元

吴恩达开源大模型套件：11 个模型平台一种方式调用，已获星标超 1.2K

它把 11 家知名大模型平台集中到了一起，统一了接口，可以用相同的方式调用不同模型。切换模型时，只需要改动一个字符串，不用在不同的 API 之间摸不着头脑了。

11/26/2024 1:03:37 PM

汪淼

提示词：怎样与大模型沟通

同前面讲大模型特点类似，关于如何使用 GPT，我们也会分成两个视角：用户视角和技术视角。这一讲，我们先从用户视角来看看如何用好 GPT。用好 GPT若要充分发挥 GPT 的效用，需遵循以下步骤：首先是定义任务目标。

11/26/2024 11:44:04 AM

greencoatman

【RAG】浅看引入智能信息助理提升大模型处理复杂推理任务的潜力-AssisTRAG

AssisTRAG通过集成一个智能信息助手来提升LLMs处理复杂推理任务的能力。该框架由两个主要组件构成：一个冻结的主语言模型和一个可训练的助手语言模型。 AssisTRAG与之前的RAG对比1.

11/26/2024 8:50:20 AM

余俊晖

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

最近，OpenAI高级研究副总裁Mark Chen在炉边谈话中，正式否认「Scaling Law撞墙论」。他表示，并没有看到Scaling Law撞墙，甚至OpenAI还有两个范例——o系列和GPT系列，来保持这种Scaling。用他的话说，「我们准确地掌握了需要解决的技术挑战」。

11/25/2024 3:50:00 PM

新智元

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

AI智能体离自主研发，还有多远？ Nature期刊的一篇研究曾证明了，GPT-4能自主设计并开展化学实验，还能阅读文档学习如何使用实验室设备。另有Transformer作者之一研发的「世界首个AI科学家」，一口气肝出10篇论文，完全不用人类插手。

11/25/2024 9:10:00 AM

新智元

滴滴ChatBI技术实践：智能数据分析的前沿探索与应用

一、ABI 方向的演进及 ChatBI 领域现状1. BI 产品的演进方向BI 产品的发展经历了从报表式 BI 到自助式 BI 的演变，而当前智能 BI 则吸引了大家的广泛关注与大量投入。无论是早期的增强分析技术，还是如今新兴的 ChatBI 产品形态，其核心目的都在于降低用户利用数据的门槛与成本。

11/25/2024 8:50:24 AM

王涛

火山引擎基于大模型 ChatBI 的演进与实践

一、背景与趋势1. BI 平台演进 - 全面进入智能化在探讨火山引擎 BI 工具的发展历程时，可以清晰地划分为几个关键阶段，这些阶段亦与市面上主流 BI 工具的演进过程相吻合。最初，传统 BI 工具主要聚焦于报表平台，由业务方提出需求，产研团队作为数据的主要生产者，负责制造简单的报表，以辅助经营仪表盘的制作。

11/25/2024 8:20:22 AM

刘然

腾讯混元大模型核心论文曝光：Scaling law、MoE、合成数据以及更多

随着 ChatGPT 的横空出世，大语言模型能力开始在各项领域（传统 NLP、数学、代码等）得到广泛验证，目前已经深刻影响到腾讯混元团队日常生活的方方面面。腾讯混元团队长期致力于大语言模型的探索之路，大模型生产的各个环节开展研究创新以提升其基础能力，并将混元大模型的能力跟业务做深度结合，让生成式 AI 成为业务增长的放大器。大语言模型的设计、训练和优化是一项复杂的系统工程，涉及到模型结构创新、训练范式优化、数据获取和评测设计、关键能力提升和挑战性问题的解决等方方面面。

11/22/2024 5:23:00 PM

新闻助手

首个可保留情感的音频 LLM：Meta 重磅开源 7B-Spirit LM，一网打尽“音频 + 文本”多模态任务

Meta 开源了一个基础多模态语言模型 Spirit LM，基于一个 70 亿参数的预训练文本语言模型，交错使用文本和语音数据进行训练，使模型能够自由地混合文本和语音，在任一模态中生成语言内容。

11/22/2024 1:04:32 PM

问舟

谷歌 Gemini 突发试验版模型：重回竞技榜第一，新版 GPT-4o 只领先了 1 天

在新版 GPT-4o 刚登顶竞技榜后 1 天，立马发布最新试验版模型 Gemini-Exp-1121 夺回冠军宝座。要知道，一周前上一版模型 Gemini-Exp-1114 才发布。这怕不是拿准了 OpenAI 会来争擂台，故意留了一手。

11/22/2024 12:45:30 PM

汪淼

写给小白的大模型入门科普

什么是大模型？大模型，英文名叫Large Model，大型模型。早期的时候，也叫Foundation Model，基础模型。

11/22/2024 10:45:20 AM

小枣君

没有思考过 Embedding，谈何 RAG，更不足以谈 AI大模型

今天，我们来聊聊 AI 大模型，有一个非常重要概念 "Embedding"。你可能听说过它，也可能对它一知半解。如果你没有深入了解过 Embedding，那你就无法真正掌握 RAG 技术，更不能掌握 AI 大模型精髓所在。

11/21/2024 3:44:21 PM

渔夫

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 | NeurIPS 2024

混合专家模型（MoE, Mixture of Experts）是一种通过动态激活网络的部分结构来提升计算效率的架构，可以在保持相对稳定的计算成本的前提下大幅增加参数量，从而有效提升模型性能。这一特性使得MoE能够兼顾模型的规模与效率，已广泛应用于各种大规模任务。然而，MoE模型通常需要在大型数据集上预训练以获得理想性能，导致其对时间和计算资源的需求极高，这也限制了其在深度学习社区中的普及性。

11/21/2024 10:21:06 AM

新智元

405B大模型也能线性化！斯坦福MIT最新研究，0.2%训练量让线性注意力提分20+

生产级大模型应用线性注意力的方法，来了。线性Attention（包括RNN系列），再也不用困在几B参数的范围内娱乐了。一套方法，即可线性化现有各种量级的Transformer模型，上至Llama 3.1 405B，也只需要十来张显卡在两天内搞定！

11/21/2024 8:39:08 AM

新智元

微调大型语言模型（LLM）的五个技巧

译者 | 李睿审校 | 重楼数据质量、模型架构以及偏见缓解方面的专家建议开发人员可以掌握LLM微调来提高人工智能开发的性能和效率。为什么微调至关重要大型语言模型（LLM）配备了处理广泛任务的通用能力，包括文本生成、翻译、提取摘要和回答问题。尽管LLM的性能表现非常强大，但它们在特定的任务导向型问题或特定领域（例如医学和法律等）上仍然效果不佳。

11/21/2024 8:22:45 AM

李睿

资讯热榜

苹果发布全新Xcode 26开发者工具：内置ChatGPT先进AI功能那个男人回来了！Ilya现身多伦多大学毕业典礼：AI 像是用数字方式复制出来的大脑！不管你愿不愿意，AI都将深刻影响你的一生！ DeepSeek前高管秘密创业，新AI Agent项目已获顶级VC押注支持MCP！开源智能体开发框架 Rowboat：打造你的智能助手只需几分钟苹果将 ChatGPT 和其他 AI 模型引入 Xcode 消息称 OpenAI 已同谷歌敲定一份云 AI 算力交易，减少对微软依赖苹果 WWDC 2025:iOS 26升级视觉智能，AI 助力屏幕内容识别 “程序员炸锅”！Claude一夜撤离 Windsurf，OpenAI 收购遭"精准狙击"

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌数据机器人大模型 Midjourney 用户智能开源微软 Meta GPT 学习图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法英伟达代码 Anthropic 芯片开发者生成式蛋白质腾讯神经网络训练 3D 研究生成智能体苹果计算机器学习 Sora AI设计 Claude AI for Science GPU AI视频人形机器人搜索华为百度场景大语言模型 xAI 预测伟达深度学习 Transformer LLM 字节跳动 Agent 模态具身智能神器推荐工具文本视觉 LLaMA 算力 Copilot 驾驶大型语言模型 API RAG 应用架构