LLM

谷歌的“双子星”，正在围剿一众大模型

编辑 | 云昭继昨天凌晨OpenAI推出满血o3、o4-mini之后，没想到谷歌迈着“LLM王者”的步伐给出了自家的模型SOTA研究Gemini2.5 Flash。如果说o3主打的是“干实事”，那么谷歌这次的新发布则是告诉我们：什么是“成本可控”的极致性价比。这次的发布以后立马引来一众开发者的讨论，不过这次不是负面的，而是全面的好评。

4/18/2025 3:53:03 PM

云昭

"是我创造了第一个LLM"！Kaggle前首席科学家一句话引发AI学术圈考古行动

论如何在技术圈争论中一句话噎到对方：哥们，是我创造了第一个大语言模型。发言者Jeremy Howard为澳大利亚昆士兰大学名誉教授、曾任Kaggle创始总裁和首席科学家，现answer.ai与fast.ai创始人，。事情的起因是有人质疑他最近的项目llms.txt在帮助大模型爬取互联网信息上并没太大作用，从而引发了这段争论，迅速引起众人围观。

4/9/2025 9:23:00 AM

量子位

大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略

一、Ollama 是什么？ Ollama 是一个开源的本地大模型部署工具，旨在简化大型语言模型（LLM）的运行和管理。通过简单命令，用户可以在消费级设备上快速启动和运行开源模型（如 Llama、DeepSeek 等），无需复杂配置。

4/8/2025 3:22:00 AM

wayn

LLM「想太多」有救了！高效推理让大模型思考过程更精简

LLM的推理能力显著增强，然而，这个「超级大脑」也有自己的烦恼。有时候回答会绕好大一个圈子，推理过程冗长又复杂，虽能得出正确答案，但耗费了不少时间和计算资源。比如问它「2加3等于多少」，它可能会从数字的概念、加法原理开始，洋洋洒洒说上一大通，这在实际应用中可太影响效率啦。

4/7/2025 9:23:00 AM

新智元

超实用！Prompt程序员使用指南，大模型各角色代码实战案例

提示词（Prompt）是输入给大模型（LLM）的文本指令，用于明确地告诉大模型你想要解决的问题或完成的任务，也是大语言模型理解用户需求并生成准确答案的基础。因此 prompt 使用的好坏，直接决定了大模型生成结果的质量（是否符合预期）。图片Prompt 基本使用为了让大模型生成更符合预期的结果，我们在使用 Prompt 时，可以使用以下模版。

4/3/2025 12:00:00 AM

磊哥

大模型应用的能力分级

对大模型应用的能力分级就像给学生打分一样，能让我们更清楚它的本事有多大。能力分级能帮我们设定目标，知道AI现在能干什么，未来还要学什么。有了统一的分级方式，大家就能公平比较不同AI的水平，推动技术进步。

4/2/2025 1:25:00 AM

曹洪伟

基于DeepSeek推理的文本聚类

译者 | 李睿审校 | 重楼开发人员需要开发和理解一种新的文本聚类方法，并使用DeepSeek推理模型解释推理结果。本文将探索大型语言模型（LLM）中的推理领域，并介绍DeepSeek这款优秀工具，它能帮助人们解释推论结果，构建能让终端用户更加信赖的机器学习系统。在默认情况下，机器学习模型是一种黑盒，不会为决策提供开箱即用的解释（XAI）。

3/31/2025 8:28:24 AM

李睿

技术突破阶段2024 年，DeepSeek 强势开启生态扩张与技术爆发的新纪元，成为全球 AI 领域瞩目的焦点。年初 1 月，DeepSeek 便以 DeepSeek-MoE 震撼登场，创新性架构设计以仅 60% 的计算量损耗，成功超越 Llama 2-7B 性能，为后续技术突破奠定坚实基础，在模型效率优化上迈出关键一步。紧接着 2 月，DeepSeekMath 在 MATH 基准测试中表现惊艳，成绩飙升至 51.7%，无限逼近 GPT-4 水平，数学推理能力实现质的飞跃，极大提升了模型在复杂数学问题求解上的可靠性与精准度。

3/27/2025 3:50:00 AM

小牛呼噜噜

人工智能代理不是玩具，而是工人

为什么必须像评估劳动力一样评估LLM代理，而不仅仅是评估软件。如果组织仅通过代码行数或聊天完成度等指标来衡量 AI 代理，则可能会低估其最具变革性的价值。在许多方面，AI 代理更像员工，而不是传统的软件程序：它们可以学习、适应，甚至与人类团队合作。

3/13/2025 1:29:32 PM

佚名

DeepSeek级AI？训练自己的推理模型仅需七个步骤

译者 | 布加迪审校 | 重楼谁需要超级计算机？仅用15GB VRAM就可以训练你自己的功能强大的AI推理模型！ DeepSeek的R1模型在不需要人类反馈的情况下就能进行更深思熟虑的推理，已颠覆了大语言模型（LLM）领域。

3/11/2025 8:37:42 AM

布加迪

如何理解模型的蒸馏和量化

在LLM领域内，经常会听到两个名词：蒸馏和量化。这代表了LLM两种不同的技术，它们之间有什么区别呢？本次我们就来详细聊一下。

3/7/2025 8:00:00 AM

DeepSeek 入门指导手册——从入门到精通

DeepSeek 是由杭州深度求索人工智能基础技术研究有限公司精心打造的一款大型语言模型（LLM）。该模型集自然语言处理（NLP）、计算机视觉（CV）、强化学习（RL）以及多模态融合技术等核心功能于一体。 DeepSeek 在国际上获得了高度关注：下载量：DeepSeek 应用在美国苹果应用商店的免费下载排行榜中超越了 ChatGPT，攀升至榜首位置。

2/24/2025 10:07:10 AM

派大星

OpenAI 最新研究揭示：最先进的 AI 仍难以解决编码问题

近日，OpenAI 的研究人员在一篇新发布的论文中坦言，尽管目前的 AI 技术已经相当先进，但这些模型依然无法与人类程序员相媲美。 OpenAI 首席执行官山姆・阿尔特曼曾表示，预计到今年底，AI 将能够战胜 “低级” 软件工程师，但研究结果却显示，这些 AI 模型仍然面临重大挑战。图源备注：图片由AI生成，图片授权服务商Midjourney在研究中，OpenAI 团队使用了一种名为 SWE-Lancer 的新基准测试，评估了从自由职业网站 Upwork 上提取的1400多项软件工程任务的表现。

2/24/2025 9:09:00 AM

AI在线

还在忙NSFC申报？试试DeepSeek R1结合牛津的推理Agent用变分推理生成国家自然科学基金申请书

又到了一年一度的国家自然科学基金申报季，众多科研工作者正在为申报书的撰写绞尽脑汁。如何在有限的时间内，产出一份既专业严谨又富有创新性的申报材料，成为了许多研究者面临的挑战。本文介绍了一种基于DeepSeek R1大模型与牛津大学最新推理Agent框架相结合的智能辅助方案。

2/17/2025 8:35:06 AM

AI修猫Prompt

一文带你看懂开源大模型基石LLaMA核心技术点，DeepSeek/千问等LLM的模型结构基础

LLaMA是目前很多SOTA开源大模型的基础，包括DeepSeek、千问等在内的很多大模型的模型机构大体上都沿用了LLaMA。因此，LLaMA在模型结构的设计上可以说是目前大模型的一种最佳实践。这篇文章就给大家汇总一下LLaMA的核心模型结构。

2/14/2025 1:00:00 AM

Fareise

DeepSeek 系列模型详解之——DeepSeek LLM

DeepSeek LLM发布于2024年1月，收集了2万亿个词元用于预训练，在模型层面沿用了LLaMA的架构，并将余弦退火学习率调度器替换为多阶段学习率调度器，便于持续训练。并从多种来源收集了超过100万个实例进行监督微调(SFT)。此外，利用直接偏好优化（DPO）技术进一步提升模型的对话能力。

2/13/2025 11:00:30 AM

小喵学AI

Andrej Karpathy 最新视频盛赞 DeepSeek：R1 正在发现人类思考的逻辑并进行复现

继近日斯坦福李飞飞、Percy Liang 等人推出 S1 后，李飞飞的学生、OpenAI 早期成员与前特斯拉 AI 总监也录制了一期最新长达 3 小时的长视频上传到 YouTube，深入浅出地从神经网络的起源、GPT-2、ChatGPT 到最近 DeepSeek-R1 介绍了 AI 大模型的系列进化：视频链接：，视频讲解十分通俗易懂，即使没有技术背景的观众也能轻松理解！尤其是在视频的第 2 个小时开始，他对最近爆火的 DeepSeek-R1 论文进行了深入介绍，并直言 DeepSeek R1 在性能方面与 OpenAI 的模型不相上下，它的出现推动了 RL 技术的发展。除了盛赞 DeepSeek-R1 的技术创新外，Andrej Karpathy 还对纯 RL 的学习能力给予了高度评价，但又指出 RL 非常非常擅长发现一种方法来“欺骗”模型，阻碍了 RLHF 成为专业技术的步伐。

2/7/2025 2:50:00 PM

郑佳美

资讯热榜

告别抽卡！Vidu Q2多图参考生视频功能重磅上线刚刚，ChatGPT终于可以走遍整个互联网了！OpenAI深夜炸街：原生ChatGPT集成、即时理解、主动执行，浏览器赛道鲨疯了保姆级教程！教你用Coze工作流2分钟生成优质文章最强OCR竟然不是DeepSeek、Paddle！HuggingFace新作：六大顶尖开源OCR模型横评！继DS后又杀出匹黑马！切斯基:Airbnb 暂缓接入 ChatGPT，AI 客服已用上通义千问 OpenAI、Oracle 再加码 AI 基建:150亿美元 Lighthouse 园区启动建设独立开源大佬的疯狂实验：Claude Code蛮力出奇迹！40 分钟跑通 DeepSeek-OCR，我一行代码都没写 OpenAI 内部警示:ChatGPT Atlas 面临“即时注入”安全威胁

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人数据大模型 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法芯片 AI for Science 腾讯 Stable Diffusion Agent 苹果 Claude 蛋白质开发者生成式神经网络 xAI 机器学习 3D 人形机器人研究 AI视频生成 RAG 大语言模型 Sora 百度具身智能工具 GPU 华为计算字节跳动 AI设计搜索大型语言模型 AGI 视频生成场景深度学习架构 DeepMind 生成式AI 视觉编程预测 Transformer AI模型伟达特斯拉 Copilot

LLM