理论

大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略

一、Ollama 是什么？ Ollama 是一个开源的本地大模型部署工具，旨在简化大型语言模型（LLM）的运行和管理。通过简单命令，用户可以在消费级设备上快速启动和运行开源模型（如 Llama、DeepSeek 等），无需复杂配置。

4/8/2025 3:22:00 AM

wayn

比DeepSeek更惊艳，生成式决策如何让机器人拥有创造力？

当传统机器人遇见生成式AI，会擦出什么样的火花？技术的演进从不停滞。如今，我们正处在具身智能发展的关键节点，生成式决策技术正悄然改变着这个领域的游戏规则。

4/8/2025 2:00:00 AM

大数据AI智能圈

谷歌研究：合成数据使大模型数学推理能力提升八倍

最近，来自谷歌、卡内基梅隆大学和 MultiOn 的联合研究团队发表了一项关于合成数据在大型模型训练中应用的新研究。据专注于人工智能发展的研究机构 Epoch AI 报告显示，目前全球约有 300 万亿个公开可用的高质量文本训练标记。然而，随着类似 ChatGPT 这样的大模型的迅猛发展，对训练数据的需求呈指数级增长，预计到 2026 年之前，这些数据将被耗尽。

4/8/2025 12:40:00 AM

远洋

OpenAI宣布GPT-5推迟数月发布技术整合难度成倍上升

OpenAI 首席执行官萨姆·奥特曼（Sam Altman）近日通过社交媒体宣布，GPT-5 的发布计划将推迟，预计在未来几个月内正式推出。此前，OpenAI 计划在 2025 年初发布 GPT-5，但最终决定延后，以便将该模型做得比预期更好。奥特曼表示，推迟发布的原因是 GPT-5 的能力远超预期，整合所需资源和生态准备超出了当前可控范围。

4/8/2025 12:20:00 AM

LLM「想太多」有救了！高效推理让大模型思考过程更精简

LLM的推理能力显著增强，然而，这个「超级大脑」也有自己的烦恼。有时候回答会绕好大一个圈子，推理过程冗长又复杂，虽能得出正确答案，但耗费了不少时间和计算资源。比如问它「2加3等于多少」，它可能会从数字的概念、加法原理开始，洋洋洒洒说上一大通，这在实际应用中可太影响效率啦。

4/7/2025 9:23:00 AM

新智元

DeepSeek R2来了？全新推理时Scaling论文联手清华震撼发布！新智元新智元 2025年04月04日 17:33

DeepSeek R2，果然近了。最近，DeepSeek和清华的研究者发表的这篇论文，探讨了奖励模型的推理时Scaling方法。论文地址：，强化学习（RL）已广泛应用于LLM的大规模后训练阶段。

4/7/2025 8:42:00 AM

新智元

一文读懂开源 Llama 4 模型

Hello folks，我是 Luga，今天我们来聊一下人工智能领域的最新大模型技术进展 - 构建高效、灵活、以及开源的的大模型 - Llama 4 。在人工智能领域，随着技术的不断进步，越来越多的强大语言模型应运而生。 Llama 4 作为 Meta 推出的最新一代大规模语言模型，凭借其卓越的性能和创新的架构设计，成为了当前 AI 领域的焦点之一。

4/7/2025 8:40:00 AM

Luga Lee

大模型技术发展到今天，其功能可以说是日新月异；并且很多企业已经在探索大模型的应用场景和技术实现；但是很多人到现在对大模型的了解仅仅只限于能聊个天，问个问题。但实际上，大模型能够做的事要远比我们想象中的要多的多；因此，今天我们就从用户和技术两个角度来介绍一下大模型的应用。关于大模型的分类和应用问题如果想弄清楚大模型是怎么使用的，首先要知道大模型的分类；不同类型的模型适合不同的应用场景，其功能和实现也各不相同。

4/7/2025 8:15:00 AM

DFires

Llama 4开源王者归来！推理、编码打平DeepSeek V3但参数减一半，一张H100就能跑，还有巨兽2万亿参数模型！

编辑 | 李美涵出品 | 51CTO技术栈（微信号：blog51cto）深夜，Meta如期发布了全新的开源大型模型系列——Llama 4，并未出现任何“跳票”传闻中的推迟情况！图片此次发布也标志着Meta与近来崛起的开源新王 DeepSeek 正面硬钢。 Meta官推更是表示：表示：“今天开启了原生多模态AI创新的新时代”。

4/7/2025 7:00:00 AM

李美涵

模态编码器|EVA改进之EVA-02

来自智源曹越团队在EVA的优化改进方面的工作EVA-02，项目地址：：在CV领域，训练、调优和评估非常大的视觉模型需要大量的计算资源，限制了许多研究人员和开发者的参与。因此，本研究主要目的是提供一种高效且性能强大的预训练方法，不仅能够在多种下游任务中展现出色的迁移学习能力，而且还能显著减少参数数量和计算成本。 01、模型架构EVA-02的基础是一个改进版的纯Transformer架构，该架构在原始ViT的基础上进行了若干重要的修改，以更好地适应大规模预训练任务的需求。

4/7/2025 6:30:00 AM

Goldma

DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI

Deepseek在2025年1月颠覆了全球人工智能模型，但谷歌和OpenAI很快发布了Gemini2 Pro和O3。这就产生了一个问题，应该使用哪种人工智能模型来进行客户服务？为了评估这些模型在客户服务任务上的表现，我们必须更深入地了解它们在各种AI基准上的表现。

4/7/2025 5:00:00 AM

晓晓

DeepSeek R2来了？全新推理时Scaling论文联手清华震撼发布！

DeepSeek R2，果然近了。最近，DeepSeek和清华的研究者发表的这篇论文，探讨了奖励模型的推理时Scaling方法。图片论文地址：，强化学习（RL）已广泛应用于LLM的大规模后训练阶段。

4/7/2025 3:44:00 AM

新智元

模态编码器|CLIP详细解读

下面来详细了解一下多模态大模型模态编码器部分。今天首先来看下CLIP，OpenAI发表在2021年ICML上的一篇工作。项目地址：：在自然语言处理（NLP）领域，通过大规模的文本数据预训练模型（如GPT-3）已经取得了显著的成果，但在计算机视觉领域，预训练模型仍然依赖于人工标注的图像数据集，严重影响了其在未见类别上的泛化性和可用性（需要用额外的有标注数据）。

4/7/2025 3:30:00 AM

Goldma

基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战

群组相对策略优化（Group Relative Policy Optimization，GRPO）已被证明是一种有效的算法，可用于训练大语言模型（LLMs），使其具备推理能力并在基准测试中持续提升性能表现。 DeepSeek-R1 展示了如何通过监督式微调（Supervised Fine-Tuning）与 GRPO 技术的结合，引导模型达到与 OpenAI 的 o1 等顶尖模型相竞争的水平。为了进一步探索其实践应用，我们尝试将这些技术应用于现实场景中。

4/7/2025 2:25:00 AM

DeepSeek AI时代下，数字化转型的本质：拼的不是技术了，是人

你见过多少数字化转型的尝试，最终变成了买软件、堆硬件的采购工程？又有多少企业花了大价钱引入先进系统，却发现员工仍在用Excel表格手动录入数据？数字化转型已成为每个企业的必修课，但成功率却惊人地低。

4/7/2025 1:00:00 AM

大数据AI智能圈

DeepSeek再好，还得先进行数据清洗！

数据分析师的日常，有大半时间都在和数据"搏斗"。每当接到一份数据，第一反应往往是叹气： "这数据质量...又得清洗半天。 " 数据清洗就像是数据分析的"地基工程"，地基不牢，上层再漂亮也会坍塌。

4/7/2025 12:30:00 AM

C#搞AI？用ML.NET实现ChatGPT本地化部署！代码全开源

在人工智能蓬勃发展的当下，ChatGPT这类大型语言模型吸引了全球目光。它强大的自然语言处理能力，能实现智能对话、文本生成等多种功能。但在实际应用中，出于数据安全、网络限制等因素考量，将ChatGPT本地化部署成为众多开发者的迫切需求。

4/7/2025 12:22:00 AM

conan

多模态模型结构与训练总结

01、模型结构一般的多模态模型架构包含5个部分，分别是：模态编码器、输入映射器、大模型骨干、输出映射器以及模态生成器。模态编码器（Modality Encoder, ME）将多种模态输入编码成特征表示，公式如下X表示模态，表示各种预训练好的编码器。目前模态主要分为：视觉模态、语音模态、3D点云模态，其中视觉模态主要包括图像和视频，对于视频，视频通常被均匀采样成5帧图像，然后进行与图像相同的预处理。

4/7/2025 12:00:00 AM

Goldma

资讯热榜

印度创新试点：AI 聊天机器人助力电子商务购物新方式两部门联合发布《政务领域人工智能大模型部署应用指引》大力推动AI技术应用软银贷款50亿美元助力AI投资，孙正义押注未来科技！马斯克 xAI 在孟菲斯开建全球最大污水处理厂，年节约饮用水达 190 亿升 OpenAI Sora 引爆 App Store“山寨潮”:30万次下载!苹果审核机制遭质疑 OpenAI新研究称GPT-5为迄今“政治偏见最少”的AI模型前DeepMind大神创业一年估值飙至80亿美元：Reflection AI要做美国版DeepSeek Sora2公布提示词指南！直接抄作业能玩一整天！

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人数据大模型 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练论文代码 LLM 算法 Stable Diffusion 芯片腾讯 AI for Science 苹果 Agent Claude 蛋白质开发者生成式神经网络 xAI 机器学习 3D 研究人形机器人生成 AI视频百度工具 RAG 大语言模型 Sora 华为 GPU 计算具身智能 AI设计字节跳动搜索大型语言模型 AGI 场景深度学习视频生成架构预测视觉伟达 DeepMind Transformer 编程神器推荐 AI模型亚马逊 MCP

理论

大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略

比DeepSeek更惊艳，生成式决策如何让机器人拥有创造力？

谷歌研究：合成数据使大模型数学推理能力提升八倍

OpenAI宣布GPT-5推迟数月发布 技术整合难度成倍上升

LLM「想太多」有救了！高效推理让大模型思考过程更精简

DeepSeek R2来了？全新推理时Scaling论文联手清华震撼发布！ 新智元 新智元 2025年04月04日 17:33

一文读懂开源 Llama 4 模型

大模型除了聊天还能做什么？关于大模型的分类和应用

Llama 4开源王者归来！推理、编码打平DeepSeek V3但参数减一半，一张H100就能跑，还有巨兽2万亿参数模型！

模态编码器|EVA改进之EVA-02

DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI

DeepSeek R2来了？全新推理时Scaling论文联手清华震撼发布！

模态编码器|CLIP详细解读

基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战

DeepSeek AI时代下，数字化转型的本质：拼的不是技术了，是人

DeepSeek再好，还得先进行数据清洗！

C#搞AI？用ML.NET实现ChatGPT本地化部署！代码全开源

多模态模型结构与训练总结

OpenAI宣布GPT-5推迟数月发布技术整合难度成倍上升

DeepSeek R2来了？全新推理时Scaling论文联手清华震撼发布！新智元新智元 2025年04月04日 17:33