理论
大模型部署工具 Ollama 使用指南:技巧与问题解决全攻略
一、Ollama 是什么? Ollama 是一个开源的本地大模型部署工具,旨在简化大型语言模型(LLM)的运行和管理。 通过简单命令,用户可以在消费级设备上快速启动和运行开源模型(如 Llama、DeepSeek 等),无需复杂配置。
4/8/2025 3:22:00 AM
wayn
比DeepSeek更惊艳,生成式决策如何让机器人拥有创造力?
当传统机器人遇见生成式AI,会擦出什么样的火花? 技术的演进从不停滞。 如今,我们正处在具身智能发展的关键节点,生成式决策技术正悄然改变着这个领域的游戏规则。
4/8/2025 2:00:00 AM
大数据AI智能圈
谷歌研究:合成数据使大模型数学推理能力提升八倍
最近,来自谷歌、卡内基梅隆大学和 MultiOn 的联合研究团队发表了一项关于合成数据在大型模型训练中应用的新研究。 据专注于人工智能发展的研究机构 Epoch AI 报告显示,目前全球约有 300 万亿个公开可用的高质量文本训练标记。 然而,随着类似 ChatGPT 这样的大模型的迅猛发展,对训练数据的需求呈指数级增长,预计到 2026 年之前,这些数据将被耗尽。
4/8/2025 12:40:00 AM
远洋
OpenAI宣布GPT-5推迟数月发布 技术整合难度成倍上升
OpenAI 首席执行官萨姆·奥特曼(Sam Altman)近日通过社交媒体宣布,GPT-5 的发布计划将推迟,预计在未来几个月内正式推出。 此前,OpenAI 计划在 2025 年初发布 GPT-5,但最终决定延后,以便将该模型做得比预期更好。 奥特曼表示,推迟发布的原因是 GPT-5 的能力远超预期,整合所需资源和生态准备超出了当前可控范围。
4/8/2025 12:20:00 AM
LLM「想太多」有救了!高效推理让大模型思考过程更精简
LLM的推理能力显著增强,然而,这个「超级大脑」也有自己的烦恼。 有时候回答会绕好大一个圈子,推理过程冗长又复杂,虽能得出正确答案,但耗费了不少时间和计算资源。 比如问它「2加3等于多少」,它可能会从数字的概念、加法原理开始,洋洋洒洒说上一大通,这在实际应用中可太影响效率啦。
4/7/2025 9:23:00 AM
新智元
DeepSeek R2来了?全新推理时Scaling论文联手清华震撼发布! 新智元 新智元 2025年04月04日 17:33
DeepSeek R2,果然近了。 最近,DeepSeek和清华的研究者发表的这篇论文,探讨了奖励模型的推理时Scaling方法。 论文地址:,强化学习(RL)已广泛应用于LLM的大规模后训练阶段。
4/7/2025 8:42:00 AM
新智元
一文读懂开源 Llama 4 模型
Hello folks,我是 Luga,今天我们来聊一下人工智能领域的最新大模型技术进展 - 构建高效、灵活、以及开源的的大模型 - Llama 4 。 在人工智能领域,随着技术的不断进步,越来越多的强大语言模型应运而生。 Llama 4 作为 Meta 推出的最新一代大规模语言模型,凭借其卓越的性能和创新的架构设计,成为了当前 AI 领域的焦点之一。
4/7/2025 8:40:00 AM
Luga Lee
大模型除了聊天还能做什么?关于大模型的分类和应用
大模型技术发展到今天,其功能可以说是日新月异;并且很多企业已经在探索大模型的应用场景和技术实现;但是很多人到现在对大模型的了解仅仅只限于能聊个天,问个问题。 但实际上,大模型能够做的事要远比我们想象中的要多的多;因此,今天我们就从用户和技术两个角度来介绍一下大模型的应用。 关于大模型的分类和应用问题如果想弄清楚大模型是怎么使用的,首先要知道大模型的分类;不同类型的模型适合不同的应用场景,其功能和实现也各不相同。
4/7/2025 8:15:00 AM
DFires
Llama 4开源王者归来!推理、编码打平DeepSeek V3但参数减一半,一张H100就能跑,还有巨兽2万亿参数模型!
编辑 | 李美涵出品 | 51CTO技术栈(微信号:blog51cto)深夜,Meta如期发布了全新的开源大型模型系列——Llama 4,并未出现任何“跳票”传闻中的推迟情况! 图片此次发布也标志着Meta与近来崛起的开源新王 DeepSeek 正面硬钢。 Meta官推更是表示:表示:“今天开启了原生多模态AI创新的新时代”。
4/7/2025 7:00:00 AM
李美涵
模态编码器|EVA改进之EVA-02
来自智源曹越团队在EVA的优化改进方面的工作EVA-02,项目地址::在CV领域,训练、调优和评估非常大的视觉模型需要大量的计算资源,限制了许多研究人员和开发者的参与。 因此,本研究主要目的是提供一种高效且性能强大的预训练方法,不仅能够在多种下游任务中展现出色的迁移学习能力,而且还能显著减少参数数量和计算成本。 01、模型架构EVA-02的基础是一个改进版的纯Transformer架构,该架构在原始ViT的基础上进行了若干重要的修改,以更好地适应大规模预训练任务的需求。
4/7/2025 6:30:00 AM
Goldma
DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI
Deepseek在2025年1月颠覆了全球人工智能模型,但谷歌和OpenAI很快发布了Gemini2 Pro和O3。 这就产生了一个问题,应该使用哪种人工智能模型来进行客户服务? 为了评估这些模型在客户服务任务上的表现,我们必须更深入地了解它们在各种AI基准上的表现。
4/7/2025 5:00:00 AM
晓晓
DeepSeek R2来了?全新推理时Scaling论文联手清华震撼发布!
DeepSeek R2,果然近了。 最近,DeepSeek和清华的研究者发表的这篇论文,探讨了奖励模型的推理时Scaling方法。 图片论文地址:,强化学习(RL)已广泛应用于LLM的大规模后训练阶段。
4/7/2025 3:44:00 AM
新智元
模态编码器|CLIP详细解读
下面来详细了解一下多模态大模型模态编码器部分。 今天首先来看下CLIP,OpenAI发表在2021年ICML上的一篇工作。 项目地址::在自然语言处理(NLP)领域,通过大规模的文本数据预训练模型(如GPT-3)已经取得了显著的成果,但在计算机视觉领域,预训练模型仍然依赖于人工标注的图像数据集,严重影响了其在未见类别上的泛化性和可用性(需要用额外的有标注数据)。
4/7/2025 3:30:00 AM
Goldma
基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战
群组相对策略优化(Group Relative Policy Optimization,GRPO)已被证明是一种有效的算法,可用于训练大语言模型(LLMs),使其具备推理能力并在基准测试中持续提升性能表现。 DeepSeek-R1 展示了如何通过监督式微调(Supervised Fine-Tuning)与 GRPO 技术的结合,引导模型达到与 OpenAI 的 o1 等顶尖模型相竞争的水平。 为了进一步探索其实践应用,我们尝试将这些技术应用于现实场景中。
4/7/2025 2:25:00 AM
DeepSeek AI时代下,数字化转型的本质:拼的不是技术了,是人
你见过多少数字化转型的尝试,最终变成了买软件、堆硬件的采购工程? 又有多少企业花了大价钱引入先进系统,却发现员工仍在用Excel表格手动录入数据? 数字化转型已成为每个企业的必修课,但成功率却惊人地低。
4/7/2025 1:00:00 AM
大数据AI智能圈
DeepSeek再好,还得先进行数据清洗!
数据分析师的日常,有大半时间都在和数据"搏斗"。 每当接到一份数据,第一反应往往是叹气: "这数据质量...又得清洗半天。 " 数据清洗就像是数据分析的"地基工程",地基不牢,上层再漂亮也会坍塌。
4/7/2025 12:30:00 AM
C#搞AI?用ML.NET实现ChatGPT本地化部署!代码全开源
在人工智能蓬勃发展的当下,ChatGPT这类大型语言模型吸引了全球目光。 它强大的自然语言处理能力,能实现智能对话、文本生成等多种功能。 但在实际应用中,出于数据安全、网络限制等因素考量,将ChatGPT本地化部署成为众多开发者的迫切需求。
4/7/2025 12:22:00 AM
conan
多模态模型结构与训练总结
01、模型结构一般的多模态模型架构包含5个部分,分别是:模态编码器、输入映射器、大模型骨干、输出映射器以及模态生成器。 模态编码器(Modality Encoder, ME)将多种模态输入编码成特征表示,公式如下X表示模态,表示各种预训练好的编码器。 目前模态主要分为:视觉模态、语音模态、3D点云模态,其中视觉模态主要包括图像和视频,对于视频,视频通常被均匀采样成5帧图像,然后进行与图像相同的预处理。
4/7/2025 12:00:00 AM
Goldma
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
论文
代码
LLM
算法
Stable Diffusion
芯片
腾讯
AI for Science
苹果
Agent
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
研究
人形机器人
生成
AI视频
百度
工具
RAG
大语言模型
Sora
华为
GPU
计算
具身智能
AI设计
字节跳动
搜索
大型语言模型
AGI
场景
深度学习
视频生成
架构
预测
视觉
伟达
DeepMind
Transformer
编程
神器推荐
AI模型
亚马逊
MCP