理论
斯坦福2025 AI指数出炉!中美AI对决差距仅剩0.3%,DeepSeek领衔
就在刚刚,每年都备受瞩目的斯坦福AI指数报告,重磅发布了! 这份报告由斯坦福大学以人为本AI研究员发布,代表着每年AI领域最核心和前沿的动向总结。 今年,这份报告长达456页,抛出不少惊人观点。
4/9/2025 4:22:00 AM
新智元
模态编码器 | CLIP改进之SigLIP,采用sigmoid损失的图文预训练
DeepMind对CLIP改进的一篇工作--SigLIP,发表在2023CVPR。 简单看下研究动机:传统的对比学习方法如CLIP等依赖于 softmax 归一化,这需要一个全局视角来计算成对相似度,从而限制了批处理大小的扩展能力,并且在小批处理大小下表现不佳。 因此本文提出了一个简单的成对 Sigmoid 损失函数用于语言-图像预训练(SigLIP)。
4/9/2025 2:10:00 AM
Goldma
大模型+数据分析:下一代智能查询优化体系的先行探索
当你每天面对万亿级数据、日均百万次查询请求时,你会怎么做? 处理海量数据查询犹如在迷雾中寻路,方向稍有不慎就会迷失。 数据负载高到屏幕只显示超时,查询速度慢到让你有时间泡一杯咖啡再来检查结果。
4/9/2025 1:00:00 AM
大数据AI智能圈
ChatGPT的危险之处:你永远不应该告诉AI机器人的五件事
但这个征服世界的大型语言模型聊天机器人被描述为一个“隐私黑洞”,人们担心它处理用户数据的方式,这甚至导致它在意大利被短暂封禁。 它的创造者OpenAI毫不掩饰这样一个事实:任何输入的数据都可能不安全。 这些数据不仅可能被用于进一步训练其模型,从而可能暴露给其他用户,而且还可能被人工审核,以检查其是否符合使用规则。
4/9/2025 12:13:00 AM
Bernard Marr
大模型部署工具 Ollama 使用指南:技巧与问题解决全攻略
一、Ollama 是什么? Ollama 是一个开源的本地大模型部署工具,旨在简化大型语言模型(LLM)的运行和管理。 通过简单命令,用户可以在消费级设备上快速启动和运行开源模型(如 Llama、DeepSeek 等),无需复杂配置。
4/8/2025 3:22:00 AM
wayn
比DeepSeek更惊艳,生成式决策如何让机器人拥有创造力?
当传统机器人遇见生成式AI,会擦出什么样的火花? 技术的演进从不停滞。 如今,我们正处在具身智能发展的关键节点,生成式决策技术正悄然改变着这个领域的游戏规则。
4/8/2025 2:00:00 AM
大数据AI智能圈
谷歌研究:合成数据使大模型数学推理能力提升八倍
最近,来自谷歌、卡内基梅隆大学和 MultiOn 的联合研究团队发表了一项关于合成数据在大型模型训练中应用的新研究。 据专注于人工智能发展的研究机构 Epoch AI 报告显示,目前全球约有 300 万亿个公开可用的高质量文本训练标记。 然而,随着类似 ChatGPT 这样的大模型的迅猛发展,对训练数据的需求呈指数级增长,预计到 2026 年之前,这些数据将被耗尽。
4/8/2025 12:40:00 AM
远洋
OpenAI宣布GPT-5推迟数月发布 技术整合难度成倍上升
OpenAI 首席执行官萨姆·奥特曼(Sam Altman)近日通过社交媒体宣布,GPT-5 的发布计划将推迟,预计在未来几个月内正式推出。 此前,OpenAI 计划在 2025 年初发布 GPT-5,但最终决定延后,以便将该模型做得比预期更好。 奥特曼表示,推迟发布的原因是 GPT-5 的能力远超预期,整合所需资源和生态准备超出了当前可控范围。
4/8/2025 12:20:00 AM
LLM「想太多」有救了!高效推理让大模型思考过程更精简
LLM的推理能力显著增强,然而,这个「超级大脑」也有自己的烦恼。 有时候回答会绕好大一个圈子,推理过程冗长又复杂,虽能得出正确答案,但耗费了不少时间和计算资源。 比如问它「2加3等于多少」,它可能会从数字的概念、加法原理开始,洋洋洒洒说上一大通,这在实际应用中可太影响效率啦。
4/7/2025 9:23:00 AM
新智元
DeepSeek R2来了?全新推理时Scaling论文联手清华震撼发布! 新智元 新智元 2025年04月04日 17:33
DeepSeek R2,果然近了。 最近,DeepSeek和清华的研究者发表的这篇论文,探讨了奖励模型的推理时Scaling方法。 论文地址:,强化学习(RL)已广泛应用于LLM的大规模后训练阶段。
4/7/2025 8:42:00 AM
新智元
一文读懂开源 Llama 4 模型
Hello folks,我是 Luga,今天我们来聊一下人工智能领域的最新大模型技术进展 - 构建高效、灵活、以及开源的的大模型 - Llama 4 。 在人工智能领域,随着技术的不断进步,越来越多的强大语言模型应运而生。 Llama 4 作为 Meta 推出的最新一代大规模语言模型,凭借其卓越的性能和创新的架构设计,成为了当前 AI 领域的焦点之一。
4/7/2025 8:40:00 AM
Luga Lee
大模型除了聊天还能做什么?关于大模型的分类和应用
大模型技术发展到今天,其功能可以说是日新月异;并且很多企业已经在探索大模型的应用场景和技术实现;但是很多人到现在对大模型的了解仅仅只限于能聊个天,问个问题。 但实际上,大模型能够做的事要远比我们想象中的要多的多;因此,今天我们就从用户和技术两个角度来介绍一下大模型的应用。 关于大模型的分类和应用问题如果想弄清楚大模型是怎么使用的,首先要知道大模型的分类;不同类型的模型适合不同的应用场景,其功能和实现也各不相同。
4/7/2025 8:15:00 AM
DFires
Llama 4开源王者归来!推理、编码打平DeepSeek V3但参数减一半,一张H100就能跑,还有巨兽2万亿参数模型!
编辑 | 李美涵出品 | 51CTO技术栈(微信号:blog51cto)深夜,Meta如期发布了全新的开源大型模型系列——Llama 4,并未出现任何“跳票”传闻中的推迟情况! 图片此次发布也标志着Meta与近来崛起的开源新王 DeepSeek 正面硬钢。 Meta官推更是表示:表示:“今天开启了原生多模态AI创新的新时代”。
4/7/2025 7:00:00 AM
李美涵
模态编码器|EVA改进之EVA-02
来自智源曹越团队在EVA的优化改进方面的工作EVA-02,项目地址::在CV领域,训练、调优和评估非常大的视觉模型需要大量的计算资源,限制了许多研究人员和开发者的参与。 因此,本研究主要目的是提供一种高效且性能强大的预训练方法,不仅能够在多种下游任务中展现出色的迁移学习能力,而且还能显著减少参数数量和计算成本。 01、模型架构EVA-02的基础是一个改进版的纯Transformer架构,该架构在原始ViT的基础上进行了若干重要的修改,以更好地适应大规模预训练任务的需求。
4/7/2025 6:30:00 AM
Goldma
DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI
Deepseek在2025年1月颠覆了全球人工智能模型,但谷歌和OpenAI很快发布了Gemini2 Pro和O3。 这就产生了一个问题,应该使用哪种人工智能模型来进行客户服务? 为了评估这些模型在客户服务任务上的表现,我们必须更深入地了解它们在各种AI基准上的表现。
4/7/2025 5:00:00 AM
晓晓
DeepSeek R2来了?全新推理时Scaling论文联手清华震撼发布!
DeepSeek R2,果然近了。 最近,DeepSeek和清华的研究者发表的这篇论文,探讨了奖励模型的推理时Scaling方法。 图片论文地址:,强化学习(RL)已广泛应用于LLM的大规模后训练阶段。
4/7/2025 3:44:00 AM
新智元
模态编码器|CLIP详细解读
下面来详细了解一下多模态大模型模态编码器部分。 今天首先来看下CLIP,OpenAI发表在2021年ICML上的一篇工作。 项目地址::在自然语言处理(NLP)领域,通过大规模的文本数据预训练模型(如GPT-3)已经取得了显著的成果,但在计算机视觉领域,预训练模型仍然依赖于人工标注的图像数据集,严重影响了其在未见类别上的泛化性和可用性(需要用额外的有标注数据)。
4/7/2025 3:30:00 AM
Goldma
基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战
群组相对策略优化(Group Relative Policy Optimization,GRPO)已被证明是一种有效的算法,可用于训练大语言模型(LLMs),使其具备推理能力并在基准测试中持续提升性能表现。 DeepSeek-R1 展示了如何通过监督式微调(Supervised Fine-Tuning)与 GRPO 技术的结合,引导模型达到与 OpenAI 的 o1 等顶尖模型相竞争的水平。 为了进一步探索其实践应用,我们尝试将这些技术应用于现实场景中。
4/7/2025 2:25:00 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
英伟达
Anthropic
论文
代码
AI新词
训练
算法
Stable Diffusion
芯片
LLM
蛋白质
开发者
腾讯
Claude
苹果
生成式
AI for Science
Agent
神经网络
3D
机器学习
研究
xAI
生成
人形机器人
AI视频
计算
百度
Sora
GPU
AI设计
华为
工具
大语言模型
RAG
搜索
具身智能
字节跳动
大型语言模型
场景
深度学习
预测
视频生成
伟达
视觉
Transformer
AGI
架构
亚马逊
神器推荐
Copilot
DeepMind
特斯拉
应用