大模型
阿里云刘伟光:AI正在推动各行各业的生产力变革
“阿里云大模型的战略就是服务企业市场创造社会价值,AI正在推动各行各业的生产力变革,通义大模型将深耕企业市场。 ”4月9日,阿里云在京召开AI势能大会,阿里云智能集团资深副总裁、公共云事业部总裁刘伟光称,大模型的社会价值正在企业市场释放,阿里云将坚定投入,打造全栈领先的技术,持续开源开放,为AI应用提速。 近一年多来,通义大模型技术加速迭代,在to B和to C赛道都取得了一些进展,在消费端表现为用户体验的优化,在产业侧表现为生产力的极大提升。
4/9/2025 2:35:50 PM
"是我创造了第一个LLM"!Kaggle前首席科学家一句话引发AI学术圈考古行动
论如何在技术圈争论中一句话噎到对方:哥们,是我创造了第一个大语言模型。 发言者Jeremy Howard为澳大利亚昆士兰大学名誉教授、曾任Kaggle创始总裁和首席科学家,现answer.ai与fast.ai创始人,。 事情的起因是有人质疑他最近的项目llms.txt在帮助大模型爬取互联网信息上并没太大作用,从而引发了这段争论,迅速引起众人围观。
4/9/2025 9:23:00 AM
量子位
一文彻底搞懂 MCP:AI 大模型的标准化工具箱
MCP 最近在 AI 领域 引发了 广泛关注,特别是在 海外各大社区 中,大家热烈讨论,热度相当高。 我打开了 Google Trends[1],这是一个专门用于查看全球热点趋势的网站。 图片输入关键词后,可以查看其热度变化。
4/9/2025 8:25:20 AM
程序员NEO
模态编码器 | CLIP改进之SigLIP,采用sigmoid损失的图文预训练
DeepMind对CLIP改进的一篇工作--SigLIP,发表在2023CVPR。 简单看下研究动机:传统的对比学习方法如CLIP等依赖于 softmax 归一化,这需要一个全局视角来计算成对相似度,从而限制了批处理大小的扩展能力,并且在小批处理大小下表现不佳。 因此本文提出了一个简单的成对 Sigmoid 损失函数用于语言-图像预训练(SigLIP)。
4/9/2025 2:10:00 AM
Goldma
大模型+数据分析:下一代智能查询优化体系的先行探索
当你每天面对万亿级数据、日均百万次查询请求时,你会怎么做? 处理海量数据查询犹如在迷雾中寻路,方向稍有不慎就会迷失。 数据负载高到屏幕只显示超时,查询速度慢到让你有时间泡一杯咖啡再来检查结果。
4/9/2025 1:00:00 AM
大数据AI智能圈
大模型部署工具 Ollama 使用指南:技巧与问题解决全攻略
一、Ollama 是什么? Ollama 是一个开源的本地大模型部署工具,旨在简化大型语言模型(LLM)的运行和管理。 通过简单命令,用户可以在消费级设备上快速启动和运行开源模型(如 Llama、DeepSeek 等),无需复杂配置。
4/8/2025 3:22:00 AM
wayn
谷歌研究:合成数据使大模型数学推理能力提升八倍
最近,来自谷歌、卡内基梅隆大学和 MultiOn 的联合研究团队发表了一项关于合成数据在大型模型训练中应用的新研究。 据专注于人工智能发展的研究机构 Epoch AI 报告显示,目前全球约有 300 万亿个公开可用的高质量文本训练标记。 然而,随着类似 ChatGPT 这样的大模型的迅猛发展,对训练数据的需求呈指数级增长,预计到 2026 年之前,这些数据将被耗尽。
4/8/2025 12:40:00 AM
远洋
中国自主量子计算机“本源悟空”全球首次运行十亿级 AI 微调大模型
据《科创板日报》从安徽省量子计算工程研究中心获悉,本源量子、合肥综合性国家科学中心人工智能研究院等机构联合攻关,在中国第三代自主超导量子计算机“本源悟空”真机上,全球首次运行十亿参数 AI 大模型微调任务。
4/7/2025 9:41:45 AM
远洋
LLM「想太多」有救了!高效推理让大模型思考过程更精简
LLM的推理能力显著增强,然而,这个「超级大脑」也有自己的烦恼。 有时候回答会绕好大一个圈子,推理过程冗长又复杂,虽能得出正确答案,但耗费了不少时间和计算资源。 比如问它「2加3等于多少」,它可能会从数字的概念、加法原理开始,洋洋洒洒说上一大通,这在实际应用中可太影响效率啦。
4/7/2025 9:23:00 AM
新智元
一文读懂开源 Llama 4 模型
Hello folks,我是 Luga,今天我们来聊一下人工智能领域的最新大模型技术进展 - 构建高效、灵活、以及开源的的大模型 - Llama 4 。 在人工智能领域,随着技术的不断进步,越来越多的强大语言模型应运而生。 Llama 4 作为 Meta 推出的最新一代大规模语言模型,凭借其卓越的性能和创新的架构设计,成为了当前 AI 领域的焦点之一。
4/7/2025 8:40:00 AM
Luga Lee
大模型除了聊天还能做什么?关于大模型的分类和应用
大模型技术发展到今天,其功能可以说是日新月异;并且很多企业已经在探索大模型的应用场景和技术实现;但是很多人到现在对大模型的了解仅仅只限于能聊个天,问个问题。 但实际上,大模型能够做的事要远比我们想象中的要多的多;因此,今天我们就从用户和技术两个角度来介绍一下大模型的应用。 关于大模型的分类和应用问题如果想弄清楚大模型是怎么使用的,首先要知道大模型的分类;不同类型的模型适合不同的应用场景,其功能和实现也各不相同。
4/7/2025 8:15:00 AM
DFires
模态编码器|EVA改进之EVA-02
来自智源曹越团队在EVA的优化改进方面的工作EVA-02,项目地址::在CV领域,训练、调优和评估非常大的视觉模型需要大量的计算资源,限制了许多研究人员和开发者的参与。 因此,本研究主要目的是提供一种高效且性能强大的预训练方法,不仅能够在多种下游任务中展现出色的迁移学习能力,而且还能显著减少参数数量和计算成本。 01、模型架构EVA-02的基础是一个改进版的纯Transformer架构,该架构在原始ViT的基础上进行了若干重要的修改,以更好地适应大规模预训练任务的需求。
4/7/2025 6:30:00 AM
Goldma
模态编码器|CLIP详细解读
下面来详细了解一下多模态大模型模态编码器部分。 今天首先来看下CLIP,OpenAI发表在2021年ICML上的一篇工作。 项目地址::在自然语言处理(NLP)领域,通过大规模的文本数据预训练模型(如GPT-3)已经取得了显著的成果,但在计算机视觉领域,预训练模型仍然依赖于人工标注的图像数据集,严重影响了其在未见类别上的泛化性和可用性(需要用额外的有标注数据)。
4/7/2025 3:30:00 AM
Goldma
多模态模型结构与训练总结
01、模型结构一般的多模态模型架构包含5个部分,分别是:模态编码器、输入映射器、大模型骨干、输出映射器以及模态生成器。 模态编码器(Modality Encoder, ME)将多种模态输入编码成特征表示,公式如下X表示模态,表示各种预训练好的编码器。 目前模态主要分为:视觉模态、语音模态、3D点云模态,其中视觉模态主要包括图像和视频,对于视频,视频通常被均匀采样成5帧图像,然后进行与图像相同的预处理。
4/7/2025 12:00:00 AM
Goldma
仅需10万不到,DeepSeek R1 671B大模型本地部署实战指南
最近帮一个朋友部署本地的671b版本的deepseek r1,需求是要完全本地部署,但是又不想花太高的成本,没有并发要求,我一想,用ktransformers框架来部署完全合适。 关于机器配置,在挑挑拣拣评比之后,设备选择如下,最终选择的是其中的服务器配置。 这套设备下来总成本不到10万,相比如动辄几百万的满血版deepseek R1或者花个五六十万买个deepseek 70b的一体机要值当的多,且不说70b并不是真正的deepseek r1,效果还不如32b的QWQ,就光说一体机的升级也是个麻烦事,买了机器基本就和模型绑定了,以后新模型出来后想升级就难了。
4/3/2025 3:57:48 PM
贝塔街的万事屋
机器学习|从0开发大模型之复现DeepSeek的aha moment
前面一篇文章介绍了《从0开发大模型之DeepSeek的GRPO》,并且实现了一个简单版本的 GRPO 代码,不过从工程领域来看,并没有复现DeepSeek-R1,于是最近申请了48G的显存,结合一些开源的方案复现aha monent,并给出完整的代码和工具链。 1、什么是 aha monent DeepSeek-R1 论文中提到,模型让作者「见证了强化学习的力量和美感」,在DeepSeek-R1-Zero的中间版本,「顿悟时刻」来了:模型学会了以人类的语气进行反思。 aha monent 2、使用什么的基座模型和训练数据 由于显卡只有48G,可以用基座模型Qwen2.5,模型大小:0.5B,1.5B,3B训练数据有很多:(可以直接在huggingface上找到) a.AI-MO/NuminaMath-TIR:包括72K行的数学问题,解决方案和答案,是从 NuminaMath-CoT 数据集提炼出来的 b.
4/3/2025 3:46:53 PM
周末程序猿
机器学习|从0开发大模型之DeepSeek的GRPO
DeepSeek-R1的发布为国产大模型争光了(太强了),不过 GRPO 算法源自 DeepSeekMath 7B 模型,该模型在 MATH 基准测试中取得了优异成绩,论文发表于2024年2月份:,以下是该论文的摘要原文:复制翻译如下:复制对比数据1、什么是GRPOGRPO 是一种在线学习算法,核心思想是通过组内相对奖励来估计基线,从而避免使用额外的价值函数模型。 通过在训练期间使用受训模型自身生成的数据来迭代改进,GRPO 旨在最大化生成补全的优势,同时确保模型保持接近参考策略,下图是论文中的算法流程图:GRPOGRPO 是 PPO (Proximal Policy Optimization,近端策略优化,是一种强化学习算法,由OpenAI于2017年提出,旨在解决策略梯度方法中的训练不稳定问题) 的变体,主要区别是:GRPO 省略 value function modelGRPO 奖励计算,改成了一个 q 生成多个 r,然后 reward 打分GRPO算法流程:采样一组输出并计算每个输出的奖励对组内奖励进行归一化处理使用归一化后的奖励计算优势函数通过最大化目标函数更新策略模型迭代训练,逐步优化策略模型论文中的伪代码2、奖励设计huggingface 库提供 GRPOTrainer 可以直接使用 GRPO 训练,参数包括定义奖励模型和函数。 2.1 奖励模型复制这里的 reward_funcs 参数可以传入奖励模型。
4/3/2025 3:40:41 PM
周末程序猿
Dify+大模型:重构企业基因的“数智引擎”——解锁AI工业化落地新范式
当AI开发进入“流水线时代”2025年,全球企业AI应用开发呈现“冰火两重天”:一边是OpenAI、DeepSeek等大模型参数突破百万亿级,另一边却是78%的企业困在“PPT智能”阶段——AI应用开发周期长、场景碎片化、数据孤岛难破。 Dify与大模型的结合,正在打破这一僵局。 它不仅是工具,更是企业AI能力工业化的流水线,让大模型从“技术狂欢”走向“价值落地”。
4/3/2025 1:07:50 PM
推推君
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
英伟达
Anthropic
论文
代码
AI新词
训练
算法
Stable Diffusion
芯片
LLM
蛋白质
开发者
腾讯
Claude
苹果
生成式
AI for Science
Agent
神经网络
3D
机器学习
研究
xAI
生成
人形机器人
AI视频
计算
百度
Sora
GPU
AI设计
华为
工具
大语言模型
RAG
搜索
具身智能
字节跳动
大型语言模型
场景
深度学习
预测
视频生成
伟达
视觉
Transformer
AGI
架构
亚马逊
神器推荐
Copilot
DeepMind
特斯拉
应用