文章列表
迈向视觉大一统:UnifiedReward,多模态生成与理解的通用奖励模型
本篇文章来自公众号粉丝投稿,论文提出了一个视觉领域通用的奖励模型UnifiedReward,能够对图像/视频的生成与理解进行pairwise(成对比较)或 pointwise(单样本打分)评估,可用于视觉各领域的直接偏好优化 (DPO),提升各类视觉模型的表现。 论文介绍近年来,大模型时代的多模态生成与理解技术取得了飞跃式发展。 然而,如何让AI真正“看懂”世界,并更好地对齐人类偏好,仍是一个核心挑战。
3/13/2025 10:18:42 AM
Yibin Wang
14B 小模型逆袭翻译赛道,论文财报实测超Claude,不信试试“我命由我不由天”
都说通用大模型轻松拿捏翻译,结果有人来掀桌了。 来自网易有道的14B翻译小模型,测试达行业第一,翻译质量超越一众国内外主流通用大模型。 它就是子曰翻译大模型2.0(下文简称子曰2.0),在英译中方面轻松超越Claude 3.5 Sonnet等12个主流通用大模型,中译英也和Claude 3.5 Sonnet达到同等水平。
3/13/2025 10:04:06 AM
量子位
大模型长文推理迎来“核弹级”提速!清华APBB框架狂飙10倍,Flash Attention直接被秒
还在为大模型处理长文本“龟速”而抓狂?别急!清华大学祭出“王炸”技术——APB 序列并行推理框架,直接给大模型装上“涡轮增压”引擎!实测显示,这项黑科技在处理超长文本时,速度竟比肩 Flash Attention 快10倍!没错,你没听错,是10倍!要知道,随着 ChatGPT 等大模型的爆火,AI 们“阅读”能力也水涨船高,动辄处理十几万字的长文不在话下。 然而,面对海量信息,传统大模型的“大脑”却有点卡壳—— Transformer 架构虽强,但其核心的注意力机制就像一个“超级扫描仪”,文本越长,扫描范围呈指数级膨胀,速度自然就慢了下来。 为了解决这个“卡脖子”难题,清华大学的科学家们联合多家研究机构和科技巨头,另辟蹊径,推出了 APB 框架。
3/13/2025 9:50:00 AM
AI在线
字节Trae接入硅基流动SiliconCloud 支持DeepSeek多款模型API
硅基流动官方宣布,由字节跳动推出的首个 AI 原生集成开发环境(AI IDE)——Trae接入硅基流动(SiliconCloud)平台,旨在为开发者提供更高效的编程体验。 Trae 现在集成了硅基流动的多款模型,用户只需通过 API 密钥即可接入 DeepSeek-R1、V3、QWQ-32B、Qwen2.5-Coder 等多种编码模型。 这种灵活的选择满足了开发者对不同模型的使用需求。
3/13/2025 9:21:00 AM
AI在线
Midjourney隐藏黑科技!4 种 Sref 代码实现100%风格复刻
大家好,我是竹子,竹笋集视觉创始人,同时也是一名设计师。 很高兴成为优设 AI 特邀专栏作者,未来我将与大家分享 AI 绘画的心得与实践经验。 随着 AI 工具的兴起,绘画的门槛正在迅速降低。
3/13/2025 8:26:32 AM
竹笋集
DeepSeek-R1的方法迁移到多模态大模型-开源Vision-R1实现方法思路
刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。 先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力? 结论:不能,因为如果 RL 能有效激励推理能力,Vision-R1-Zero 应该表现出生成复杂 CoT 的能力,并在基准测试中提升准确率。
3/13/2025 8:13:47 AM
余俊晖
不需要 AI 和数学知识背景,这篇文章带你学会大模型应用开发
作者 | ronaldo最近几年,大模型在技术领域的火热程度属于一骑绝尘遥遥领先,不论是各种技术论坛还是开源项目,大多都围绕着大模型展开。 大模型的长期目标是实现AGI,这可能还有挺长的路要走,但是眼下它已经深刻地影响了“编程”领域。 各种copilot显著地提升了开发者的效率,但与此同时,开发者也变得非常地焦虑。
3/13/2025 8:00:00 AM
腾讯技术工程
用AI把PDF一键变成能玩的可视化网页,这不比PPT酷多了?
前几天,看到好基友歸藏在 X 上发了一个帖子:还挺爆,一天半的时间过去,已经有 17.3 万的阅读了。 这个东西,简单点说,就是用一个 Prompt,把一些非常难以阅读的文字报告,一键转成更舒服更易读的可视化网页。 甚至,还是能交互的那种。
3/13/2025 6:53:33 AM
数字生命卡兹克
谷歌 DeepMind 推出新 AI 模型,机器人未经训练也能执行现实任务
北京时间今晚,谷歌 DeepMind 推出两款新型 AI 模型,旨在帮助机器人完成更多现实世界中的任务。
3/12/2025 11:22:56 PM
清源
H20芯片困局:在DeepSeek崛起下的挑战与反思
在当今全球科技竞争的宏大棋局之中,美国针对中国半导体和人工智能芯片发起的制裁行动,恰似汹涌暗潮,正以悄无声息却又极具颠覆性的方式,重塑着中国人工智能产业的发展格局。 在这一复杂局势下,H20 芯片作为特殊的存在进入中国市场,看似是为国内企业送来的“及时雨”,实则暗藏玄机,背后隐藏着诸多亟待剖析的问题。 近年来,美国对我国人工智能发展的制裁手段可谓层层加码、环环相扣。
3/12/2025 5:59:31 PM
徐勇
西班牙将推新法案:未标注 AI 生成内容将面临巨额罚款
西班牙政府近期通过了一项新法案,旨在对未正确标注的人工智能(AI)生成内容的公司处以高额罚款,以打击 “深度伪造” 现象。 数字化转型部长奥斯卡・洛佩斯(Oscar Lopez)在新闻发布会上表示,此项法案参考了欧盟的《人工智能法案》,规定了对被认为是高风险的人工智能系统实施严格的透明度要求。 图源备注:图片由AI生成,图片授权服务商Midjourney洛佩斯指出,人工智能在提升生活质量的同时,也可能被用来传播错误信息、攻击民主,具有潜在的风险。
3/12/2025 5:47:00 PM
AI在线
硅基流动:DeepSeek-R1 & V3 API升级,支持批量推理、R1价格直降75%
硅基流动官微宣布,即刻起,硅基流动SiliconCloud平台的DeepSeek-R1&V3API支持批量推理(BatchInference)。 用户通过批量 API 发送请求到 SiliconCloud,不受实时推理速率限制的影响,预期可在24小时内完成任务。 相比实时推理,DeepSeek-V3 批量推理价格直降50%,其中,3月11日至3月18日,DeepSeek-R1批量推理优惠价格直降75%,输入价格为 1元 / 百万 Tokens、输出价格为4元 / 百万 Tokens。
3/12/2025 4:44:00 PM
AI在线
硅基流动宣布DeepSeek-R1&V3 API支持批量推理 价格暴降75%
硅基流动 SiliconCloud 平台即日起正式推出 DeepSeek-R1& V3API 的批量推理(Batch Inference)功能。 用户现在可以通过批量 API 向 SiliconCloud 发送请求,摆脱实时推理速率的限制,并在预期24小时内完成大规模数据处理任务。 此次更新的一大亮点是价格的大幅下调。
3/12/2025 4:43:00 PM
AI在线
奥尔特曼预告创意文学模型,称其首次被 AI 作品打动
2025 年 3 月 12 日,OpenAI 奥尔特曼预告创意写作 AI 模型,分享其创作故事,引发 AI 内容应用讨论。科技媒体分析显示其类似人类写作,但也提醒谨防诈骗。#AI 创意写作 #OpenAI
3/12/2025 3:41:02 PM
故渊
预计到2034年,交易市场中的生成式AI价值将达23.6亿美元
根据 Market.us 的最新报告,生成式人工智能在交易市场正经历快速扩张。 预计市场规模将从2024年的2.453亿美元增长到2034年的23.587亿美元,年均增长率达到25.4%。 这一增长主要受益于 AI 驱动的交易策略和先进分析技术的普及。
3/12/2025 3:25:00 PM
AI在线
32B IOI奥赛击败DeepSeek-R1!Open R1开源复刻第三弹,下一步R1-Zero
Hugging Face的Open R1再度升级! Hugging Face的Open R1是一个社区驱动的项目,目标是创建一个完全开源的DeepSeek-R1版本。 目前,已有模型如OlympicCoder-32B和数据集如codeforces发布,显示了项目的进展。
3/12/2025 1:55:05 PM
新智元
OpenAI旨在通过扩展工具包开发智能体
随着企业对这项技术兴趣的提升,技术供应商纷纷急于推出工具以促进智能体的采用。 云巨头和软件巨头都已参与其中。 谷歌去年12月向企业客户介绍了其Agentspace服务,微软上周扩展了其AI代理产品组合,而AWS则于周一正式推出了AmazonBedrock上的多智能体协作功能。
3/12/2025 1:04:01 PM
Lindsey Wilkinson
使用 VLLM 部署 DeepSeek:基于 Ubuntu 22.04 + RTX 4090 + Docker 的完整指南
最近,大语言模型(LLM)的部署已经成为 AI 开发者绕不开的核心技能。 而 VLLM 作为一款高性能、低延迟的推理引擎,在大模型推理领域迅速崛起。 今天,我就带大家从零开始,在 Ubuntu 22.04 RTX 4090 Docker 环境下,部署 DeepSeek模型,并让它跑起来!
3/12/2025 12:37:50 PM
写代码的中年人