文章列表

分类

标签

迈向视觉大一统：UnifiedReward，多模态生成与理解的通用奖励模型

本篇文章来自公众号粉丝投稿，论文提出了一个视觉领域通用的奖励模型UnifiedReward，能够对图像/视频的生成与理解进行pairwise（成对比较）或 pointwise（单样本打分）评估，可用于视觉各领域的直接偏好优化 (DPO)，提升各类视觉模型的表现。论文介绍近年来，大模型时代的多模态生成与理解技术取得了飞跃式发展。然而，如何让AI真正“看懂”世界，并更好地对齐人类偏好，仍是一个核心挑战。

3/13/2025 10:18:42 AM

Yibin Wang

14B 小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

都说通用大模型轻松拿捏翻译，结果有人来掀桌了。来自网易有道的14B翻译小模型，测试达行业第一，翻译质量超越一众国内外主流通用大模型。它就是子曰翻译大模型2.0（下文简称子曰2.0），在英译中方面轻松超越Claude 3.5 Sonnet等12个主流通用大模型，中译英也和Claude 3.5 Sonnet达到同等水平。

3/13/2025 10:04:06 AM

量子位

大模型长文推理迎来“核弹级”提速！清华APBB框架狂飙10倍，Flash Attention直接被秒

还在为大模型处理长文本“龟速”而抓狂?别急!清华大学祭出“王炸”技术——APB 序列并行推理框架，直接给大模型装上“涡轮增压”引擎!实测显示，这项黑科技在处理超长文本时，速度竟比肩 Flash Attention 快10倍!没错，你没听错，是10倍!要知道，随着 ChatGPT 等大模型的爆火，AI 们“阅读”能力也水涨船高，动辄处理十几万字的长文不在话下。然而，面对海量信息，传统大模型的“大脑”却有点卡壳—— Transformer 架构虽强，但其核心的注意力机制就像一个“超级扫描仪”，文本越长，扫描范围呈指数级膨胀，速度自然就慢了下来。为了解决这个“卡脖子”难题，清华大学的科学家们联合多家研究机构和科技巨头，另辟蹊径，推出了 APB 框架。

3/13/2025 9:50:00 AM

AI在线

字节Trae接入硅基流动SiliconCloud 支持DeepSeek多款模型API

硅基流动官方宣布，由字节跳动推出的首个 AI 原生集成开发环境（AI IDE）——Trae接入硅基流动(SiliconCloud)平台，旨在为开发者提供更高效的编程体验。 Trae 现在集成了硅基流动的多款模型，用户只需通过 API 密钥即可接入 DeepSeek-R1、V3、QWQ-32B、Qwen2.5-Coder 等多种编码模型。这种灵活的选择满足了开发者对不同模型的使用需求。

3/13/2025 9:21:00 AM

AI在线

Midjourney隐藏黑科技！4 种 Sref 代码实现100%风格复刻

大家好，我是竹子，竹笋集视觉创始人，同时也是一名设计师。很高兴成为优设 AI 特邀专栏作者，未来我将与大家分享 AI 绘画的心得与实践经验。随着 AI 工具的兴起，绘画的门槛正在迅速降低。

3/13/2025 8:26:32 AM

竹笋集

DeepSeek-R1的方法迁移到多模态大模型-开源Vision-R1实现方法思路

刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型，就看到这个工作，本文一起看看，供参考。先提出问题，仅靠 RL 是否足以激励 MLLM 的推理能力？结论：不能，因为如果 RL 能有效激励推理能力，Vision-R1-Zero 应该表现出生成复杂 CoT 的能力，并在基准测试中提升准确率。

3/13/2025 8:13:47 AM

余俊晖

不需要 AI 和数学知识背景，这篇文章带你学会大模型应用开发

作者 | ronaldo最近几年，大模型在技术领域的火热程度属于一骑绝尘遥遥领先，不论是各种技术论坛还是开源项目，大多都围绕着大模型展开。大模型的长期目标是实现AGI，这可能还有挺长的路要走，但是眼下它已经深刻地影响了“编程”领域。各种copilot显著地提升了开发者的效率，但与此同时，开发者也变得非常地焦虑。

3/13/2025 8:00:00 AM

腾讯技术工程

用AI把PDF一键变成能玩的可视化网页，这不比PPT酷多了？

前几天，看到好基友歸藏在 X 上发了一个帖子：还挺爆，一天半的时间过去，已经有 17.3 万的阅读了。这个东西，简单点说，就是用一个 Prompt，把一些非常难以阅读的文字报告，一键转成更舒服更易读的可视化网页。甚至，还是能交互的那种。

3/13/2025 6:53:33 AM

数字生命卡兹克

谷歌 DeepMind 推出新 AI 模型，机器人未经训练也能执行现实任务

北京时间今晚，谷歌 DeepMind 推出两款新型 AI 模型，旨在帮助机器人完成更多现实世界中的任务。

3/12/2025 11:22:56 PM

清源

H20芯片困局：在DeepSeek崛起下的挑战与反思

在当今全球科技竞争的宏大棋局之中，美国针对中国半导体和人工智能芯片发起的制裁行动，恰似汹涌暗潮，正以悄无声息却又极具颠覆性的方式，重塑着中国人工智能产业的发展格局。在这一复杂局势下，H20 芯片作为特殊的存在进入中国市场，看似是为国内企业送来的“及时雨”，实则暗藏玄机，背后隐藏着诸多亟待剖析的问题。近年来，美国对我国人工智能发展的制裁手段可谓层层加码、环环相扣。

3/12/2025 5:59:31 PM

徐勇

西班牙将推新法案：未标注 AI 生成内容将面临巨额罚款

西班牙政府近期通过了一项新法案，旨在对未正确标注的人工智能（AI）生成内容的公司处以高额罚款，以打击 “深度伪造” 现象。数字化转型部长奥斯卡・洛佩斯（Oscar Lopez）在新闻发布会上表示，此项法案参考了欧盟的《人工智能法案》，规定了对被认为是高风险的人工智能系统实施严格的透明度要求。图源备注:图片由AI生成，图片授权服务商Midjourney洛佩斯指出，人工智能在提升生活质量的同时，也可能被用来传播错误信息、攻击民主，具有潜在的风险。

3/12/2025 5:47:00 PM

AI在线

硅基流动：DeepSeek-R1 & V3 API升级，支持批量推理、R1价格直降75%

硅基流动官微宣布，即刻起，硅基流动SiliconCloud平台的DeepSeek-R1&V3API支持批量推理（BatchInference）。用户通过批量 API 发送请求到 SiliconCloud，不受实时推理速率限制的影响，预期可在24小时内完成任务。相比实时推理，DeepSeek-V3 批量推理价格直降50%，其中，3月11日至3月18日，DeepSeek-R1批量推理优惠价格直降75%，输入价格为 1元 / 百万 Tokens、输出价格为4元 / 百万 Tokens。

3/12/2025 4:44:00 PM

AI在线

硅基流动宣布DeepSeek-R1&V3 API支持批量推理价格暴降75%

硅基流动 SiliconCloud 平台即日起正式推出 DeepSeek-R1& V3API 的批量推理（Batch Inference）功能。用户现在可以通过批量 API 向 SiliconCloud 发送请求，摆脱实时推理速率的限制，并在预期24小时内完成大规模数据处理任务。此次更新的一大亮点是价格的大幅下调。

3/12/2025 4:43:00 PM

AI在线

奥尔特曼预告创意文学模型，称其首次被 AI 作品打动

2025 年 3 月 12 日，OpenAI 奥尔特曼预告创意写作 AI 模型，分享其创作故事，引发 AI 内容应用讨论。科技媒体分析显示其类似人类写作，但也提醒谨防诈骗。#AI 创意写作 #OpenAI

3/12/2025 3:41:02 PM

故渊

预计到2034年，交易市场中的生成式AI价值将达23.6亿美元

根据 Market.us 的最新报告，生成式人工智能在交易市场正经历快速扩张。预计市场规模将从2024年的2.453亿美元增长到2034年的23.587亿美元，年均增长率达到25.4%。这一增长主要受益于 AI 驱动的交易策略和先进分析技术的普及。

3/12/2025 3:25:00 PM

AI在线

32B IOI奥赛击败DeepSeek-R1！Open R1开源复刻第三弹，下一步R1-Zero

Hugging Face的Open R1再度升级！ Hugging Face的Open R1是一个社区驱动的项目，目标是创建一个完全开源的DeepSeek-R1版本。目前，已有模型如OlympicCoder-32B和数据集如codeforces发布，显示了项目的进展。

3/12/2025 1:55:05 PM

新智元

OpenAI旨在通过扩展工具包开发智能体

随着企业对这项技术兴趣的提升，技术供应商纷纷急于推出工具以促进智能体的采用。云巨头和软件巨头都已参与其中。谷歌去年12月向企业客户介绍了其Agentspace服务，微软上周扩展了其AI代理产品组合，而AWS则于周一正式推出了AmazonBedrock上的多智能体协作功能。

3/12/2025 1:04:01 PM

Lindsey Wilkinson

使用 VLLM 部署 DeepSeek：基于 Ubuntu 22.04 + RTX 4090 + Docker 的完整指南

最近，大语言模型（LLM）的部署已经成为 AI 开发者绕不开的核心技能。而 VLLM 作为一款高性能、低延迟的推理引擎，在大模型推理领域迅速崛起。今天，我就带大家从零开始，在 Ubuntu 22.04 RTX 4090 Docker 环境下，部署 DeepSeek模型，并让它跑起来！

3/12/2025 12:37:50 PM

写代码的中年人

资讯热榜

大BUG！非学生用户竟能白嫖谷歌顶级AI全家桶白嫖攻略速看趋势抢先知！2025年4月值得关注的10条AI资讯上线仅7天，阿里通义千问3问鼎全球开源模型 DeepSeek开源的文件系统，是如何提升大模型效率的？ ChatGPT 访问量激增，4 月总计达47.86亿次、首次超越 X OpenAI新增应用部门CEO：Fidji Simo加盟，加速产品与运营布局 OpenAI 重返非营利模式，终止营利性实体控制机制 iOS18.6或为中国用户启用AI功能国行苹果AI或由阿里百度技术支持

标签云

人工智能 OpenAI AI AIGC ChatGPT DeepSeek AI绘画模型数据机器人谷歌大模型 Midjourney 智能用户开源学习微软 GPT Meta 图像 AI创作技术 Gemini 论文马斯克 Stable Diffusion 算法芯片蛋白质生成式代码英伟达腾讯神经网络研究 Anthropic 计算 3D Sora AI设计开发者机器学习 AI for Science GPU AI视频场景苹果华为人形机器人预测百度伟达 Transformer 深度学习 Claude 搜索 xAI 大语言模型字节跳动模态驾驶具身智能神器推荐文本训练 LLaMA Copilot 视觉算力安全应用视频生成干货合集智能体大型语言模型亚马逊科技 AGI API

文章列表

迈向视觉大一统：UnifiedReward，多模态生成与理解的通用奖励模型

14B 小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

大模型长文推理迎来“核弹级”提速！清华APBB框架狂飙10倍，Flash Attention直接被秒

字节Trae接入硅基流动SiliconCloud 支持DeepSeek多款模型API

Midjourney隐藏黑科技！4 种 Sref 代码实现100%风格复刻

DeepSeek-R1的方法迁移到多模态大模型-开源Vision-R1实现方法思路

不需要 AI 和数学知识背景，这篇文章带你学会大模型应用开发

用AI把PDF一键变成能玩的可视化网页，这不比PPT酷多了？

谷歌 DeepMind 推出新 AI 模型，机器人未经训练也能执行现实任务

H20芯片困局：在DeepSeek崛起下的挑战与反思

​西班牙将推新法案：未标注 AI 生成内容将面临巨额罚款

硅基流动：DeepSeek-R1 & V3 API升级，支持批量推理、R1价格直降75%

硅基流动宣布DeepSeek-R1&V3 API支持批量推理 价格暴降75%

奥尔特曼预告创意文学模型，称其首次被 AI 作品打动

​预计到2034年，交易市场中的生成式AI价值将达23.6亿美元

32B IOI奥赛击败DeepSeek-R1！Open R1开源复刻第三弹，下一步R1-Zero

OpenAI旨在通过扩展工具包开发智能体

使用 VLLM 部署 DeepSeek：基于 Ubuntu 22.04 + RTX 4090 + Docker 的完整指南

西班牙将推新法案：未标注 AI 生成内容将面临巨额罚款

硅基流动宣布DeepSeek-R1&V3 API支持批量推理价格暴降75%

预计到2034年，交易市场中的生成式AI价值将达23.6亿美元