AIGC宇宙 AIGC宇宙

DeepSeek 等秒变操控电脑 AI 智能体,微软开源工具 OmniParser V2.0 发布

作者:汪淼
2025-02-17 09:16
微软 OmniParser 是一款基于纯视觉的 GUI 智能体解析和识别屏幕上可交互图标的 AI 工具,此前搭配 GPT-4V 可显著增强识别能力。
感谢微软 OmniParser 是一款基于纯视觉的 GUI 智能体解析和识别屏幕上可交互图标的 AI 工具,此前搭配 GPT-4V 可显著增强识别能力。

2 月 12 日,微软在官网发布了 OmniParser 最新版本 V2.0,可将 OpenAI(4o / o1 / o3-mini)、DeepSeek(R1)、Qwen(2.5VL)和 Anthropic(Sonnet)等模型,变成可以操控计算机的 AI 智能体。

DeepSeek 等秒变操控电脑 AI 智能体,微软开源工具 OmniParser V2.0 发布

与 V1 版本相比,OmniParser V2 使用了更大规模的交互元素检测数据和图标功能标题数据进行了训练,在检测较小的可交互 UI 元素时准确率更高、推理速度更快,延迟降低了 60%。

在高分辨率 Agent 基准测试 ScreenSpot Pro 中,V2+GPT-4o 的准确率达到了 39.6%,而 GPT-4o 原始准确率只有 0.8%。

DeepSeek 等秒变操控电脑 AI 智能体,微软开源工具 OmniParser V2.0 发布

为了能够更快地实验不同的智能体设置,微软还开源了 OmniTool,这是一个集成了智能体所需一系列基本工具的 Docker 化 Windows 系统,涵盖屏幕理解、定位、动作规划和执行等功能,也是将大模型变成智能体的关键工具。

AI在线附开源地址:

https://github.com/microsoft/OmniParser

相关标签:

相关资讯

OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评

成本打下来了,需求更多才对? 春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。 英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepSeek 刚刚又开源新模型》)。
1/29/2025 6:43:00 PM
机器之心

自有歪果仁为DeepSeek「辩经」:揭穿围绕DeepSeek的谣言

围绕 DeepSeek 的谣言实在太多了。 面对 DeepSeek R1 这个似乎「一夜之间」出现的先进大模型,全世界已经陷入了没日没夜的大讨论。 从它的模型能力是否真的先进,到是不是真的只用了 550W 进行训练,再到神秘的研究团队,每个角度都是话题。
2/5/2025 2:37:00 PM
机器之心

爆肝48小时!学会这8招,让DeepSeek变得超好用!

更多相关介绍:. 重磅好文! 8个章节带你全方位了解DeepSeek这两天,DeepSeek-R1 火的飞起,在中日美三个 Appstore 榜上登顶。
2/8/2025 12:04:55 AM
解决师Blue
  • 1