AIGC宇宙 AIGC宇宙

ICCV 2025 Highlight | 大规模具身仿真平台UnrealZoo

你是否曾为搭建具身仿真环境耗费数周学习却效果寥寥? 是否因人工采集海量交互数据需要高昂成本而望而却步? 又是否因找不到足够丰富真实的开放场景让你的智能体难以施展拳脚?
图片

你是否曾为搭建具身仿真环境耗费数周学习却效果寥寥? 是否因人工采集海量交互数据需要高昂成本而望而却步? 又是否因找不到足够丰富真实的开放场景让你的智能体难以施展拳脚?

来自北京师范大学、北京航空航天大学、北京大学等机构的联合研究团队,为具身智能(Embodied AI)研究带来了具身仿真环境平台 UnrealZoo!这是一个基于虚幻引擎(Unreal Engine)构建的近真实三维虚拟世界集合,旨在 1:1 还原开放世界的复杂性与多变性。

目前,UnrealZoo 已收录 100 余个高质量、高逼真、大尺度 3D 场景,从温馨室内家居到繁华城市街道,从静谧校园医院到壮丽自然景观,甚至涵盖大型工业工厂等专业场景,全方位满足不同研究需求。UnrealZoo 还内置了机器狗、无人机、汽车、人体、动物等多样化具身形态,搭配灵活易用的交互接口,无需复杂配置即可快速上手。无论是算法验证、数据合成还是智能体训练,都能在 UnrealZoo 一站式完成!

该工作已被 ICCV 2025 接收并入选 Highlight Award(本届共有 280 篇入选,占录用论文总数的 10%)。

图片
  • 标题:UnrealZoo: Enriching Photo-realistic Virtual Worlds for Embodied AI

  • 论文链接:https://openaccess.thecvf.com/content/ICCV2025/html/Zhong_UnrealZoo_Enriching_Photo-realistic_Virtual_Worlds_for_Embodied_AI_ICCV_2025_paper.html

  • 项目主页:http://unrealzoo.site

  • 开源代码:https://github.com/UnrealZoo/unrealzoo-gym

  • 作者单位:北京师范大学,北京航空航天大学,北京大学,澳门城市大学,新加坡国立大学,北京通用人工智能研究院

UnrealZoo 做了什么?

UnrealZoo 是一个基于虚幻引擎 UE5 开发的高保真虚拟环境集合,环境内提供了 100 + 的场景地图以及 66 个可自定义操控的具身实体,包括人类角色、动物、车辆、无人机等。不同智能体可以与其他智能体或者环境进行交互。

为支持丰富的任务需求以提供更好的使用体检,UnrealZoo 基于开源工具 UnrealCV 提供了一套易用的 Python 接口和工具,并优化了渲染和通信效率,以支持数据收集、环境增强、分布式训练和多智能体交互等各种潜在应用。

此外,研究团队还通过实验深入探索了 UnrealZoo 在视觉导航与主动目标跟踪等关键任务的应用潜力,揭示了扩充训练场景丰富度对模型泛化性的提升的必要性,以及当前基于强化学习(RL)和大型视觉 - 语言模型(VLM)的视觉智能体在开放世界中所面临的巨大挑战。完整的 UE5 场景已经在 Modelscope 开放下载。

Modelscope 地址:https://www.modelscope.cn/datasets/UnrealZoo/UnrealZoo-UE5

为什么要搭建 UnrealZoo?

随着具身智能(Embodied AI)的快速发展,智能体逐渐从简单的任务执行者向能够在复杂环境中进行感知、推理、规划与行动的系统进化。虽然现有模拟器如 Habitat、AI-Thor 和 Carla 等,已在家庭场景或自动驾驶等领域取得了一定进展,但它们的应用场景往往局限于特定任务和环境。这也阻碍了具身智能体在多变的开放世界中的适应性和泛化能力的发展。这些能力对于具身智能体在真实世界中的广泛应用至关重要。

为了弥补这一短板,具身智能研究迫切需要支持多样化和高保真虚拟环境的模拟平台,帮助智能体在更加复杂和动态的环境中进行训练。3D 场景的多样性与智能体形态的多变性将使智能体能够在更多种类的任务中进行学习,从而提升其空间智能和任务执行能力。而随着多智能体交互的加入,智能体不仅能独立完成任务,还能模拟和人类类似的社会智能行为,如合作、竞争与沟通,极大地提升其在真实世界中的应用潜力。

更重要的是,开放世界中的训练环境能够帮助研究人员评估智能体在应对多种不确定性、动态变化和复杂任务时的表现,进而避免因直接在现实中部署时发生故障或造成硬件损失。

基于以上原因,UnrealZoo 为智能体提供了一个近真实、多样化、灵活易用的仿真平台,推动具身智能从虚拟世界走向现实世界,助力更加广泛且真实的应用场景。

图片图片

      表 1:UnrealZoo (基于 UE4/5) 与其他主流虚拟环境的对比

本文贡献

提出了 UnrealZoo,这是一个基于「虚幻引擎」(Unreal Engine) 和「虚幻计算机视觉」(UnrealCV)的逼真虚拟世界的综合集合。UnrealZoo 具有各种复杂的开放世界和可玩实体,旨在推动具身人工智能及相关领域的研究。

这个高质量的集合包括 100+ 个不同规模的逼真场景,如房屋、超市、火车站、工厂、城市、村庄、寺庙和自然景观。每个环境都由艺术家精心设计,以模拟逼真的照明、纹理和动态,与现实世界的体验高度相似。还包括各种可玩实体,包括人类、动物、机器人、无人机、摩托车和汽车。这种多样性使研究人员能够研究智能体在不同表现形式中的泛化能力,或构建具有众多异构智能体的复杂 3D 社会世界。

为了提高可用性,研究团队进一步优化了「虚幻计算机视觉增强版」(UnrealCV+),并提供了一套易于使用的 Python API 和工具,包括环境增强、演示收集和分布式训练 / 测试。这些工具允许对环境进行定制和扩展,以满足未来应用中的各种需求,确保 UnrealZoo 随着具身人工智能智能体的发展而保持适应性。

贡献可以总结如下:

  1. 构建了 UnrealZoo,它包含 100 个高质量的逼真场景和一组具有多样化特征的可玩实体,涵盖了开放世界中对具身人工智能智能体最具挑战性的场景。

  2. 优化了 UnrealCV API 的通信效率,并提供了带有工具包的易于使用的 Gym 接口,以满足各种需求。

  3. 进行实验以证明 UnrealZoo 的可用性,展示了环境多样性对具身智能体的重要性,并分析了当前基于强化学习和基于视觉语言模型的智能体在开放世界中的局限性。

UnrealZoo 技术方案

1. 多样化场景收集

UnrealZoo 包含 100 + 个基于虚幻引擎 4 和 5 的场景,从虚幻引擎市场精心挑选,涵盖多种风格,包括古代到虚构的各类场景。场景按类别、规模、空间结构、动力学和风格等标签分类,以满足不同测试和训练需求,最大场景达 16 平方公里。

图片

图 1 UnrealZoo 通过结合多样化的场景和可交互实体,丰富了高真实感虚拟世界。它支持训练具有泛化能力的具身智能体,用于导航、主动追踪以及社会交互等任务。

图片

图 2 UnrealZoo 内不同类型场景的统计分布,涵盖多种风格, 如住宅、超市、火车站、工业工厂、城市、乡村、寺庙以及自然景观等。

2. 可交互智能体

🤖多样化的智能体类型

图片图片

                无人机第一视角图片

                驾驶汽车第一视角图片

                驾驶摩托车第一视角

图片

                四足机器人

UnrealZoo 内包含人类、动物、汽车、摩托车、无人机、移动机器人和飞行相机等七种类型,共 66 个实体,各具不同的动作空间和视点,支持多种功能,如切换纹理外观、捕获不同类型图像数据,可通过函数控制其属性和运动。

🏃‍♂️ 智能体在开放世界的探索

图片

                爬楼梯图片

                攀爬高台图片

                下蹲穿越图片

                跑跳

智能体的基础移动能力。UnrealZoo 的运动系统基于 Smart Locomotion,赋予智能体在复杂三维空间中自由探索的能力。智能体不仅可以进行跑步、跳跃和攀爬等动作,还能够在多层次、动态变化的环境中自如移动。通过这些运动方式,智能体需要准确评估距离、高度和空间布局,做出合理的运动决策。这对智能体的空间感知提出了新的挑战,要求它们不仅能在平面上导航,还能理解和推理复杂的三维空间结构,从而提升其在开放世界中进行导航和互动的能力。

图片

                内置基于地图的自主导航系统

导航系统。基于 NavMesh 开发,支持智能体在环境中自主导航,能在不同场景中根据地形和规则实现智能路径规划和避障。

🧸丰富的交互系统

图片               物体拿放动作图片

                球体碰撞交互图片

                上下车动作图片

                车辆破坏模拟图片

                开关门动作图片

                坐下

智能体与环境的交互。UnrealZoo 的交互系统为智能体提供了与物体和环境的灵活互动能力。智能体可以通过抓取、推动、开关等方式与物体进行物理交互,如开关门、移动箱子、驾驶车辆等,物体的物理特性(如重量、材质)会影响交互效果。同时,智能体还能够感知和适应环境变化,利用传感器(如视觉、深度信息)在复杂地形中进行导航,并根据实时变化(如天气、时间变化)调整行动策略。这种物理与感知交互能力,使得智能体能够在不同的虚拟环境中完成各种任务,如操作、导航和任务执行。ICCV 2025 Highlight | 大规模具身仿真平台UnrealZoo

智能体之间的交互。UnrealZoo 还支持智能体之间的交互,使得多智能体环境中的合作与对抗成为可能。智能体可以共享信息,进行协作任务,或在竞技场中与其他智能体竞争。例如,在灾后救援任务中,多个智能体可以协调合作,完成物品搬运或场地清理任务;而在对抗场景中,智能体通过实时策略选择与其他智能体互动,增强了多样性与挑战性。这种多层次的交互功能为人工智能提供了更加动态和真实的模拟环境,推动了 AI 在实际应用中的发展。

3. 通用编程接口

为提升可用性,UnrealZoo 进一步优化了 UnrealCV,并提供了一套易于使用的 Python API 和工具(UnrealCV+),包括环境增强、示范采集以及分布式训练 / 测试。这些工具允许用户根据未来应用的需求自定义和扩展环境,确保 UnrealZoo 能够随具身 AI 智能体的演进保持适应性。

图片

图 3 UnrealZoo 的详细架构。灰色框表示 UE 二进制文件,包含场景和可交互实体。UnrealCV+ Server 作为插件嵌入到该二进制文件中。用户端通过 Gym 接口进行 api 调用,通过配置文件自定义任务,并包含一个工具包,其中包含用于环境增强、种群控制等功能的一组 Gym 封装器。

实验结果

1. UnrealCV+ 效果测试

图片

      UnrealCV 为研究使用虚幻引擎提供 Python 接口。

图片

表 2 Unreal Engine 4.27 中使用 UnrealCV 和 UnrealCV + 的帧率(FPS)对比。报告的结果为 6 个典型环境的平均性能表现。

UnrealCV+ 是对原版 UnrealCV 的改进版本,专为高效交互而优化(代码已同步至 https://github.com/unrealcv/unrealcv)。原版 UnrealCV 主要用于生成计算机视觉合成数据,帧率(FPS)未针对实时交互优化。UnrealCV + 优化了渲染管道和服务器与客户端之间的通信协议,显著提高了 FPS,尤其是在大规模场景中通过并行处理物体级分割图和深度图。对于多智能体交互,UnrealCV + 引入了批量命令协议,允许客户端一次发送多个命令,服务器处理并返回结果,从而减少通信时间。为了提高稳定性,unrealcv + 用进程间通信(IPC)套接字代替了 TCP 套接字,以应对高负载下的服务器 - 客户端通信。

研究团队还开发了基于 UnrealCV 命令系统的高级 Python API,简化了环境交互,使初学者也能轻松使用和定制环境。

2. 视觉导航 / Visual Navigation

实验设置

  • 复杂环境:在 UnrealZoo 的环境中中,3D 探索的独特优势为视觉语言导航任务带来了前所未有的挑战。在开放世界中,智能体不仅需要应对二维平面上的导航,更需要理解和适应三维空间结构。本文的导航任务引入了比传统室内场景或自动驾驶任务更高的复杂性。实验中,智能体被放置在开放世界环境中,需要通过一系列动作(如奔跑、攀爬、跳跃、蹲下)来克服无结构地形中的各种障碍,以到达目标物体。

  • 评估指标:使用两个关键指标来评估视觉导航智能体:

  • 平均回合长度(Average Episode Length, EL),表示每回合的平均步数。

  • 成功率(Success Rate, SR),测量智能体成功导航到目标物体的百分比基线方法。

  • 路径长度加权的成功率 (Success weighted by Path Length, SPL)

基线方法

  • 在线强化学习(Online RL):在 Roof 和 Factory 环境中分别训练 RL 智能体,使用分布式在线强化学习方法(如 A3C)。模型输入第一人称视角的分割掩码和智能体与目标之间的相对位置,并输出直接控制信号进行导航。

  • GPT-4o:使用 GPT-4o 模型来采取行动,利用其强大的多模态推理能力。模型输入第一人称视角的图像和智能体与固定目标之间的相对位置,根据预定义的控制空间推理适当的动作。

  • 人类玩家:人类玩家使用键盘控制智能体,类似于第一人称视频游戏。玩家从随机起点导航到固定目标,基于视觉观察做出决策。

实验结果

图片图片

图 4 具身导航智能体在 Roof 场景中的示例序列。基于强化学习(RL)的智能体学会了攀爬箱子和墙壁,并跳跃障碍物,以短路径到达目标位置。

  • RL 智能体在较简单环境中表现较好,但在复杂环境中表现不佳(需要进行攀爬、跳跃等立体空间感知)。

  • GPT-4o 在两种场景中都表现不佳,表明其在复杂 3D 场景推理中的局限性。

  • 人类玩家在两个任务中都表现出色,显示出当前智能体与人类之间的显著差距。

3. 主动视觉跟踪 / Active Visual Tracking 

实验设置

  • 环境选择:利用 unrealzoo 的环境多样性,选择四个环境类别(室内场景、宫殿、荒野、现代场景)进行评估,每个类别包含 4 个独立环境。实验旨在捕捉环境合集中的广泛特征,确保对智能体追踪能力的全面评估。

  • 评估指标:使用三个关键指标评估:

  • 平均回合回报(Average Episodic Return, ER),提供整体跟踪性能的洞察;

  • 平均回合长度(Average Episode Length, EL),反映长期跟踪效果;

  • 成功率(Success Rate, SR),测量完成 500 步的回合百分比。

基线方法

  • PID 方法:一种经典的控制方法,使用 PID 控制器通过最大化目标边界框与预期位置之间的 IoU 来调整智能体的动作。

  • OpenVLA:通过对 OpenVLA 进行了微调,使其适应追踪任务。

  • 离线强化学习(Offline RL):扩展自最近的离线 RL 方法,收集离线数据集并采用原始网络架构。通过收集不同数量环境的离线数据集来分析数据多样性的影响。

  • GPT-4o:使用 GPT-4o 模型直接生成基于观察图像的动作,以跟踪目标人物。设计了系统提示来帮助模型理解任务并标准化输出格式。

实验结果

面对不同环境挑战的效果评估

图片

图 5 Offline-RL 训练得到的智能体在四类环境中的平均成功率。智能体分别在三种离线数据集设置(1 个环境、2 个环境、8 个环境)下进行训练。结果表明,随着数据集中包含的环境多样性增加,智能体的泛化能力显著提升。然而,对于具有复杂空间结构的环境(如 Interior Scenes 和 Palace),成功率较低,突显了在障碍物规避和导航方面的挑战。

图片

图 6 用于测试追踪智能体的 16 个环境概览,左侧的文本对应每一行的环境类别,每个环境下方的文本对应环境名称。

  • 随着训练环境数量的增加,智能体在所有类别中的长期跟踪性能普遍提高。

  • 在野外环境中(Wilds),使用 8 Envs. 数据集的成功率显著提高,表明多样化的环境数据对提高智能体在更复杂的开放世界环境中的泛化能力至关重要。

面对动态干扰的效果评估

图片
  • 动态干扰:在人群中进行跟踪时,智能体需要处理动态干扰。实验中,生成具有不同数量人类角色的群体作为干扰。

随着干扰数量的增加,离线 RL 方法保持相对稳定的成功率,而其余基线模型在动态环境中表现不佳,显示出其在动态干扰下的局限性。

跨实体泛化

图片
  • 跨实体泛化:将针对人类角色训练的智能体转移到机器人狗上进行评估。结果显示成功率下降,表明研究社区应更多关注跨实体泛化。

控制频率的影响

图片
  • 控制频率:使用时间膨胀包装器模拟不同的控制频率。结果表明,当感知 - 控制循环的频率低于 10 FPS 时,性能显着下降。高控制频率使 RL 智能体在社会跟踪中表现更好,强调了在动态开放世界中完成任务时构建高效模型的重要性。

总结

  • 论文提出了 UnrealZoo,一个多样化的照片级虚拟世界合集,旨在推动具身 AI 研究的发展。

  • 通过提供高质量的虚拟环境和优化的编程接口,UnrealZoo 能够支持高效的单智能体和多智能体系统交互。

  • 实验结果表明,智能体在开放世界的空间感知和导航能力仍然具有很大发展空间,多样化的训练环境对智能体的泛化能力和鲁棒性至关重要,而基于 RL 的方法在处理动态环境和社交互动方面表现出色。

  • 未来的工作将继续丰富虚拟世界的场景、实体和交互任务,推动具身 AI 在现实世界中的应用。

论文部分重要参考文献

[1] Weichao Qiu, Fangwei Zhong, Yi Zhang, Siyuan Qiao, Zihao Xiao, Tae Soo Kim, Yizhou Wang and Alan Yuille. Unrealcv: Virtual Worlds for Computer Vision. ACM MM. 2017.

[2] Aviral Kumar, Aurick Zhou, George Tucker, and Sergey Levine. Conservative Q-Learning for Offline Reinforcement Learning. NeurIPS 2020.

[3] Fangwei Zhong, Kui Wu, Hai Ci, Churan Wang, and Hao Chen. Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL. ECCV 2024.

[4] Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan P Foster, Pannag R Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, and Chelsea Finn. OpenVLA: An Open-Source Vision-Language-Action Model. CoRL 2025.

[5] Shital Shah, Debadeepta Dey, Chris Lovett and Ashish Kapoor. AirSim: High-Fidelity Visual and Physical Simulation for Autonomous Vehicles. Field and service robotics: Results of the 11th international conference, 2017.

[6] Alexey Dosovitskiy, German Ros, Felipe Codevilla, Antonio Lopez and Vladlen Koltun. CARLA: An Open Urban Driving Simulator. CoRL 2017.

相关资讯

出圈的Sora带火DiT,连登GitHub热榜,已进化出新版本SiT

好的研究不会被埋没,只会历久弥新。虽然已经发布近一周时间,OpenAI 视频生成大模型 Sora 的影响仍在继续!其中,Sora 研发负责人之一 Bill Peebles 与纽约大学助理教授谢赛宁撰写的 DiT(扩散 Transformer)论文《Scalable Diffusion Models with Transformers》被认为是此次 Sora 背后的重要技术基础之一。该论文被 ICCV 2023 接收。论文地址: 地址:,DiT 论文和 GitHub 项目的热度水涨船高,重新收获大量关注。论文出现在
2/21/2024 2:54:00 PM
机器之心

AI应用新纪元:2025中国AI应用排行榜榜单揭晓丨2025年1月

AI在线 发布 2025年1月「AIGCRank 中国AI应用排行榜」
2/14/2025 3:45:02 PM

OpenAI 董事会主席布雷特・泰勒:希望自己的孩子不用屏幕就能感受科技的便利

“希望未来大家不再整天盯着屏幕,而是通过自然对话与 AI 互动,计算机和设备也将逐渐‘隐形’。”他还提到,作为家长,他希望自己的孩子未来不必通过屏幕才能获取科技带来的便利。
3/5/2025 4:56:19 PM
清源

智能音箱迎来AI时代 新技术渗透率超20%

在技术迅速发展的今天,智能音箱的 “智商” 也在不断提升。 近日,快科技报道称,凭借 AI 大模型的加持,智能音箱在智能化领域实现了质的飞跃。 根据洛图科技(RUNTO)的数据显示,2025年第一季度,中国智能音箱市场的销量达到了369.9万台,尽管同比下降了5.6%,但整体行业的技术升级势头依然强劲。
5/9/2025 10:01:41 AM
AI在线

量大管饱全线开花!一文看懂2025 Google I/O开发者大会

今年,Google 算是打了个翻身仗。 不断的掏出新东西,不断的让大家,感受到惊喜。 而万众期待的 Google I/O 开发者大会,终于在昨天凌晨 1 点正式开始了。
5/22/2025 2:13:11 AM
数字生命卡兹克

刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌

一觉醒来,OpenAI 的大模型又完成了一项壮举! 在全球顶级编程赛事之一 ——2025 年国际信息学奥林匹克(IOI)中,OpenAI 的推理模型取得了足以摘得金牌的高分,并在 AI 参赛者中排名第一! IOI 2025(即第 37 届国际信息学奥林匹克)在玻利维亚的苏克雷举行,7 月 27 日正式开幕,并已于 8 月 3 日落下了帷幕。
8/12/2025 10:51:00 AM
机器之心

刚刚,OpenAI在ICPC 2025编程赛上满分登顶,Gemini也达到金牌水平

IMO 之后,OpenAI 与 Gemini 双双加冕 ICPC 2025 金牌。 就在刚刚,OpenAI 和 Gemini 都声称达到了 ICPC 金牌水平。 其中,OpenAI 在 5 个小时内解决了所有 12 个问题,相当于人类排名第 1 位,超过了所有参赛大学团队。
9/18/2025 1:22:00 PM
机器之心

AI圈重磅发布!九大章节深度解读313页的State of AI 2025报告

每年10月,AI圈都在等一份报告。 State of AI Report,从2018年开始,每年10月发布一次,到今年已经是第8年了。 MIT的编辑说这是AI领域最广泛阅读和最受信任的报告。
10/15/2025 7:13:58 AM
花叔

大模型合辑 | 主权高墙还是开源洪流,技术路线生死竞速,WAIC 2025大模型论坛亮点前瞻

WAIC 2025  世界人工智能大会论坛:2025年7月26日-28日 上海世博中心展览:2025年7月26日-29日 上海世博展览馆2025年,全球大模型产业站在技术主权与开放创新的战略岔口。 当千亿参数成为基座门槛,行业共识正从“规模竞赛”转向“价值落地”,一场关于生态主导权的暗涌已然成型:国家主导的主权模型与社区驱动的开源体系孰轻孰重? 垂类场景的深度定制能否突破通用智能的垄断?
7/15/2025 3:13:00 PM
新闻助手

OpenAI拿IMO金牌是火了,但惹怒大批人:抢发炒作,抢学生风头

就在上个周末,Sam Altman 大张旗鼓地宣布,OpenAI 的一款未公开实验性大语言模型在 2025 年国际数学奥林匹克竞赛(IMO)中达到了金牌水平,得分 35/42,成功跻身全球顶尖数学竞赛选手行列。 有意思的是,据报道不止 OpenAI,谷歌 DeepMind 在这次比赛中,也拿到了 IMO 金牌。 但相比 OpenAI 的高调官宣,这次谷歌显得有点低调。
7/21/2025 1:27:00 PM
机器之心

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。
3/18/2025 10:02:00 AM
AI在线

专家圆桌:“国产类 ChatGPT ”所存在的差距与挑战

内容来源:ChatGPT 及大模型专题研讨会 转载自CSDN稿件在经历寒冬、雾霾,甚至大家纷纷看不到希望之际,ChatGPT 犹如一场春雨,给做 AI 甚至 NLP 等研究的人带来了新的希望。3 月 11 日,由中国人工智能学会主办,中国人工智能学会 NLP 专委会、真格基金、达观数据共同承办,中国信通院云大所支持的「ChatGPT 及大模型专题研讨会」正式举行。在圆桌对话环节,来自学术界、产业界及投资界的知名专家学者,就 ChatGPT 引发的新 AI 浪潮、大模型“基础模型”论、“国产类 ChatGPT ”所存
4/21/2023 9:41:00 AM
达观数据

ChatGPT在iOS美区下载火爆,6天内下载量超过 50 万次

Open AI ChatGPT正在美版iOS市场大杀四方。5月26日,根据App分析厂商Data.AI的消息,ChatGPT在推出后的六天内已经突破了50万次下载,成为美区最近两年内增长速度最快的新应用之一。与此同时,ChatGPT正在美区APP Store掀起一股AI聊天热潮,相关领域的一些消费欺诈也随着ChatGPT的火爆而出现。据TechCrunch报道,随着消费者热情不断高涨,许多其他自称为“ChatGPT”或“AI聊天机器人”的第三方应用也纷纷涌入App Store。其中许多其实本质上都是欺诈应用,试图欺
5/26/2023 7:23:00 PM
yangdz

Llama 2 的入门与实战,机器之心邀请了 4 位技术大牛手把手教你

机器之能报道编辑:Sia「Llama 2 大模型算法与应用实践」-机器之心 AI 技术论坛将于 8 月 26 日在北京举办。如果要问「2023 年最火的动物是什么?」AI 圈外的人可能会回答「熊猫」,并给你列出一长串熊猫的名字。而 AI  圈内的人八成会回答「羊驼」。而且,他们也能给你列出一长串「羊驼」的名字:llama、vicuna、alpaca…… 得益于 Meta Llama 模型的开源,AI 社区的研究者对生物学羊驼属的英文单词已经如数家珍,每个单词都对应着一个(或一组)基于 Llama 的微调模型。这些模
7/30/2023 11:42:00 PM
机器之能

OpenAI 推出 Mac 版 ChatGPT 应用,今年晚些时候推出 Windows 版

OpenAI  终于推出了 ChatGPT 桌面版应用程序,该公司在官方公告中表示:“从今天开始,我们将首先向 Plus 用户推出 macOS 应用,并在未来几周内向更广泛的用户开放。我们还计划在今年晚些时候推出 Windows 版本。”OpenAI 还称,ChatGPT 还将拥有经过优化的用户界面。OpenAI 的演示显示,用户可以将处于最小化窗口的 ChatGPT 桌面应用与其他程序并排打开。用户可以通过输入或语音的方式向 ChatGPT 提问屏幕上显示的内容,ChatGPT 则能根据其“所见” 进行回答。Op
5/14/2024 1:48:54 AM
远洋

能在后台对话!iOS 版 ChatGPT App 1.2024.150 更新带来多任务交互体验

距离苹果与 OpenAI 达成官方合作、将类似 ChatGPT 的智能功能引入 iOS 18 仅剩几天时间。图源 Pexels在这一重磅消息揭晓前夕,ChatGPT 官方 iOS 应用迎来重大更新(1.2024.150),用户现在可以在使用其他应用的同时继续与 ChatGPT 进行对话。这将为 iPhone 用户带来媲美桌面端的强大交互体验。IT之家注意到,ChatGPT 的这项全新多任务功能默认处于关闭状态,需要手动开启。以下为详细步骤:更新 ChatGPT 应用至最新版本。点击侧边栏底部的用户名,打开应用设置。
6/6/2024 7:47:56 AM
远洋

OpenAI 的 ChatGPT Mac 版应用已向所有用户开放,支持语音对话

OpenAI 公司宣布,其首款适用于 Mac 的 ChatGPT 聊天机器人应用正式面向所有用户开放下载。此前一个月,该应用一直处于测试阶段,仅 Plus 付费订阅用户可以使用。OpenAI 称,ChatGPT 的 Mac 应用旨在与用户日常操作无缝集成,其原生支持 Mac 系统,并提供方便的快捷键 (Option  空格键) 允许用户随时随地启动应用。用户可以轻松与聊天机器人进行交互,并可选择将文件、照片和屏幕截图等附加到您的信息中,供 ChatGPT 使用这些素材进行理解和创作。IT之家注意到,该应用还支持“
6/26/2024 6:47:14 AM
远洋

从AIGC到AGI,为什么我们需要更多的“技术信仰派”?

整理 | 伊风采访 | 张晓楠嘉宾 | 巴川、朱雷、肖然作为AIGC应用落地元年,2024开年就抛给我们一些不太好回答的问题:在以探索AGI为长期目标时,我们该坚守技术信仰吗?除了复制国外GPT-4、Sora这样的成功案例,我们该如何寻求更大发展和突破?即便算力问题得以解决,算法的难题如何跨越?国内企业为什么大都部署多个大模型?为什么并非所有企业都该拥抱AIGC?前不久51CTO全新直播栏目《AIGC实战派》有幸邀请到竞技世界首席数据科学家巴川,元语智能联合创始人兼COO、SuperCLUE社区发起人朱雷以及Tho
4/15/2024 6:38:00 PM
新闻助手
  • 1