摄像头

谷歌Gemini Live正式登陆iPhone：让AI“看懂”你的屏幕与摄像头！

近日，在2025年 I/O 开发者大会上，谷歌宣布其最新功能 Gemini Live 正式向 iOS 和安卓用户开放。这项革命性的功能可以实时识别并回应用户手机摄像头和屏幕上的内容，进一步提升了人机交互的体验。最初，Gemini Live 只面向 Gemini Advanced 高级用户，但谷歌在今年4月宣布计划扩大其覆盖范围，现在，这一功能已经成功引入到 iOS 平台，成为所有用户的新玩具。

5/21/2025 9:01:06 AM

AI在线

人机交互大迈步，OpenAI GPT-4o 演示视频引热议：AI 之间也能聊天

OpenAI 昨日凌晨发布 GPT-4o 模型，可以视为 GPT-4 的升级版本，可以实时推理处理音频、视觉和文本内容，而且能更加无缝地和 ChatGPT 交互。OpenAI 总裁兼联合创始人格雷格・布罗克曼（Greg Brockman）随后发布了上手演示，让两台运行 GPT-4o 的设备进行语音或视频交互。布罗克曼在演示开始之前，表达了自己的期望：让两台 AI 聊天机器人互相交流。布罗克曼向其中 A 聊天机器人讲述了他的期望，并让 B 聊天机器人可以调用摄像头观察周围世界。B 聊天机器人会调用前置摄像头，并清晰地

5/15/2024 6:04:08 AM

故渊

资讯热榜

苹果发布全新Xcode 26开发者工具：内置ChatGPT先进AI功能 DeepSeek前高管秘密创业，新AI Agent项目已获顶级VC押注那个男人回来了！Ilya现身多伦多大学毕业典礼：AI 像是用数字方式复制出来的大脑！不管你愿不愿意，AI都将深刻影响你的一生！支持MCP！开源智能体开发框架 Rowboat：打造你的智能助手只需几分钟 ChatGPT 语音功能升级，实时翻译对话更自然流畅肝了30小时，Flux Kontext是我用过最稳、最能干活的AI图像模型！谷歌 Gemini 应用月下载量超越 ChatGPT，用户活跃度仍显不足长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画数据谷歌机器人大模型 Midjourney 用户智能开源微软 GPT 学习 Meta 图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法代码英伟达 Anthropic 芯片生成式开发者蛋白质腾讯神经网络研究 3D 生成训练苹果计算智能体 Sora 机器学习 AI设计 AI for Science Claude GPU AI视频人形机器人华为搜索场景百度大语言模型 xAI 预测伟达深度学习 Transformer 字节跳动 Agent 模态具身智能神器推荐 LLaMA 文本视觉 Copilot 算力工具 LLM 驾驶 API 大型语言模型应用 RAG 亚马逊