Gemini
AI 聊天机器人大战升温:谷歌 Gemini 预告片展示惊艳语音视频交互能力
人工智能聊天机器人领域烽烟再起,谷歌和 OpenAI 之间激烈的竞争态势愈演愈烈。就在谷歌一年一度的 I / O 开发者大会召开前夕,这家科技巨头发布了一段视频,展示了疑似经过升级的 Gemini 聊天机器人。视频中,Gemini 可以同时实时处理来自视频和语音的输入。这段视频貌似是在 I / O 大会搭建现场拍摄的,视频展示了 Gemini 在一台 Pixel 手机上流畅地处理实时视频和语音提问,并准确地提供信息。当被问到正在进行的布置工作时,Gemini 正确识别出这是为一个重要活动做的准备。 整个对话过程自然
5/14/2024 6:06:23 PM
远洋
iPhone AI 大升级:消息称苹果即将与 OpenAI 达成协议,iOS 18 用上 ChatGPT
感谢彭博社记者马克・古尔曼(Mark Gurman)今日发文表示,苹果即将与 OpenAI 达成协议,为今年的新 iOS 系统提供一些生成式 AI 功能(如聊天机器人)。此外,苹果与谷歌就整合 Gemini 的谈判正在进行中,但尚未达成任何协议。知情人士称,双方一直在敲定苹果下一代 iPhone 操作系统 iOS 18 中使用 ChatGPT 功能的协议条款。由于情况保密,该人士要求匿名。苹果还与谷歌就授权后者的 Gemini 聊天机器人进行了谈判。这些讨论尚未达成协议,但仍在进行中。OpenAI 宣布将于太平洋时
5/11/2024 12:29:20 PM
汪淼
91.1% 准确率,性能远超 GPT-4 系列模型,谷歌推出多模态医学大模型 Med-Gemini
编辑 | 萝卜皮各种复杂的医疗应用给人工智能带来了巨大挑战:需要先进的推理、获取最新的医学知识以及对复杂的多模态数据的理解。Gemini 模型在多模态和长上下文推理方面具有强大的通用能力,为 AI 在医学领域应用提供了可能性。基于 Gemini 的核心优势,谷歌的研究人员推出了 Med-Gemini,这是一个功能强大的多模态模型系列,专门用于医学,能够无缝使用网络搜索,并且可以使用自定义编码器有效地针对新颖的模态进行定制。研究人员用 14 项医疗基准评估 Med-Gemini,在其中 10 项上建立了新的最先进(S
5/7/2024 6:43:00 PM
ScienceAI
Chrome 浏览器桌面版地址栏整合自家聊天机器人:@Gemini 即可召唤
谷歌 Chrome 浏览器今日早些时候在 X(推特)宣布,其桌面版地址栏现已整合 Gemini 聊天机器人,用户可以通过简单、便捷的方式将 Gemini 召唤出来:在地址栏中输入“@”,然后选择“与 Gemini 聊天”,输入自定的提示词即可获取 Gemini 的回复。不久之前,该功能仍在 Canary 版本中进行测试。经IT之家此次实测,当 Chrome 更新至 124.0.6367.119(正式版本)之后,即可体验。Gemini 是谷歌 Deepmind 最新、最强大的 AI 模型。它原生支持多模态,具备跨模态
5/1/2024 10:39:05 PM
清源
移动版谷歌 Gemini 将迎诸多新特性:分析 PDF 文件内容等
感谢消息源 AssembleDebug 近日挖掘安卓版 Gemini 应用程序,发现隐藏了诸多新功能 / 新特性,包括上传 PDF 等文件,引入 Live Prompts、Select text 功能等。上传并分析 PDF 格式文件安卓版 Gemini 现阶段仅支持上传图片,而在最新版中相关代码已经出现了上传 PDF 等文件描述,可以分析文档中的内容,只是该功能目前尚未生效。Select text安卓版 Gemini 此前提供的回答只能全文复制,用户需要复制粘贴到其它地方再进行优化。而在最新选项中新增了“Selec
4/24/2024 2:20:15 PM
故渊
Chrome 浏览器桌面版地址栏即将整合聊天机器人 Gemini
感谢桌面 Chrome 浏览器地址栏即将添加 Gemini 快捷方式,用户在 Gemini 网页上登录账户后,用户只需输入 @gemini 即可快速与谷歌的人工智能聊天机器人 Gemini 开始聊天。该功能目前正在 Chrome 浏览器 Canary 测试版中进行测试,地址栏下拉菜单底部会出现提醒,“输入 @gemini 与 Gemini 聊天”。目前该功能仅适用于 Chrome 浏览器 Canary 125 版本,需要启用两个标志(Flags)才能开启,IT之家汇总如下:chrome://flags/#omnib
4/17/2024 2:04:23 PM
沛霖(实习)
融合 ChatGPT+DALL・E 3,贾佳亚团队新作开源畅玩:识图推理生图一站解决
在开源社区中把 GPT-4 Dall・E 3 能⼒整合起来的模型该有多强?香港中文大学终身教授贾佳亚团队提出多模态模型 Mini-Gemini:更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力,还能结合图像推理和生成,堪称王炸。Mini-Gemini 还提供了 2B 小杯到 34B 的超大杯,最强模型在多个指标上相比谷歌的 Gemini Pro 甚至 GPT-4V 都不遑多让。目前,Mini-Gemini 从代码、模型到数据已全部开源,登上了 PaperWithCode 热榜。Mini-Gemini
4/15/2024 4:07:17 PM
清源
谷歌 Gemini 流量已是 ChatGPT 的四分之一
Github 前首席执行官 Nat Friedman 在 X(推特)上发帖,称谷歌 Gemini 流量已经到达 ChatGPT 的 25% 左右,这一成绩是在谷歌并没有通过庞大分销渠道(Android、Google 搜索、GSuite 等)大力推广的情况下完成的。此外他还提到,在 X 上比较火爆的 Claude 使用率仍然很低,微软的 Copilot 使用率也并不高,而最知名的 ChatGPT 流量则与去年相对持平,没有明显的增长。他认为 Claude、ChatGPT 和 Gemini 的付费与未付费比率差异很大。
4/12/2024 1:37:01 PM
沛霖(实习)
谷歌推出 Gemini 1.5 Pro 公共预览版,现已支持处理音频
谷歌之前在 Google Next 大会上宣布将首次通过其 AI 应用平台 Vertex AI 向公众开放 Gemini 1.5 Pro。谷歌现已推出 Gemini 1.5 Pro 公共预览版,并借此为其赋予了“耳朵”,从而帮助用户处理音频内容,例如可以直接上传一份音频文件让它来分析,或者上传一份财报电话会议录音或视频来让它总结。据称,这个 Gemini 系列中定位“中量级”模型的版本在性能上已经超越了自家更大的模型 ——Gemini Ultra。谷歌称,Gemini 1.5 Pro 可以理解复杂的指令,并且无需对
4/9/2024 8:35:21 PM
问舟
消息称谷歌考虑对基于 AI 的搜索引擎收费,将部分功能添至高级订阅服务
感谢据英国《金融时报》援引三位熟悉谷歌的知情人士消息称,谷歌考虑对基于人工智能的搜索收费,这对其商业模式来说是一次重大变化。因为自 2000 年以来,谷歌的搜索产品一直都是依靠广告盈利的。据报道,谷歌正在考虑保持标准搜索(不含 AI 功能)免费,谷歌正在考虑各种选择,包括将某些基于 AI 的搜索功能添加到其高级订阅服务中。但是,付费用户仍将在 Gemini 驱动的搜索结果中看到广告。尽管搜索广告去年为谷歌带来了 1750 亿美元的收入,但仍可能不足以弥补 AI 搜索增加的成本。根据路透社去年的报告,通过 Gemin
4/4/2024 8:45:32 AM
清源
消息称谷歌借助 AI 探索商业模式变革,将为苹果 iPhone 用户提供付费 Gemini AI 技能
感谢谷歌正在积极探索生成式 AI-- Gemini 的变现方式,而提供付费高级功能显然是不错的选择。IT之家援引 Financial Times 报道,谷歌将为苹果 iOS 18 用户提供各种付费 AI 功能。消息称苹果目前正和谷歌等多家 AI 公司合作,会在 iOS 18 系统中开辟 AI Store 应用商店,用户可以通过支付相关费用,解锁更多 AI 技能。谷歌也在探索广告之外的其它营收方式,通过在苹果 iPhone 中扩展 Gemini 服务,积极扩充生成式 AI 的诸多付费技能,只是现阶段谷歌的这种变现渠道
4/4/2024 8:12:01 AM
故渊
谷歌:手机运行人工智能模型将占用大量内存
谷歌在 3 月初发布了一个奇怪的声明,称旗下两款新手机 Pixel 8 和 Pixel 8 Pro 中,只有 Pixel 8 Pro 能够运行其最新的人工智能模型“Google Gemini”。尽管两款手机的配置非常相似,但谷歌却以神秘的“硬件限制”为由拒绝在 Pixel 8 上运行该模型。这番言论让人费解,因为谷歌一直宣称 Pixel 8 是以人工智能为核心的手机,并且还专门针对智能手机设计了“Gemini Nano”模型,然而这两者居然无法兼容运行。几周后,谷歌似乎开始松口,宣布即将在 6 月的季度更新中为 P
3/31/2024 12:08:38 PM
远洋
网友反馈微软 Copilot 引用谷歌 Gemini 内容,点击链接无法跳转指定内容页面
Reddit 网友近日发布帖子,表示微软旗下的 Copilot 在其参考信息中,引用了来自谷歌 Gemini 的数据。用户反馈这就导致了混乱,点击 Copilot 中的链接,并不会跳转到 Copilot 引用的指定信息内容,而是会跳转到 Gemini 的主页。IT之家附上截图如下:用户对此的反应不一,有些人的观点认为:Copilot 应该只能引用来自 Bing 搜索的内容,不应该和 Gemini 等其它聊天机器人有所交互;而另外一些人认为 Copilot 可以和其它聊天机器人交互,为用户提供更丰富、全面的信息。
3/23/2024 7:48:54 AM
故渊
Gemini 修 bug 神了!录网页视频把代码库甩给它就行,网友想要访问权限
谷歌 Gemini 修改 bug 让网友大开眼界!X 一小伙分享,为测试 Gemini 1.5 Pro,自己在编写一个网页的代码时故意留了 3 个 bug,并分别录制了网页 bug 视频。接着把代码库打包成文件连同视频一起输给了 Gemini 1.5 Pro,提示它找到并修复代码中的所有 bug,且要提供一个简要指南以及所做更改的说明。没想到,Gemini 1.5 Pro 还真就分分钟正确识别并修复了每一个 bug。小伙将这种玩法 po 出来后热度不断攀升,网友们纷纷一键三连,转赞收藏量过万。其本人还在评论区强调,
3/10/2024 2:30:22 PM
清源
谷歌确认 Gemini Nano 本地大模型不会上线 Pixel 8 手机
谷歌官方表示,由于硬件限制,AI 语言大模型 Gemini Nano 不会上线谷歌 Pixel 8 手机,但未来会出现在其他高端设备上。IT之家获悉,Gemini 的前身是谷歌在 2023 年 2 月发布的聊天机器人 Bard,后者在 2024 年 2 月 8 日更名为 Gemini。谷歌计划将 Gemini 整合进旗下所有产品,并加入 Google One 订阅中。Gemini Nano 作为谷歌为移动设备推出的 Gemini 大模型版本,能够处理不需要连接外部服务器的本地任务,仅支持谷歌 Pixel 8 Pro
3/8/2024 5:56:25 PM
归泷(实习)
谷歌优化 Gemini:可重新生成、缩短、扩充指定聊天内容
谷歌近日升级了 Gemini 聊天机器人,用户和其聊天过程中,可以指定部分聊天内容,进行修改、缩短、扩充等操作。谷歌近日更新了 Gemini,让用户只需点击几下,就能修改回复的特定部分。过去,用户必须重新生成整个回复,但现在不再需要这样做了。只需选择要修改的回复部分,然后单击铅笔图标即可进行编辑。IT之家附上截图如下:用户点击该图标之后,可以要求 Gemini 基于指定内容执行重新生成、缩短、扩充、移除操作。用户还可以对所选文本应用提示并进行相应更改。当然,恢复更改也同样简单,只需单击一下即可。
3/8/2024 9:02:24 AM
故渊
谷歌被曝翻车内幕:内部群龙无首,生图机制过分“多元化”
感谢IT之家网友 rolan6 的线索投递!谷歌 Gemini 文生图风波还未平,更劲爆的内幕消息又被曝出来了。Pirate Wires 爆料,Gemini 这次的翻车,谷歌内部此前并不是毫不知情,翻车甚至是“故意”导致的。具体来说,谷歌设置了一个“安全”架构,Gemini 要生成一张图实际上要经过三个模型。大概来说,流程是这样的:用户在聊天界面请求 Gemini 生成一张图片,Gemini 收到请求后,会把请求发送给一个较小的模型。这个较小的模型的作用是根据公司的“多元化”政策重写用户的提示。为做到这一点,这个较
3/7/2024 3:07:36 PM
清源
谷歌Gemini生图功能紧急关闭,口碑一夜塌房,Yann LeCun:我早就知道
Gemini 好像终于被玩坏了。去年年底,谷歌 Gemini 震撼了业界,它是谷歌「最大、最有能力和最通用」的 AI 系统,号称第一个原生多模态大模型,能力超越 GPT-4,也被认为是谷歌反击微软和 OpenAI 的强大工具。对此,在 2 月 8 日,谷歌还把自家对标 ChatGPT 的服务 Bard 更名为 Gemini,以着重体现新使命 —— 旨在提供对「最强模型系列」的访问。上周谷歌还火速更新了 Gemini Pro 1.5 版。结果,推出不到一个月,这个 Gemini 就翻车了。多离谱呢,作为一个多模态的生
2/25/2024 7:49:00 PM
机器之心
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
开源
用户
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
预测
人形机器人
百度
苹果
伟达
Transformer
深度学习
xAI
模态
字节跳动
Claude
大语言模型
搜索
具身智能
驾驶
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
干货合集
训练
应用
大型语言模型
科技
亚马逊
DeepMind
特斯拉
智能体