大模型

谷歌 AI 视频搜索功能演示又翻车，Gemini 给出错误维修建议

在今天的谷歌 I / O 大会上，谷歌大肆宣传其名为 Gemini 的人工智能将接管搜索引擎领域。然而，在其炫酷的演示环节中，Gemini 却再次暴露了所有大型语言模型至今为止都存在的致命缺陷：自信满满地给出错误答案。在 “Gemini 时代下的搜索” 演示片段中，谷歌展示了其视频搜索功能，用户可以通过拍摄短视频并用语音提问进行搜索。演示的例子是一个卡住的胶片相机过片杆，用户询问“为什么扳杆无法移动到底”，Gemini 则识别出问题并提供了维修建议。然而问题在于，Gemini 给出的答案整体而言令人啼笑皆非。谷歌

5/15/2024 4:28:24 PM

远洋

多功能RNA分析，百度团队基于Transformer的RNA语言模型登Nature子刊

编辑 | 萝卜芯预训练语言模型在分析核苷酸序列方面显示出了良好的前景，但使用单个预训练权重集在不同任务中表现出色的多功能模型仍然存在挑战。百度大数据实验室（Big Data Lab，BDL）和上海交通大学团队开发了 RNAErnie，一种基于 Transformer 架构，以 RNA 为中心的预训练模型。研究人员用七个数据集和五个任务评估了模型，证明了 RNAErnie 在监督和无监督学习方面的优越性。RNAErnie 超越了基线，分类准确率提高了 1.8%，交互预测准确率提高了 2.2%，结构预测 F1 得分提高

5/15/2024 3:59:00 PM

ScienceAI

字节跳动发布豆包大模型，主力模型比行业价格低99.3%

5月15日，字节跳动豆包大模型在火山引擎原动力大会上正式发布。火山引擎总裁谭待介绍，经过一年时间的迭代和市场验证，豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一，目前日均处理1200亿Tokens文本，生成3000万张图片。 “大的使用量，才能打磨出好模型，也能大幅降低模型推理的单位成本。

5/15/2024 11:15:00 AM

代聪飞

谷歌 Calendar、Tasks 和 Keep 等服务将集成 Gemini

谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布在 Google Calendar、Tasks 和 Keep 应用中整合 Gemini 模型，为用户带来更丰富的 AI 功能。谷歌在开发者大会上表示，Gemini 聊天机器人支持网页或者移动 App 中上传图片操作，IT之家附上谷歌官方例子如下，拍一张学校活动列表的照片，然后让 Gemini 把它们添加到你的个人 Google Calendar 中。谷歌提供的另一个例子是让 Gemini 将食谱中的项目添加到谷歌 Keep 购物清单中。Gemini 负责

5/15/2024 4:06:11 AM

故渊

谷歌 Workspace 办公套件整合 Gemini：可总结邮件内容、梳理会议要点等

谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布 Google Workspace 将进一步整合 Gemini，在侧面板中将推出基于 Gemini 1.5 Pro 的诸多技能。谷歌表示 Workspace 整合 Gemini 的作用，是为用户节省从多个应用程序中挖掘文件、电子邮件和其他数据的时间和精力。谷歌 Workspace 副总裁阿帕纳・帕普（Aparna Pappu）在会上说：“Gemini 时代的 Workspace 将开启完成工作的新方式”。IT之家注：谷歌 Workspace 的 Gmai

5/15/2024 3:45:19 AM

故渊

谷歌 Gemini 解锁旅行规划技能，几秒内帮你妥当安排行程

谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布为 Gemini 引入旅行规划功能，结合个人信息和公共出行信息，帮用户规划预订航班、酒店等等。谷歌表示 Gemini 可以基于用户的提示，挖掘航班时间和酒店预订等具体细节，在几秒钟内制定出合适的度假行程。谷歌副总裁兼 Gemini 总经理 Sissie Hsiao 表示，用户手动规划一次旅行可能需要数小时、数天甚至数周的时间，而 Gemini 几乎可以瞬间完成。Hsiao 表示 Gemini 的规划是动态的，用户可以根据后期提示和其它要求进一步调整规划。

5/15/2024 3:28:56 AM

故渊

你的助手你决定，谷歌推出 Gems 功能：由用户定制 Gemini 角色

谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布为 Gemini 推出名为“Gems”的个性化选项，可以让用户定制 Gemini 助手角色。Gems 功能可以让用户迭代的聊天机器人，在保留指定特征的情况下帮助你完成某些任务。Gems 感觉类似于 OpenAI 的 GPT Store，可以让你制作定制的 ChatGPT 聊天机器人。该功能也有点像在 Character.AI 中创建自己的机器人，Character.AI 可以让你与虚拟的流行人物和名人甚至假冒的心理医生交谈。谷歌表示，用户通过 Gems

5/15/2024 3:12:28 AM

故渊

谷歌 Gemini 家族添 Flash 新成员：平衡规模和能力、支持多模态，单次可分析 3 万行代码

谷歌公司今天扩充 Gemini 家族成员，推出了全新的 Gemini 1.5 Flash 模型，重点优化了该模型的速度和效率。谷歌 DeepMind 首席执行官德米斯・哈萨比斯（Demis Hassabis）在一篇博客文章中写道：Gemini 1.5 Flash 擅长摘要、聊天应用、图像和视频字幕、从长文档和表格中提取数据等。哈萨比斯补充说，谷歌之所以创建 Gemini 1.5 Flash，是因为开发人员需要一个比谷歌今年 2 月发布的 Gemini 1.5 Pro 更轻便、更便宜的模型。IT之家注：Gemini

5/15/2024 1:47:17 AM

故渊

AI 聊天机器人大战升温：谷歌 Gemini 预告片展示惊艳语音视频交互能力

人工智能聊天机器人领域烽烟再起，谷歌和 OpenAI 之间激烈的竞争态势愈演愈烈。就在谷歌一年一度的 I / O 开发者大会召开前夕，这家科技巨头发布了一段视频，展示了疑似经过升级的 Gemini 聊天机器人。视频中，Gemini 可以同时实时处理来自视频和语音的输入。这段视频貌似是在 I / O 大会搭建现场拍摄的，视频展示了 Gemini 在一台 Pixel 手机上流畅地处理实时视频和语音提问，并准确地提供信息。当被问到正在进行的布置工作时，Gemini 正确识别出这是为一个重要活动做的准备。整个对话过程自然

5/14/2024 6:06:23 PM

远洋

美国教授用 2 岁女儿训 AI 模型登 Science，人类幼崽头戴相机训练全新 AI

【新智元导读】为训练 AI 模型，纽约州立大学的一名教授 Brenden Lake，竟让自己不到 2 岁女儿头戴相机收集数据！要知道，Meta 训 Llama 3 直接用了 15 万亿个 token，如果 Lake 真能让 AI 模型学习人类幼崽，从有限的输入中学习，那 LLM 的全球数据荒岂不是解决了？为了训练 AI 模型，一位纽约州立大学的教授，竟然把类似 GoPro 的相机绑在了自己女儿头上！虽然听起来不可思议，但这位教授的行为，其实是有据可循的。要训练出 LLM 背后的复杂神经网络，需要海量数据。目前我们训

5/13/2024 2:51:41 PM

清源

在 ICLR 2024，看见中国大模型的力量

作者 | 赖文昕编辑 | 陈彩娴近日（5.7-5.11），第十二届国际学习表征会议（ICLR）在奥地利维也纳的展览会议中心召开。 ICLR 2024 的论文终审工作自 1 月份启动以来，共收到了7262篇提交论文，相较于上一年度的 4966 篇，增幅达到了 46.1%，接近翻了一番。在严格的评审过程中，大会最终接受了 2260 篇论文，整体接收率维持在 31%，与去年的31.8%基本持平，其中 Spotlights 和 Oral 两种类型的论文展示分别有 367 篇（占5%）和 86 篇（占1.2%）论文获选。

5/13/2024 12:05:00 PM

赖文昕

iPhone AI 大升级：消息称苹果即将与 OpenAI 达成协议，iOS 18 用上 ChatGPT

感谢彭博社记者马克・古尔曼（Mark Gurman）今日发文表示，苹果即将与 OpenAI 达成协议，为今年的新 iOS 系统提供一些生成式 AI 功能（如聊天机器人）。此外，苹果与谷歌就整合 Gemini 的谈判正在进行中，但尚未达成任何协议。知情人士称，双方一直在敲定苹果下一代 iPhone 操作系统 iOS 18 中使用 ChatGPT 功能的协议条款。由于情况保密，该人士要求匿名。苹果还与谷歌就授权后者的 Gemini 聊天机器人进行了谈判。这些讨论尚未达成协议，但仍在进行中。OpenAI 宣布将于太平洋时

5/11/2024 12:29:20 PM

汪淼

【论文解读】System 2 Attention提高大语言模型客观性和事实性

一、简要介绍本文简要介绍了论文“System 2 Attention (is something you might need too) ”的相关工作。基于transformer的大语言模型（LLM）中的软注意很容易将上下文中的不相关信息合并到其潜在的表征中，这将对下一token的生成产生不利影响。为了帮助纠正这些问题，论文引入了System 2 Attention（S2A），它利用LLM的能力，用自然语言进行推理，并遵循指示，以决定要处理什么。S2A重新生成输入上下文以使输入上下文只包含相关部分，然后再处理重新

5/11/2024 11:03:00 AM

合合信息

在富岳超算上训练大模型，日本联合研究团队发布 Fugaku-LLM

由多方企业和机构组成的日本联合研究团队昨日发布了 Fugaku-LLM 大模型。该模型的最大特色就是其是在 Arm 架构超算“富岳”上训练的。Fugaku-LLM 模型的开发于 2023 年 5 月启动，初期参与方包括富岳超算所有者富士通、东京工业大学、日本东北大学和日本理化学研究所（理研）。而在 2023 年 8 月，另外三家合作方 —— 名古屋大学、CyberAgent（也是游戏企业 Cygames 的母公司）和 HPC-AI 领域创企 Kotoba Technologies 也加入了该模型研发计划。▲ 富岳超

5/11/2024 9:39:37 AM

溯波（实习）

91.1% 准确率，性能远超 GPT-4 系列模型，谷歌推出多模态医学大模型 Med-Gemini

编辑 | 萝卜皮各种复杂的医疗应用给人工智能带来了巨大挑战：需要先进的推理、获取最新的医学知识以及对复杂的多模态数据的理解。Gemini 模型在多模态和长上下文推理方面具有强大的通用能力，为 AI 在医学领域应用提供了可能性。基于 Gemini 的核心优势，谷歌的研究人员推出了 Med-Gemini，这是一个功能强大的多模态模型系列，专门用于医学，能够无缝使用网络搜索，并且可以使用自定义编码器有效地针对新颖的模态进行定制。研究人员用 14 项医疗基准评估 Med-Gemini，在其中 10 项上建立了新的最先进（S

5/7/2024 6:43:00 PM

ScienceAI

Chrome 浏览器桌面版地址栏整合自家聊天机器人：@Gemini 即可召唤

谷歌 Chrome 浏览器今日早些时候在 X（推特）宣布，其桌面版地址栏现已整合 Gemini 聊天机器人，用户可以通过简单、便捷的方式将 Gemini 召唤出来：在地址栏中输入“@”，然后选择“与 Gemini 聊天”，输入自定的提示词即可获取 Gemini 的回复。不久之前，该功能仍在 Canary 版本中进行测试。经IT之家此次实测，当 Chrome 更新至 124.0.6367.119（正式版本）之后，即可体验。Gemini 是谷歌 Deepmind 最新、最强大的 AI 模型。它原生支持多模态，具备跨模态

5/1/2024 10:39:05 PM

清源

别再说国产大模型技术突破要靠 Llama 3 开源了

Meta 表示，Llama 3 已经在多种行业基准测试上展现了最先进的性能，提供了包括改进的推理能力在内的新功能，是目前市场上最好的开源大模型。根据Meta的测试结果，Llama 3 8B模型在语言（MMLU）、知识（GPQA）、编程（HumanEval）等多项性能基准上均超过了Gemma 7B和Mistral 7B Instruct，70B 模型则超越了名声在外的闭源模型 Claude 3的中间版本 Sonnet，和谷歌的 Gemini Pro 1.5 相比三胜两负。 Meta还透露，Llama 3的 400B 模型仍在训练中。

4/29/2024 7:54:00 PM

张进

当「养老」遇上 AI 大模型

作者：赖文昕编辑：陈彩娴鲜少有人关注到这样一个现象：在大模型的发展初期，「研发」与「产品」往往来自同一个群体——程序员。由于大模型技术的系统复杂，新一代大模型产品经理的数量稀少，程序员往往既是技术、又是产品。因此，程序员对 AI 大模型「究竟能解决什么问题」、「如何解决某个问题」的思考，也就在一定程度上刻画了第一批大模型落地应用的模样。

4/26/2024 4:49:00 PM

赖文昕

资讯热榜

苹果发布全新Xcode 26开发者工具：内置ChatGPT先进AI功能 DeepSeek前高管秘密创业，新AI Agent项目已获顶级VC押注那个男人回来了！Ilya现身多伦多大学毕业典礼：AI 像是用数字方式复制出来的大脑！不管你愿不愿意，AI都将深刻影响你的一生！支持MCP！开源智能体开发框架 Rowboat：打造你的智能助手只需几分钟 ChatGPT 语音功能升级，实时翻译对话更自然流畅肝了30小时，Flux Kontext是我用过最稳、最能干活的AI图像模型！谷歌 Gemini 应用月下载量超越 ChatGPT，用户活跃度仍显不足长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画数据谷歌机器人大模型 Midjourney 用户智能开源微软 GPT 学习 Meta 图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法代码英伟达 Anthropic 芯片生成式开发者蛋白质腾讯神经网络研究 3D 生成训练苹果计算智能体 Sora 机器学习 AI设计 AI for Science Claude GPU AI视频人形机器人华为搜索场景百度大语言模型 xAI 预测伟达深度学习 Transformer 字节跳动 Agent 模态具身智能神器推荐 LLaMA 文本视觉 Copilot 算力工具 LLM 驾驶 API 大型语言模型应用 RAG 亚马逊