大模型

声称“媲美人类专家”，谷歌 Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

谷歌公司上周发布技术报告，表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后，大幅提高了数学成绩，并成功解决了国际数学奥林匹克竞赛的部分问题。谷歌针对数学场景有针对性地训练 Gemini 1.5 Pro 模型，并通过 MATH 基准、美国数学邀请考试（ AIME) 和谷歌内部的 HiddenMath 基准进行测试。根据谷歌的数据，数学型 Gemini 1.5 Pro 在数学基准测试中的表现“与人类专家的表现相当”，与标准的非数学型 Gemini 1.5 Pro 相比，数学型 Gemini 1.5

5/21/2024 9:03:42 AM

故渊

绕过直接数值模拟或实验，生成扩散模型用于湍流研究

编辑 | 绿罗了解湍流平流粒子的统计和几何特性是一个具有挑战性的问题，对于许多应用的建模、预测和控制至关重要。例如燃烧、工业混合、污染物扩散、量子流体、原行星盘吸积和云形成等。尽管过去 30 年在理论、数值和实验方面做出了很多努力，但现有模型还不能很好地再现湍流中粒子轨迹所表现出的统计和拓扑特性。近日，意大利罗马第二大学（University of Rome Tor Vergata）的研究人员，提出了一种基于最先进的扩散模型的机器学习方法，可以在高雷诺数的三维湍流中生成单粒子轨迹，从而绕过直接数值模拟或实验来获得可

5/20/2024 4:54:00 PM

ScienceAI

为确保训练数据公开透明，英国政府将加快制定人工智能相关规则

据《金融时报》报道，近日，英国政府文化大臣露西・弗雷泽宣布将加快制定有关人工智能透明度的规则，以帮助保护内容创作者。她表示，这些规则的出台将意味着 AI 公司必须更加公开、透明地披露训练模型所用的数据情况，用户也可以自己选择哪些数据可被 AI 公司用来训练，作品被用于训练模型的创作者也将获得报酬。图源 Pexels不仅仅是英国，欧盟当前也正在根据其人工智能法案制定类似的规则。根据该法案，AI 开发者将需要提供一份足够详细的培训内容概要，并实施相关政策，以确保自身操作符合欧盟版权法的规定。作为回应的一部分，OpenA

5/19/2024 3:56:16 PM

清源

谷歌联合创始人谢尔盖・布林称谷歌眼镜问世“过早”，在 AI 时代将是完美选择

感谢综合 Business Insider、CNET 报道，谷歌联合创始人谢尔盖・布林在今年的谷歌 I / O 大会结束后，接受采访时谈到了智能眼镜相关话题。谢尔盖・布林表示，此次展示的神秘眼镜产品 Project Astra 是 AI 眼镜的“完美硬件”。“这很有趣，因为它就像完美的硬件，它就像十年之后的杀手级应用。”IT之家注：谢尔盖・布林在 2012 年谷歌 I / O 大会上首次展示了谷歌眼镜（Google Glass），2013 年向部分测试者提供，2014 年开始大范围销售，售价 1500 美元。这款眼

5/17/2024 10:45:13 PM

清源

索尼音乐集团警告 AI 公司不得使用自家资产进行模型训练

感谢根据彭博社的一份新报告，索尼音乐集团正在通知各大 AI 公司不得“未经授权使用公司旗下的资产进行模型训练”。IT之家获悉，索尼音乐目前已经向 700 多家公司发送了信件，以保护其知识产权，索尼提到，任何 AI 公司未经明确许可，不得使用索尼旗下的专辑封面艺术、音乐作品和歌词等内容。在 AI 模型的训练上，版权一直是一项令人“头大”的问题，如今业界举着牌子声称“某某模型侵犯原始作者版权”的事件已经屡见不鲜，参考IT之家此前报道，今年 4 月美国众议员 Adam Schiff 提出了一项新的法案，建议 AI 公司应

5/17/2024 6:59:44 AM

漾仔

对话零一万物：大模型产品要找到 TC-PMF

上次零一万物（以下简称“零一”）开发布会还是在 2023 年 11 月，宣布成立后的模型首秀：发布中英双语大模型“Yi”，并将其开源。这一次，时隔半年，零一不仅将基座模型卷到千亿量级，甚至还直接拿出一款 C 端新品“万知”，零一万物创始人李开复称其为“AI-First 版 office”。在模型层，零一发布了千亿参数的 Yi-Large 闭源模型，在第三方评测基准斯坦福大学的英语排行 AlpacaEval 2.0上，Yi-Large 可与 GPT-4 比肩（如下图所示）；并全面升级了开源模型系列 Yi-1.5，分为 34B、9B、6B三个版本，且提供了 Yi-1.5-Chat 微调模型可供开发者选择。

5/16/2024 3:54:00 PM

张进

谷歌 2 小时复仇硬刚 GPT-4o：Gemini 颠覆搜索，视频 AI 对抗 Sora

【新智元导读】被 OpenAI 提前截胡的谷歌，昨天不甘示弱地开启反击！大杀器 Project Astra 效果不输 GPT-4o，文生视频模型 Veo 硬刚 Sora，用 AI 彻底颠覆谷歌搜索，Gemini 1.5 Pro 达到 200 万 token 上下文…… 谷歌轰出一连串武器，对 OpenAI 贴脸开大。谷歌 I / O 2024 如期来了，眼花缭乱地发布了一堆更新。跟 OpenAI 半小时的「小而美」发布会相比，谷歌显然准备得更加充分，当然，时间也相当之长……▲ 2 个多小时的发布会也是挑战着观众们的

5/16/2024 1:24:48 PM

汪淼

谷歌 AI 视频搜索功能演示又翻车，Gemini 给出错误维修建议

在今天的谷歌 I / O 大会上，谷歌大肆宣传其名为 Gemini 的人工智能将接管搜索引擎领域。然而，在其炫酷的演示环节中，Gemini 却再次暴露了所有大型语言模型至今为止都存在的致命缺陷：自信满满地给出错误答案。在 “Gemini 时代下的搜索” 演示片段中，谷歌展示了其视频搜索功能，用户可以通过拍摄短视频并用语音提问进行搜索。演示的例子是一个卡住的胶片相机过片杆，用户询问“为什么扳杆无法移动到底”，Gemini 则识别出问题并提供了维修建议。然而问题在于，Gemini 给出的答案整体而言令人啼笑皆非。谷歌

5/15/2024 4:28:24 PM

远洋

多功能RNA分析，百度团队基于Transformer的RNA语言模型登Nature子刊

编辑 | 萝卜芯预训练语言模型在分析核苷酸序列方面显示出了良好的前景，但使用单个预训练权重集在不同任务中表现出色的多功能模型仍然存在挑战。百度大数据实验室（Big Data Lab，BDL）和上海交通大学团队开发了 RNAErnie，一种基于 Transformer 架构，以 RNA 为中心的预训练模型。研究人员用七个数据集和五个任务评估了模型，证明了 RNAErnie 在监督和无监督学习方面的优越性。RNAErnie 超越了基线，分类准确率提高了 1.8%，交互预测准确率提高了 2.2%，结构预测 F1 得分提高

5/15/2024 3:59:00 PM

ScienceAI

字节跳动发布豆包大模型，主力模型比行业价格低99.3%

5月15日，字节跳动豆包大模型在火山引擎原动力大会上正式发布。火山引擎总裁谭待介绍，经过一年时间的迭代和市场验证，豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一，目前日均处理1200亿Tokens文本，生成3000万张图片。 “大的使用量，才能打磨出好模型，也能大幅降低模型推理的单位成本。

5/15/2024 11:15:00 AM

代聪飞

谷歌 Calendar、Tasks 和 Keep 等服务将集成 Gemini

谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布在 Google Calendar、Tasks 和 Keep 应用中整合 Gemini 模型，为用户带来更丰富的 AI 功能。谷歌在开发者大会上表示，Gemini 聊天机器人支持网页或者移动 App 中上传图片操作，IT之家附上谷歌官方例子如下，拍一张学校活动列表的照片，然后让 Gemini 把它们添加到你的个人 Google Calendar 中。谷歌提供的另一个例子是让 Gemini 将食谱中的项目添加到谷歌 Keep 购物清单中。Gemini 负责

5/15/2024 4:06:11 AM

故渊

谷歌 Workspace 办公套件整合 Gemini：可总结邮件内容、梳理会议要点等

谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布 Google Workspace 将进一步整合 Gemini，在侧面板中将推出基于 Gemini 1.5 Pro 的诸多技能。谷歌表示 Workspace 整合 Gemini 的作用，是为用户节省从多个应用程序中挖掘文件、电子邮件和其他数据的时间和精力。谷歌 Workspace 副总裁阿帕纳・帕普（Aparna Pappu）在会上说：“Gemini 时代的 Workspace 将开启完成工作的新方式”。IT之家注：谷歌 Workspace 的 Gmai

5/15/2024 3:45:19 AM

故渊

谷歌 Gemini 解锁旅行规划技能，几秒内帮你妥当安排行程

谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布为 Gemini 引入旅行规划功能，结合个人信息和公共出行信息，帮用户规划预订航班、酒店等等。谷歌表示 Gemini 可以基于用户的提示，挖掘航班时间和酒店预订等具体细节，在几秒钟内制定出合适的度假行程。谷歌副总裁兼 Gemini 总经理 Sissie Hsiao 表示，用户手动规划一次旅行可能需要数小时、数天甚至数周的时间，而 Gemini 几乎可以瞬间完成。Hsiao 表示 Gemini 的规划是动态的，用户可以根据后期提示和其它要求进一步调整规划。

5/15/2024 3:28:56 AM

故渊

你的助手你决定，谷歌推出 Gems 功能：由用户定制 Gemini 角色

谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布为 Gemini 推出名为“Gems”的个性化选项，可以让用户定制 Gemini 助手角色。Gems 功能可以让用户迭代的聊天机器人，在保留指定特征的情况下帮助你完成某些任务。Gems 感觉类似于 OpenAI 的 GPT Store，可以让你制作定制的 ChatGPT 聊天机器人。该功能也有点像在 Character.AI 中创建自己的机器人，Character.AI 可以让你与虚拟的流行人物和名人甚至假冒的心理医生交谈。谷歌表示，用户通过 Gems

5/15/2024 3:12:28 AM

故渊

谷歌 Gemini 家族添 Flash 新成员：平衡规模和能力、支持多模态，单次可分析 3 万行代码

谷歌公司今天扩充 Gemini 家族成员，推出了全新的 Gemini 1.5 Flash 模型，重点优化了该模型的速度和效率。谷歌 DeepMind 首席执行官德米斯・哈萨比斯（Demis Hassabis）在一篇博客文章中写道：Gemini 1.5 Flash 擅长摘要、聊天应用、图像和视频字幕、从长文档和表格中提取数据等。哈萨比斯补充说，谷歌之所以创建 Gemini 1.5 Flash，是因为开发人员需要一个比谷歌今年 2 月发布的 Gemini 1.5 Pro 更轻便、更便宜的模型。IT之家注：Gemini

5/15/2024 1:47:17 AM

故渊

AI 聊天机器人大战升温：谷歌 Gemini 预告片展示惊艳语音视频交互能力

人工智能聊天机器人领域烽烟再起，谷歌和 OpenAI 之间激烈的竞争态势愈演愈烈。就在谷歌一年一度的 I / O 开发者大会召开前夕，这家科技巨头发布了一段视频，展示了疑似经过升级的 Gemini 聊天机器人。视频中，Gemini 可以同时实时处理来自视频和语音的输入。这段视频貌似是在 I / O 大会搭建现场拍摄的，视频展示了 Gemini 在一台 Pixel 手机上流畅地处理实时视频和语音提问，并准确地提供信息。当被问到正在进行的布置工作时，Gemini 正确识别出这是为一个重要活动做的准备。整个对话过程自然

5/14/2024 6:06:23 PM

远洋

美国教授用 2 岁女儿训 AI 模型登 Science，人类幼崽头戴相机训练全新 AI

【新智元导读】为训练 AI 模型，纽约州立大学的一名教授 Brenden Lake，竟让自己不到 2 岁女儿头戴相机收集数据！要知道，Meta 训 Llama 3 直接用了 15 万亿个 token，如果 Lake 真能让 AI 模型学习人类幼崽，从有限的输入中学习，那 LLM 的全球数据荒岂不是解决了？为了训练 AI 模型，一位纽约州立大学的教授，竟然把类似 GoPro 的相机绑在了自己女儿头上！虽然听起来不可思议，但这位教授的行为，其实是有据可循的。要训练出 LLM 背后的复杂神经网络，需要海量数据。目前我们训

5/13/2024 2:51:41 PM

清源

在 ICLR 2024，看见中国大模型的力量

作者 | 赖文昕编辑 | 陈彩娴近日（5.7-5.11），第十二届国际学习表征会议（ICLR）在奥地利维也纳的展览会议中心召开。 ICLR 2024 的论文终审工作自 1 月份启动以来，共收到了7262篇提交论文，相较于上一年度的 4966 篇，增幅达到了 46.1%，接近翻了一番。在严格的评审过程中，大会最终接受了 2260 篇论文，整体接收率维持在 31%，与去年的31.8%基本持平，其中 Spotlights 和 Oral 两种类型的论文展示分别有 367 篇（占5%）和 86 篇（占1.2%）论文获选。

5/13/2024 12:05:00 PM

赖文昕

资讯热榜

马斯克 xAI 在孟菲斯开建全球最大污水处理厂，年节约饮用水达 190 亿升 2025 全球十大工程成就揭晓：DeepSeek入选大的来了：谷歌Gemini 3.0 Pro单次生成网页版操作系统，Win、Mac、Linux一网打尽日本政府对 OpenAI Sora 2 发布版权警告，要求遵守法律规定 OpenAI官宣自研首颗芯片，AI界「M1时刻」九个月杀到！联手博通三年10GW 马来西亚迎来 AI 新纪元，ChatGPT Go 助力数字化转型 OpenAI 与 Sur Energy 签署协议:25亿美元阿根廷数据中心项目启动 OpenAI 为 ChatGPT 推出智能记忆清理功能，Plus 用户率先体验

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人数据大模型 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练论文 LLM 代码算法芯片 Stable Diffusion 苹果腾讯 AI for Science Claude Agent 蛋白质开发者生成式神经网络 xAI 机器学习 3D 研究人形机器人生成 AI视频百度工具具身智能 Sora RAG 大语言模型 GPU 华为计算字节跳动 AI设计搜索大型语言模型 AGI 场景深度学习视频生成架构 DeepMind 预测视觉伟达 Transformer 编程 AI模型神器推荐亚马逊 MCP