大模型

聊天机器人胡说八道？牛津研究人员利用语义熵来识破 AI“幻觉”

近年来，人工智能蓬勃发展，聊天机器人等应用逐渐普及，人们可以通过简单的指令从这些聊天机器人（例如 ChatGPT）获取信息。然而，这些聊天机器人仍然容易出现“幻觉”问题，即提供错误的答案，有时甚至是危险的信息。图源 Pexels造成“幻觉”的原因之一是训练数据不准确、泛化能力不足以及数据采集过程中的副作用。不过，牛津大学的研究人员另辟蹊径，在最新出版的《自然》杂志上详细介绍了一种他们新开发的方法，用于检测大型语言模型 (LLMs) 的“捏造” (即任意生成的不正确信息) 问题。LLM 通过在训练数据中寻找特定模式来

6/24/2024 8:25:46 AM

远洋

AI 教父 Hinton：我支持超级 AI 取代人类

【新智元导读】「AI 教父」Geoffrey Hinton 在最近的采访中表达了自己对 AI 智能的理解 ——LLM 并不是简单的统计模型，已经具备了理解能力。与此同时，网友翻出了去年 12 月的「过期」视频，惊奇地发现 Hinton 早就「叛变」了，竟然对超级 AI 取代人类的未来表示支持。最近，半退休的「AI 教父」Geoffrey Hinton 频频出现在各种采访中，输出他关于 ASI 的各种言论和观点，甚至只是聊点生涯轶事都可以引起网友们的热烈讨论。不到一个月之前，他就揭发了爱徒 Ilya 在暑假受够了炸薯

6/18/2024 12:36:25 PM

汪淼

计算效率提升100倍以上，上交李金金团队开发基于Transformer的大模型用于从头算分子动力学

作者 | 陶科豪编辑 | 白菜叶精确模拟原子与分子的动态行为对于开发新一代高效能材料至关重要。然而，传统的从头算分子动力学（AIMD）模拟虽然提供了高精度的预测能力，但由于其高昂的计算成本和漫长的模拟时间，大大限制了研究的进度。例如，完成一个含 100 个原子的材料系统的 30 皮秒模拟，常常需要数月时间，这对于需要快速迭代和优化的新材料研发构成了巨大挑战。在这种背景下，一个能够显著加快这一过程的人工智能模型具有重要价值。面对这些挑战，上海交通大学人工智能与微结构实验室（AIMS-lab）开发了名为 T-AIMD

6/17/2024 3:06:00 PM

ScienceAI

全球科技巨头集体「卷」AI，华为又在憋什么大招？

生成式 AI 的竞争，今年更加激烈了。今年 5 月以来，全球科技巨头们不约而同地开始展示在 AI 领域的最新成果和战略部署，一系列引人瞩目的发布和合作活动相继展开，预示着 AI 技术的快速发展和广泛应用。5 月 15 日，谷歌推出了 Gemini 1.5 Pro 和 Gemini 1.5 Flash 两款新的大型语言模型，并发布了声称效果超过 GPT-3 的生成视频模型 Veo。微软在 Build 2024 开发者大会上发布了 50 多项与 AI 相关的更新，包括 Team Copilot、Microsoft Fa

6/17/2024 10:04:00 AM

新闻助手

共话大模型技术进展与挑战，CCF大模型论坛北京会议圆满落幕！

2024 年 6 月 6 日中国计算机学会大模型论坛（CCF FoLM）主题会议在北京顺利举办。本次会议主题为“大模型技术进展与挑战”，各位专家围绕大模型技术的前沿动态、发展趋势及技术挑战等议题展开深入探讨，为广大从业者、研究者提供了一场丰富的学术盛宴。本次会议还宣布了“CCF 大模型安全挑战赛”的正式启动！

6/14/2024 2:44:00 PM

我在思考中

22个任务超越SOTA，43个任务媲美SOTA，Google推出医学治疗通用大模型

编辑 | 萝卜皮医生和科学家如果想开发一种新的疗法，这将是一个漫长且昂贵的任务，需要满足许多不同的标准，而能够加快这一过程的人工智能模型将是无价之宝。然而，目前大多数人工智能方法只能解决一组定义狭窄的任务，通常局限于特定领域。为了弥补这一差距，Google 团队提出了 Tx-LLM，这是一种通用大型语言模型（LLM），由 PaLM-2 微调而成，可编码有关各种治疗方式的知识。仅使用一组权重，Tx-LLM 可同时处理与自由文本交织的各种化学或生物实体（小分子、蛋白质、核酸、细胞系、疾病）信息，使其能够预测广泛的相关属

6/12/2024 2:36:00 PM

ScienceAI

俄罗斯科技巨头 Yandex 宣布开源“YaFSDP”大语言模型训练工具：大幅提升 GPU 利用率，对 Llama 3 可实现 26% 加速

俄罗斯科技巨头 Yandex 推出了一款开源的大语言模型训练工具 ——YaFSDP，号称与现有工具相比速度最高可提升 26%。据介绍，YaFSDP 在训练速度方面优于传统的 FSDP 方法，尤其适用于大型模型。在预训练 LLM 方面，YaFSDP 速度提高了 20%，并且在高内存压力条件下表现更佳。例如，YaFSDP 对具有 700 亿参数的 Llama 2 可以实现 21% 的效率提升，对具有同级参数的 Llama 3 也实现了 26% 的效率提升。IT之家附官方数据一览：模型gpu-countseq-lenn

6/11/2024 6:03:24 PM

问舟

Yandex 开源 LLM 训练工具节省高达 20% 的 GPU 资源

跨国科技公司 Yandex 最近推出了 YaFSDP，这是一种用于训练大型语言模型 (LLM) 的开源方法。YaFSDP 是目前最有效的公开可用工具，用于增强 GPU 通信并减少 LLM 训练中的内存使用量，与 FSDP 相比，其训练速度提升最高可达 26%，具体取决于架构和参数数量。通过使用 YaFSDP 减少 LLM 的训练时间可以节省高达 20% 的 GPU 资源。Yandex 承诺为全球人工智能社区的发展做出贡献，将YaFSDP开源提供给全球的 LLM 开发人员和人工智能爱好者即是履行此承诺的其中一步。“目

6/11/2024 5:18:00 PM

新闻助手

预测准确率达95.7%，ChatMOF利用LLM预测和生成金属有机框架

编辑 | X金属有机框架（MOF）因其孔隙率大、表面积大和出色的可调性而用于许多化学应用。然而，在利用 AI 深入探索 MOF 设计与性能优化的研究征途中，科学家们正面临着前所未有的挑战。去年 3 月，韩国科学技术院（Korea Advanced Institute of Science and Technology，KAIST）的研究人员提出的 MOFTransformer 模型经过一百万个假设的 MOF 的预训练，在预测各种属性方面表现出色。近日，KAIST 团队提出了一种 AI 系统——ChatMOF，用于预

6/11/2024 5:09:00 PM

ScienceAI

视觉语言模型导论：这篇论文能成为你进军VLM的第一步

近些年，语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型（LLM）有能力解决多种不同的任务，它们也正在成为越来越常用的工具。这些模型之前基本都局限于文本输入，但现在也正在具备处理视觉输入的能力。如果能将视觉与语言打通，那么势必能造就多种多样的应用 —— 这实际上也正是当前 AI 技术革命的关键方向。即便现在已有不少研究将大型语言模型扩展到了视觉领域，但视觉与语言之间的连接尚未被彻底打通。举些例子，大多数模型都难以理解空间位置关系或计数 —— 这还需要复杂的工程设计并依赖额外的数据标注。许多视

6/11/2024 2:45:00 PM

机器之心

夺冠！卓世AI斩获全球顶会AAMAS 2024 CE 竞赛冠军

近日，在全球瞩目的AAMAS 2024 Computational Economics Competition（计算经济学挑战赛）上，卓世科技人工智能前沿实验室团队“Zhuoshi Technology AI Cutting-edge Laboratory”一举夺得两个核心赛道的冠军和亚军，展现出其在计算经济学和人工智能领域的强大竞争力。冠军证书亚军证书AAMAS 2024 是第23届国际自主智能体和多智能体系统会议（International Conference on Autonomous Agents and

6/11/2024 2:41:00 PM

新闻助手

从LLM中完全消除矩阵乘法，效果出奇得好，10亿参数跑在FPGA上接近大脑功耗

让语言模型「轻装上阵」。一直以来，矩阵乘法（MatMul）稳居神经网络操作的主导地位，其中很大原因归结为 GPU 专门针对 MatMul 操作进行了优化。这种优化使得 AlexNet 在 ILSVRC2012 挑战赛中一举胜出，成为深度学习崛起的历史性标志。在这当中，有个值得注意的点是，AlexNet 利用 GPU 来提高训练速度，超越了 CPU 的能力，至此，GPU 的加入使得深度学习仿佛赢得了「硬件彩票」。尽管 MatMul 在深度学习中很流行，但不得不承认的是它占据了计算开销的主要部分，主要表现为 MatMu

6/11/2024 12:42:00 AM

机器之心

两句话，让 LLM 逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

感谢IT之家网友刺客的线索投递！在基准测试上频频屠榜的大模型们，竟然被一道简单的逻辑推理题打得全军覆没？最近，研究机构 LAION 的几位作者共同发表了一篇文章，以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题，揭示了 LLM 基准测试的盲区。一道简单的逻辑问题，竟让几乎所有的 LLM 全军覆没？对于人类来说，这个名为「爱丽丝梦游仙境」（AIW）的测试并不算很难 ——「爱丽丝有 N 个兄弟，她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹？」只需稍加思考，答案显而易见：M 1。（爱丽丝拥有的姐妹数量，再加上爱丽

6/10/2024 5:42:53 PM

浩渺

成功率达 53%，研究显示 GPT-4 可自主利用“零日”漏洞攻破网站

据 NewAtlas 报道，研究人员利用自主协作的 GPT-4 机器人小组成功入侵了一半以上的测试网站，这些机器人可以自主协调行动并根据需要生成新的“帮手”。更令人吃惊的是，他们利用的是以前未知的、现实世界中从未公开的“零日”漏洞（zero-day vulnerabilities）。图源 Pexels早在几个月前，同一批研究人员就发表了一篇论文，声称他们能够使用 GPT-4 自动利用“N day”漏洞，即业界已知但尚未修复的漏洞。实验中，GPT-4 仅凭已知的常见漏洞和披露列表 (CVE)，就能自主利用其中 87%

6/9/2024 1:05:35 PM

远洋

价格战之后，智谱来到商业化的下一站

这次价格战的两股势力分别是互联网大厂和大模型创业公司，以字节、阿里云、腾讯和智谱为主要参战代表。面对这场突如其来的价格战，大家讨论最多的是，创业公司很难承受得住这样的比拼。相比互联网大厂底子厚、钱多，大模型创业公司跟大厂打价格战，风险很大，一些人认为「价格战」是大模型玩家的淘汰加速赛。

6/7/2024 11:05:00 AM

张进

AI 摘要“幻觉”风波未平，谷歌 Gemini 聊天机器人又被曝“胡言乱语”

前段时间，谷歌搜索“AI 摘要”（AI Overviews）功能因其经常提供具有严重错误的搜索结果而备受诟病，导致官方亲自下场保证后续会进行修正。而如今，又有网友爆料称谷歌旗下的人工智能产品“抽了风”，这次问题出在 Gemini 聊天机器人。从北京时间昨夜至今日凌晨，有 Reddit 网友陆续发现，Gemini 生成的回复偶尔会充斥着杂乱无章的代码和外文字母 —— 这些结果对用户的查询毫无帮助。过去几天里，部分 Gemini 用户陆续发现自己遇到了这一奇怪问题：Gemini 会输出胡言乱语。这些回复可能是一连串的重

6/5/2024 7:10:10 AM

清源

2024智源大会议程公开丨大语言模型

2024年6月14日-15日，第6届北京智源大会将以线下与线上结合的形式召开，线下会场设在中关村国家自主创新示范区会议中心。2024智源大会再次以全球视野，汇聚年度杰出工作研究者，交流新思想，探讨新思路，引领新前沿。目前已正式开放报名渠道。大语言模型论坛丨6月14日下午近年来，大语言模型取得了重要的技术进展，成为了人工智能领域最受社会关注的研究方向之一，其应用范围逐渐覆盖了信息产业的多个领域。对其底层原理与训练方法的探索也成为了学术界与工业界的共同关注焦点。本次论坛针对大语言模型相关的基础问题展开相关探讨，主要包

6/4/2024 3:49:00 PM

新闻助手

1.8B参数，阿里云首个联合DNA、RNA、蛋白质的生物大模型，涵盖16.9W物种

编辑 | 萝卜皮不久之前，Google DeepMind 发布了 AlphaFold3，再次引发了人们对「AI 生命科学」的讨论。在学界，科学家的目标往往是先认识世界，然后在认识的基础上改造世界。但是在生命科学领域，人类对整个生命的理解与认识还如九牛一毛、冰山一角；建立对生命系统的多维度深刻认识是当前人类研究的重要一步，AI 是达成这一步的重要工具。近期，阿里云飞天实验室发布并开源了业界首个联合 DNA、RNA、蛋白质的生物大模型「LucaOne」。这是一种新型预训练基础模型，旨在综合学习遗传和蛋白质组语言，涵

6/4/2024 3:32:00 PM

ScienceAI

资讯热榜

苹果发布全新Xcode 26开发者工具：内置ChatGPT先进AI功能 DeepSeek前高管秘密创业，新AI Agent项目已获顶级VC押注那个男人回来了！Ilya现身多伦多大学毕业典礼：AI 像是用数字方式复制出来的大脑！不管你愿不愿意，AI都将深刻影响你的一生！支持MCP！开源智能体开发框架 Rowboat：打造你的智能助手只需几分钟 ChatGPT 语音功能升级，实时翻译对话更自然流畅肝了30小时，Flux Kontext是我用过最稳、最能干活的AI图像模型！谷歌 Gemini 应用月下载量超越 ChatGPT，用户活跃度仍显不足长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画数据谷歌机器人大模型 Midjourney 用户智能开源微软 GPT 学习 Meta 图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法代码英伟达 Anthropic 芯片生成式开发者蛋白质腾讯神经网络研究 3D 生成训练苹果计算智能体 Sora 机器学习 AI设计 AI for Science Claude GPU AI视频人形机器人华为搜索场景百度大语言模型 xAI 预测伟达深度学习 Transformer 字节跳动 Agent 模态具身智能神器推荐 LLaMA 文本视觉 Copilot 算力工具 LLM 驾驶 API 大型语言模型应用 RAG 亚马逊