大模型
Meta 发布基于 Code Llama 的 LLM 编译器:优化代码大小、反汇编
感谢Meta 官方在 X 平台宣布推出 LLM 编译器,这是一个基于 Meta Code Llama 构建的模型家族,具有额外的代码优化和编译器功能。这些模型可以模拟编译器,预测代码大小的最佳传递,并可反汇编代码,可以针对新的优化和编译器任务进行微调。Meta 在 HuggingFace 上公开了 LLM 编译器的 7B 和 13B 模型,采用宽松的许可协议,允许用于研究和商业用途。IT之家附链接:,LLM 在各种软件工程和编码任务中展示其能力,然而在代码和编译器优化领域的应用仍然未被充分探索。为了解决这一问题,M
6/28/2024 1:25:58 PM
沛霖(实习)
200 亿估值之后,中国大模型公司还能拿谁的钱?
「200 亿」成为高风险投资代名词的直接原因,是无论美元基金(如红杉、IDG)或人民币基金(如启明、君联),其背后的 LP 主力背景里都有地方政府与国资,后者的投资喜好是风险厌恶。 「200亿是不是一个坎」成为投资者与创业者都要思考的共同问题。 目前,中国只有两家公司(智谱 AI 与月之暗面)在以估值约 30 亿美元、200 亿人民币进行新一轮融资。
6/28/2024 11:23:00 AM
张进
《Python 机器学习》作者新作:从头开始构建大型语言模型,代码已开源
自 ChatGPT 发布以来,大型语言模型(LLM)已经成为推动人工智能发展的关键技术。近期,机器学习和 AI 研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 又写了一本新书 ——《Build a Large Language Model (From Scratch)》,旨在讲解从头开始构建大型语言模型的整个过程,包括如何创建、训练和调整大型语言模型。最近,Sebastian Raschka 在 GitHub 上开源了这本新书对应的代码库。项目地址: LLM 来说,指令微调能够有效
6/24/2024 10:53:00 AM
机器之心
聊天机器人胡说八道?牛津研究人员利用语义熵来识破 AI“幻觉”
近年来,人工智能蓬勃发展,聊天机器人等应用逐渐普及,人们可以通过简单的指令从这些聊天机器人(例如 ChatGPT)获取信息。然而,这些聊天机器人仍然容易出现“幻觉”问题,即提供错误的答案,有时甚至是危险的信息。图源 Pexels造成“幻觉”的原因之一是训练数据不准确、泛化能力不足以及数据采集过程中的副作用。不过,牛津大学的研究人员另辟蹊径,在最新出版的《自然》杂志上详细介绍了一种他们新开发的方法,用于检测大型语言模型 (LLMs) 的“捏造” (即任意生成的不正确信息) 问题。LLM 通过在训练数据中寻找特定模式来
6/24/2024 8:25:46 AM
远洋
AI 教父 Hinton:我支持超级 AI 取代人类
【新智元导读】「AI 教父」Geoffrey Hinton 在最近的采访中表达了自己对 AI 智能的理解 ——LLM 并不是简单的统计模型,已经具备了理解能力。与此同时,网友翻出了去年 12 月的「过期」视频,惊奇地发现 Hinton 早就「叛变」了,竟然对超级 AI 取代人类的未来表示支持。最近,半退休的「AI 教父」Geoffrey Hinton 频频出现在各种采访中,输出他关于 ASI 的各种言论和观点,甚至只是聊点生涯轶事都可以引起网友们的热烈讨论。不到一个月之前,他就揭发了爱徒 Ilya 在暑假受够了炸薯
6/18/2024 12:36:25 PM
汪淼
计算效率提升100倍以上,上交李金金团队开发基于Transformer的大模型用于从头算分子动力学
作者 | 陶科豪编辑 | 白菜叶精确模拟原子与分子的动态行为对于开发新一代高效能材料至关重要。然而,传统的从头算分子动力学(AIMD)模拟虽然提供了高精度的预测能力,但由于其高昂的计算成本和漫长的模拟时间,大大限制了研究的进度。例如,完成一个含 100 个原子的材料系统的 30 皮秒模拟,常常需要数月时间,这对于需要快速迭代和优化的新材料研发构成了巨大挑战。在这种背景下,一个能够显著加快这一过程的人工智能模型具有重要价值。面对这些挑战,上海交通大学人工智能与微结构实验室(AIMS-lab)开发了名为 T-AIMD
6/17/2024 3:06:00 PM
ScienceAI
全球科技巨头集体「卷」AI,华为又在憋什么大招?
生成式 AI 的竞争,今年更加激烈了。今年 5 月以来,全球科技巨头们不约而同地开始展示在 AI 领域的最新成果和战略部署,一系列引人瞩目的发布和合作活动相继展开,预示着 AI 技术的快速发展和广泛应用。5 月 15 日,谷歌推出了 Gemini 1.5 Pro 和 Gemini 1.5 Flash 两款新的大型语言模型,并发布了声称效果超过 GPT-3 的生成视频模型 Veo。微软在 Build 2024 开发者大会上发布了 50 多项与 AI 相关的更新,包括 Team Copilot、Microsoft Fa
6/17/2024 10:04:00 AM
新闻助手
共话大模型技术进展与挑战,CCF大模型论坛北京会议圆满落幕!
2024 年 6 月 6 日中国计算机学会大模型论坛(CCF FoLM)主题会议在北京顺利举办。 本次会议主题为“大模型技术进展与挑战”,各位专家围绕大模型技术的前沿动态、发展趋势及技术挑战等议题展开深入探讨,为广大从业者、研究者提供了一场丰富的学术盛宴。 本次会议还宣布了“CCF 大模型安全挑战赛”的正式启动!
6/14/2024 2:44:00 PM
我在思考中
22个任务超越SOTA,43个任务媲美SOTA,Google推出医学治疗通用大模型
编辑 | 萝卜皮医生和科学家如果想开发一种新的疗法,这将是一个漫长且昂贵的任务,需要满足许多不同的标准,而能够加快这一过程的人工智能模型将是无价之宝。然而,目前大多数人工智能方法只能解决一组定义狭窄的任务,通常局限于特定领域。为了弥补这一差距,Google 团队提出了 Tx-LLM,这是一种通用大型语言模型(LLM),由 PaLM-2 微调而成,可编码有关各种治疗方式的知识。仅使用一组权重,Tx-LLM 可同时处理与自由文本交织的各种化学或生物实体(小分子、蛋白质、核酸、细胞系、疾病)信息,使其能够预测广泛的相关属
6/12/2024 2:36:00 PM
ScienceAI
俄罗斯科技巨头 Yandex 宣布开源“YaFSDP”大语言模型训练工具:大幅提升 GPU 利用率,对 Llama 3 可实现 26% 加速
俄罗斯科技巨头 Yandex 推出了一款开源的大语言模型训练工具 ——YaFSDP,号称与现有工具相比速度最高可提升 26%。据介绍,YaFSDP 在训练速度方面优于传统的 FSDP 方法,尤其适用于大型模型。在预训练 LLM 方面,YaFSDP 速度提高了 20%,并且在高内存压力条件下表现更佳。例如,YaFSDP 对具有 700 亿参数的 Llama 2 可以实现 21% 的效率提升,对具有同级参数的 Llama 3 也实现 了 26% 的效率提升。IT之家附官方数据一览:模型gpu-countseq-lenn
6/11/2024 6:03:24 PM
问舟
Yandex 开源 LLM 训练工具节省高达 20% 的 GPU 资源
跨国科技公司 Yandex 最近推出了 YaFSDP,这是一种用于训练大型语言模型 (LLM) 的开源方法。YaFSDP 是目前最有效的公开可用工具,用于增强 GPU 通信并减少 LLM 训练中的内存使用量,与 FSDP 相比,其训练速度提升最高可达 26%,具体取决于架构和参数数量。通过使用 YaFSDP 减少 LLM 的训练时间可以节省高达 20% 的 GPU 资源。Yandex 承诺为全球人工智能社区的发展做出贡献,将YaFSDP开源提供给全球的 LLM 开发人员和人工智能爱好者即是履行此承诺的其中一步。“目
6/11/2024 5:18:00 PM
新闻助手
预测准确率达95.7%,ChatMOF利用LLM预测和生成金属有机框架
编辑 | X金属有机框架(MOF)因其孔隙率大、表面积大和出色的可调性而用于许多化学应用。然而,在利用 AI 深入探索 MOF 设计与性能优化的研究征途中,科学家们正面临着前所未有的挑战。去年 3 月,韩国科学技术院(Korea Advanced Institute of Science and Technology,KAIST)的研究人员提出的 MOFTransformer 模型经过一百万个假设的 MOF 的预训练,在预测各种属性方面表现出色。近日,KAIST 团队提出了一种 AI 系统——ChatMOF,用于预
6/11/2024 5:09:00 PM
ScienceAI
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用的工具。这些模型之前基本都局限于文本输入,但现在也正在具备处理视觉输入的能力。如果能将视觉与语言打通,那么势必能造就多种多样的应用 —— 这实际上也正是当前 AI 技术革命的关键方向。即便现在已有不少研究将大型语言模型扩展到了视觉领域,但视觉与语言之间的连接尚未被彻底打通。举些例子,大多数模型都难以理解空间位置关系或计数 —— 这还需要复杂的工程设计并依赖额外的数据标注。许多视
6/11/2024 2:45:00 PM
机器之心
夺冠!卓世AI斩获全球顶会AAMAS 2024 CE 竞赛冠军
近日,在全球瞩目的AAMAS 2024 Computational Economics Competition(计算经济学挑战赛)上,卓世科技人工智能前沿实验室团队“Zhuoshi Technology AI Cutting-edge Laboratory”一举夺得两个核心赛道的冠军和亚军,展现出其在计算经济学和人工智能领域的强大竞争力。冠军证书亚军证书AAMAS 2024 是第23届国际自主智能体和多智能体系统会议(International Conference on Autonomous Agents and
6/11/2024 2:41:00 PM
新闻助手
从LLM中完全消除矩阵乘法,效果出奇得好,10亿参数跑在FPGA上接近大脑功耗
让语言模型「轻装上阵」。一直以来,矩阵乘法(MatMul)稳居神经网络操作的主导地位,其中很大原因归结为 GPU 专门针对 MatMul 操作进行了优化。这种优化使得 AlexNet 在 ILSVRC2012 挑战赛中一举胜出,成为深度学习崛起的历史性标志。在这当中,有个值得注意的点是,AlexNet 利用 GPU 来提高训练速度,超越了 CPU 的能力,至此,GPU 的加入使得深度学习仿佛赢得了「硬件彩票」。尽管 MatMul 在深度学习中很流行,但不得不承认的是它占据了计算开销的主要部分,主要表现为 MatMu
6/11/2024 12:42:00 AM
机器之心
两句话,让 LLM 逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷
感谢IT之家网友 刺客 的线索投递!在基准测试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,研究机构 LAION 的几位作者共同发表了一篇文章,以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题,揭示了 LLM 基准测试的盲区。一道简单的逻辑问题,竟让几乎所有的 LLM 全军覆没?对于人类来说,这个名为「爱丽丝梦游仙境」(AIW)的测试并不算很难 ——「爱丽丝有 N 个兄弟,她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹?」只需稍加思考,答案显而易见:M 1。(爱丽丝拥有的姐妹数量,再加上爱丽
6/10/2024 5:42:53 PM
浩渺
成功率达 53%,研究显示 GPT-4 可自主利用“零日”漏洞攻破网站
据 NewAtlas 报道,研究人员利用自主协作的 GPT-4 机器人小组成功入侵了一半以上的测试网站,这些机器人可以自主协调行动并根据需要生成新的“帮手”。更令人吃惊的是,他们利用的是以前未知的、现实世界中从未公开的“零日”漏洞(zero-day vulnerabilities)。图源 Pexels早在几个月前,同一批研究人员就发表了一篇论文,声称他们能够使用 GPT-4 自动利用“N day”漏洞,即业界已知但尚未修复的漏洞。实验中,GPT-4 仅凭已知的常见漏洞和披露列表 (CVE),就能自主利用其中 87%
6/9/2024 1:05:35 PM
远洋
价格战之后,智谱来到商业化的下一站
这次价格战的两股势力分别是互联网大厂和大模型创业公司,以字节、阿里云、腾讯和智谱为主要参战代表。 面对这场突如其来的价格战,大家讨论最多的是,创业公司很难承受得住这样的比拼。 相比互联网大厂底子厚、钱多,大模型创业公司跟大厂打价格战,风险很大,一些人认为「价格战」是大模型玩家的淘汰加速赛。
6/7/2024 11:05:00 AM
张进
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
模态
字节跳动
Claude
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
科技
亚马逊
智能体
DeepMind
特斯拉