AIGC宇宙 AIGC宇宙

大模型

95 后创业者 VAST 宋亚宸:要做3D「抖音」内容平台

2022 年 9 月接近尾声的一天,Google 发布了文生 3D 技术DreamFusion,利用预训练的 2D 文本到图像扩散模型,提出SDS(score distillation scapling)方法,首次完成开放域文本到 3D的合成。 听到这个消息时,宋亚宸非常激动,他在商汤时就很关注 3D 生成技术。 DreamFusion的发布对于整个3D领域是一个大的转折点,意味着 3D内容制作的成本和门槛趋近于零,虽然生成的 3D模型效果很差,但已经是一个大的技术变革。
10/31/2024 11:26:00 AM
张进

实时音视频领域拓荒者的十年

2015 年,声网将WebRTC大会引入中国,筹办了第一届面向国内开发者、业务人员和用户的RTC(实时视音频)大会。 在大会开始的前夕,现任声网市场VP、RTC大会主策人彭小欢失眠了,她非常担心明天会不会有人来。 一晃十年过去了,当年的RTC大会早已升级为RTE(实时互联网)大会, 10 月 25 日RTE 2024也如期而至,但早已不用担心是否有人光顾,现场可谓是座无虚席。
10/31/2024 10:31:00 AM
张进

Meta 推出 Llama 3.2 1B / 3B 模型量化版:功耗更低、可适用更多轻量移动设备

继今年 9 月开源 Llama 3.2 的 1B 与 3B 模型之后,Meta 于 10 月 24 日发布了这两个模型的量化版本,量化后的模型大小平均减少了 56%,RAM 使用量平均减少了 41%,模型速度提高了 2 至 4 倍,同时降低了功耗,使这些模型能够部署到更多移动设备上。 AI在线注:模型量化(Model Quantization)就是通过各种训练方式将浮点模型转为定点模型,可以压缩模型参数,降低模型的复杂性,以便于在更轻量的平台运行。 Meta 表示,他们采用了量化感知训练(Quantization-Aware Training,QAT)和后训练量化(SpinQuant)两种方法对模型进行量化,其中“量化感知训练”更重视模型的准确性,而“后训练量化”更强调模型的可移植性。
10/27/2024 1:53:56 PM
漾仔

可令 AI 助理同时进行快 / 慢速思考,谷歌 DeepMind 公布具备两种思维模式的 Talker-Reasoner 框架

谷歌 DeepMind 上周公布了一个号称“具备两种思维模式”的 Talker-Reasoner 框架,旨在让 AI 助理能够同时进行快速和慢速思考,目前相关论文已发布于 ArXiv 上(点此访问)。 据介绍,这款框架采用“双系统”设计,能够在与用户进行对话的同时并行多步骤推理任务(一边快速回答用户问题,一边高速思考),其中系统 1 Talker LLM 主要负责快速、直觉和合成的语言回应,用于与用户交谈。 而系统 2 Reasoner LLM 则负责解决复杂问题,涉及从外界获取信息以增强知识,例如调用工具或从外部数据库检索信息,从而提升系统 1 回应内容的准确度及逻辑性。
10/27/2024 10:20:36 AM
漾仔

AI 驱动化学空间探索,大语言模型精准导航,直达目标分子

作者 | 「深度原理」陆婕妤编辑 | ScienceAI现代科学研究中,化学空间的探索是化学发现和材料科学的核心挑战之一。 过渡金属配合物(TMCs)的设计中,由金属和配体组成的庞大化学空间为多目标优化的搜索带来了难度。 为了解决这一问题,来自「深度原理」 (Deep Principle) 和康奈尔大学的研究者们开发了一种名为 LLM-EO(Large Language Model for Evolutionary Optimization)的新型工作流程算法,释放大型语言模型(LLM)的生成和预测潜能,显著提高了化学空间探索的效率。
10/25/2024 11:54:00 AM
ScienceAI

西湖大学发布 “AI 科学家” Nova,效果相比SOTA提升2.5倍

还记得今年夏天让众多科研工作者“瑟瑟发抖”的 AI scientist 吗? 彼时的它,作为一个由谷歌Transformer 论文作者 Llion Jones 和前谷歌研究人员 David Ha 共同创立的全自动科学研究平台,从提出研究设想、检查创新程度,再到设计实验、编写程序、再GPU上执行实验并收集结果,到最后完成论文的撰写,一气呵成,让不少科研工作者早早就有了“事业危机感”。 此外,该项目还获得了New Enterprise Associates、Khosla Ventures、Lux Capital等多家全球知名投资机构以及NVIDIA等产业投资人的投资,进一步推动了其技术突破和市场化落地。
10/23/2024 3:44:00 PM
郑佳美

成功率提升15%,浙大、碳硅智慧用LLM进行多属性分子优化,登Nature子刊

编辑 | 萝卜皮优化候选分子的物理化学和功能特性一直是药物和材料设计中的一项关键任务。 虽然人工智能很适合处理平衡多个(可能相互冲突的)优化目标的任务,但是例如多属性标记训练数据的稀疏性等技术挑战,长期以来阻碍了解决方案的开发。 在最新的研究中,浙江大学侯廷军团队、中南大学曹东升团队以及碳硅智慧团队联合开发了一种分子优化工具 Prompt-MolOpt。
10/23/2024 2:06:00 PM
ScienceAI

英伟达新 nGPT 架构撬动 AI 未来:超球面学习提效,训练模型时间可缩短至 1/20

科技媒体 dataconomy 昨日(10 月 21 日)发布博文,报道称英伟达在训练 AI 模型方面取得重大突破,发布了最新的 Normalized Transformer(nGPT)新架构,保持模型的稳定性和准确性的前提下,可以将训练 AI 时间缩短至 1/4 或者 1/20。nGPT 架构提升效率的秘诀在于“超球面学习”(Hyperspherical learning)这个概念。传统的变换器模型通常缺乏一致的几何框架,而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面,确保模型各层在训练过程中保持平衡。
10/22/2024 9:46:42 AM
故渊

霍尼韦尔与谷歌云合作,将生成式 AI Gemini 引入工业领域

霍尼韦尔(Honeywell)今日宣布与谷歌云(Google Cloud)进行合作,将生成式人工智能 Gemini 引入工业领域。霍尼韦尔是一家多元化高科技和制造企业,其业务涉及:航空产品和服务、楼宇、家庭和工业控制技术、汽车产品、涡轮增压器以及特殊材料等。霍尼韦尔首席执行官表示,人工智能可以帮助该公司解决劳动力短缺问题。
10/21/2024 9:19:03 PM
沛霖(实习)

把 AI 放进《我的世界》服务器:GPT-4o 杀牛宰羊,Claude3.5 把家拆了

把《我的世界》交给大模型,会怎么样?GPT-4o 鲨牛宰羊,Claude3.5 不停在人类身旁放炸药包和敌人,还把家拆了。GPT-4o mini 玩《我的世界》belike: 来到游戏里面,GPT-4o mini(玩家 karolina)一开始还蛮礼貌的:你好世界!
10/21/2024 1:11:17 PM
清源

谷歌 Gemini Code Assist Enterprise 正式上线,可根据企业内部代码库生成 AI 见解

据谷歌官方新闻稿,谷歌 Gemini Code Assist Enterprise 企业 AI 现已正式上线,该 AI 工具号称可以帮助海外企业深入分析内部代码库,生成定制化的代码建议,帮助企业开发者充分利用各大谷歌云服务工具加速软件开发流程。AI在线获悉,Gemini Code Assist Enterprise 是谷歌 Gemini Code Assist 的企业定制版本,谷歌提到,标准版 Gemini Code Assist 主要侧重于根据开发者的上下文自动生成代码建议,而这一企业版主要根据企业内部的代码库生成代码建议,便于企业其他开发者维护。谷歌强调,Gemini Code Assist Enterprise 所使用的 Gemini 模型可以处理更多的上下文 Token,因此能够帮助开发者完成更复杂的任务(例如跨项目自动升级 Java 版本)。
10/19/2024 2:11:47 PM
漾仔

扎克伯格:联想基于 Meta Llama 大模型构建个人 AI 智能体 AI Now

感谢联想集团今日在美国西雅图召开年度 Tech World 大会。联想 CEO 杨元庆在主题演讲中,与 Meta 创始人兼 CEO 马克・扎克伯格一道宣布,联想与 Meta 合作基于 Llama 大模型推出面向 PC 的个人 AI 智能体 ——AI Now。扎克伯格通过视频在主题演讲上表示,联想与 Meta 已经合作多年,推出了许多卓越的创新成果,将突破性的 AI 和混合现实技术带给更多人,共同构建一个更加智能的未来。
10/16/2024 7:33:12 AM
-

苹果研究人员质疑 AI 的推理能力:简单数学问题稍作改动就会答错

近年来,人工智能(AI)在各个领域取得了显著的进展,其中大型语言模型(LLM)能够生成人类水平的文本,甚至在某些任务上超越人类的表现。然而,研究人员对 LLM 的推理能力提出了质疑,他们发现这些模型在解决简单的数学问题时,只要稍加改动,就会犯错误,这表明它们可能并不具备真正的逻辑推理能力。图源 Pexels周四,苹果公司的一组研究人员发布了一篇名为《理解大型语言模型中数学推理的局限性》的论文,揭示 LLM 在解决数学问题时容易受到干扰。
10/12/2024 8:51:38 AM
远洋

中国科学院团队发布GeneCompass:解析基因调控密码,打造干湿融合新范式

作者 | 中国科学院多学科交叉研究团队编辑 | ScienceAI近年来,大语言模型(LLMs)已在自然语言、计算机视觉等通用领域引发了新一轮技术革命,通过大规模语料和模型参数进行预训练,LLMs能够掌握语言的共性规律,能够对多种下游任务产生质的提升,已经形成了新的人工智能范式。在生命科学领域,单细胞组学技术的突破产生了大量不同物种细胞的基因表达谱数据,形成了海量的生命「语料」。如果把基因表达值看作单词,组合在一起构成细胞「句子」,进而形成组织「段落」和器官「文章」,并将不同物种作为生命「语种」,利用LLMs相关技
10/8/2024 2:03:00 PM
ScienceAI

Sebastian Raschka最新博客:从头开始,用Llama 2构建Llama 3.2

十天前的 Meta Connect 2024 大会上,开源领域迎来了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。两个版本都是纯文本模型,但也具备多语言文本生成和工具调用能力。Meta 表示,这些模型可让开发者构建个性化的、在设备本地上运行的通用应用 —— 这类应用将具备很强的隐私性,因为数据无需离开设备。近日,机器学习研究员 Sebastian Raschka 光速发布长篇教程《Converting Llama 2 to Llama 3.2 From Scratch》。博文链接:《
10/6/2024 7:00:00 PM
机器之心

安卓版谷歌 Gemini Live 将支持 40 多种语言,提供 AI 语音聊天功能

谷歌公司于 10 月 1 日在 X 平台发布推文,宣布 Gemini 应用现面向所有安卓用户开放 Gemini Live 功能。谷歌官方称,Gemini Live 将支持 40 多种语言,首先推出法语、德语、葡萄牙语、印地语和西班牙语,之后还会推出更多语言。谷歌 Gemini Live 将支持在同一设备上使用最多两种语言进行对话,用户如要使用 Gemini Live,设置中的第一语言必须是以下受支持的语言之一:德语(比利时)德语(德国)德语(瑞士)德语(奥地利)英语(澳大利亚)英语(印度)英语(英国)英语(美国)西
10/6/2024 6:18:28 PM
归泷(实习)

谷歌最便宜 AI 模型 Gemini 1.5 Flash 8B 将商用:腰斩击穿价 0.15 美元买百万 tokens 输出

科技媒体 NeoWin 昨日(10 月 4 日)发布博文,报道称谷歌公司即将商用 Gemini 1.5 Flash 8B 模型,成为谷歌公司最便宜的 AI 模型。AI在线曾于今年 8 月报道,谷歌公司推出 3 款 Gemini 实验性模型,其中 Gemini 1.5 Flash 8B 是 Gemini 1.5 Flash 的更小尺寸模型,拥有 80 亿参数,专为多模态任务而设计,包括大容量任务和长文本摘要任务。相比较原版 Gemini 1.5 Flash,Gemini 1.5 Flash 8B 延迟更低,特别适合聊
10/5/2024 12:40:26 PM
故渊

安卓平台吃上 AI,谷歌 Gemini Nano 轻量模型面向开发者开启测试

随着 AI 技术不断发展,移动设备上的人工智能功能正愈发重要,谷歌公司现已向安卓开发者开放 Gemini Nano 轻量 AI 模型试用,该模型主要适用于性能较低的手机 / 平板电脑,开发者现在可以使用谷歌提供的 AI Edge SDK 轻松为自家应用整合该模型。Gemini Nano 隶属 Google Gemini 模型家族,号称专为设备端轻量级任务设计,提供灵活且高效的 AI 功能,其推理任务完全在设备端完成,无需连接云端服务器,因此拥有“保障隐私”、“无需联网”、“无需订阅”三大优势。Gemini Nano
10/3/2024 9:15:31 AM
漾仔