AIGC宇宙 AIGC宇宙

大模型

谷歌 Gemini 突发试验版模型:重回竞技榜第一,新版 GPT-4o 只领先了 1 天

在新版 GPT-4o 刚登顶竞技榜后 1 天,立马发布最新试验版模型 Gemini-Exp-1121 夺回冠军宝座。要知道,一周前上一版模型 Gemini-Exp-1114 才发布。这怕不是拿准了 OpenAI 会来争擂台,故意留了一手。
11/22/2024 12:45:30 PM
汪淼

写给小白的大模型入门科普

什么是大模型? 大模型,英文名叫Large Model,大型模型。 早期的时候,也叫Foundation Model,基础模型。
11/22/2024 10:45:20 AM
小枣君

没有思考过 Embedding,谈何 RAG,更不足以谈 AI大模型

今天,我们来聊聊 AI 大模型,有一个非常重要概念 "Embedding"。 你可能听说过它,也可能对它一知半解。 如果你没有深入了解过 Embedding,那你就无法真正掌握 RAG 技术,更不能掌握 AI 大模型精髓所在。
11/21/2024 3:44:21 PM
渔夫

收敛速度最高8倍,准确率提升超30%!华科发布MoE Jetpack框架 | NeurIPS 2024

混合专家模型(MoE, Mixture of Experts)是一种通过动态激活网络的部分结构来提升计算效率的架构,可以在保持相对稳定的计算成本的前提下大幅增加参数量,从而有效提升模型性能。 这一特性使得MoE能够兼顾模型的规模与效率,已广泛应用于各种大规模任务。 然而,MoE模型通常需要在大型数据集上预训练以获得理想性能,导致其对时间和计算资源的需求极高,这也限制了其在深度学习社区中的普及性。
11/21/2024 10:21:06 AM
新智元

405B大模型也能线性化!斯坦福MIT最新研究,0.2%训练量让线性注意力提分20+

生产级大模型应用线性注意力的方法,来了。 线性Attention(包括RNN系列),再也不用困在几B参数的范围内娱乐了。 一套方法,即可线性化现有各种量级的Transformer模型,上至Llama 3.1 405B,也只需要十来张显卡在两天内搞定!
11/21/2024 8:39:08 AM
新智元

微调大型语言模型(LLM)的五个技巧

译者 | 李睿审校 | 重楼数据质量、模型架构以及偏见缓解方面的专家建议开发人员可以掌握LLM微调来提高人工智能开发的性能和效率。 为什么微调至关重要大型语言模型(LLM)配备了处理广泛任务的通用能力,包括文本生成、翻译、提取摘要和回答问题。 尽管LLM的性能表现非常强大,但它们在特定的任务导向型问题或特定领域(例如医学和法律等)上仍然效果不佳。
11/21/2024 8:22:45 AM
李睿

昆仑万维推出“天工大模型 4.0”4o 版及实时语音助手 Skyo,号称可克服大模型幻觉

今天上午,昆仑万维宣布推出“天工大模型4.0”4o版(Skywork 4o)以及新产品“实时语音对话助手Skyo”。
11/20/2024 6:15:47 PM
清源

谷歌 Gemini 引入“记忆”功能:AI 记住用户偏好、习惯,提供更贴心服务

科技媒体 TechCrunch 昨日(11 月 19 日)发布博文,报道称谷歌开始向 Gemini Advanced 用户,推出“记忆”(memory)功能,可以记住用户的生活细节、工作习惯以及个人偏好。
11/20/2024 1:54:51 PM
故渊

年度世界互联网科技大奖公布,腾讯Angel机器学习平台获领先科技奖

11月19日,2024年世界互联网大会领先科技奖在乌镇发布,腾讯Angel机器学习平台凭借其卓越的技术积累、创新的关键技术和广泛的应用场景,荣获本年度领先科技奖。 腾讯Angel 机器学习平台,突破了万亿级模型分布式训练和推理以及大规模应用部署等难题,率先实现大模型技术从底层硬件到关键软件技术的自主研发,在业务场景广泛应用,显著推动实体产业和数字经济发展,提升社会效率。 世界互联网大会领先科技奖由世界互联网大会主办,旨在奖励全球年度最具领先性的互联网科技成果,倡导互联网技术国际交流合作。
11/20/2024 11:13:00 AM
新闻助手

谷歌回应 Gemini 聊天机器人回复“人类去死吧”:已采取措施防止类似事件再次发生

人工智能聊天机器人再次引发争议。一名用户在使用谷歌的 AI 聊天机器人 Gemini 时,收到了极其可怕的回复:“人类请去死吧。”谷歌方面承认了这一事件,将其归咎于一次“无意义”的回应,并表示这违反了他们的安全指南。该公司已采取措施,以防止类似事件再次发生。
11/19/2024 3:23:43 PM
远洋

LLM为何频频翻车算术题?研究追踪单个神经元,「大脑短路」才是根源

由于缺少对运行逻辑的解释,大模型一向被人称为「黑箱」,但近来的不少研究已能够在单个神经元层面上解释大模型的运行机制。 例如Claude在2023年发表的一项研究,将大模型中大约500个神经元分解成约4000个可解释特征。 而10月28日的一项研究,以算术推理作为典型任务,借鉴类似的研究方法,确定了大模型中的一个模型子集,能解释模型大部分的基本算术逻辑行为。
11/19/2024 12:53:50 PM
新智元

AlphaFold3级性能、开源、可商用,MIT团队推出生物分子预测模型Boltz-1

图示:来自测试集的靶标上的 Boltz-1 的示例预测。 (来源:论文)编辑 | 萝卜皮2024 年 11 月 18 日,麻省理工学院(MIT)的研究人员宣布推出 Boltz-1,这是一个开源模型,旨在准确模拟复杂的生物分子相互作用。 Boltz-1 是第一个完全商业化的开源模型,在预测生物分子复合物的 3D 结构方面达到 AlphaFold3 级精度。
11/19/2024 11:59:00 AM
ScienceAI

提升人工智能性能的三种关键的LLM压缩策略

译者 | 布加迪审校 | 重楼在当今快节奏的数字环境中,依赖人工智能的企业面临着新的挑战:运行人工智能模型的延迟、内存使用和计算能力成本。 随着人工智能快速发展,幕后推动这些创新的模型变得越来越复杂、资源密集。 虽然这些大模型在处理各种任务中取得了出色的性能,但它们通常伴随着很高的计算和内存需求。
11/19/2024 8:08:16 AM
布加迪

谷歌又捣鼓出好东西!有了这款AI学习神器,考试起码多考50分

AI好好用报道编辑:杨文谷歌AI版「十万个为什么」,让学习不再是「苦差事」。 谷歌真的藏了不少好东西! 继火遍全网的 NotebookLM 后,谷歌又「献」出了另一款实用型工具 ——Learn About!
11/18/2024 5:09:00 PM
AI好好用

谷歌 Gemini AI 被曝给出离谱回应:让用户“去死”

一位 Reddit 用户上周在 r / artificial 版块中发帖称,谷歌的人工智能模型 Gemini 在一次互动中,竟直接对用户(或者是整个人类)发出了“去死”的威胁。
11/18/2024 5:07:22 PM
远洋

Grok 3证明黎曼猜想,训练遭灾难性事件?数学家称不夸张,两年内AI将解出千禧年难题

黎曼猜想,竟被Grok 3「证明」了? 为此,xAI暂停了Grok 3的训练来验证它的证明,如果结果是正确的,将会完全终止模型的训练。 xAI工程师Hieu Pham在社交媒体的最新「爆料」,成为AI圈最火爆的话题。
11/18/2024 2:10:00 PM
新智元

视频大模型无损提速:删除多余token,训练时间减少30%,帧率越高效果越好 | NeurIPS

把连续相同的图像块合并成一个token,就能让Transformer的视频处理速度大幅提升。 卡内基梅隆大学提出了视频大模型加速方法Run-Length Tokenization(RLT),被NeurIPS 2024选为Spotlight论文。 在精度几乎没有损失的前提下,RLT可以让模型训练和推理速度双双提升。
11/18/2024 11:20:00 AM
量子位

Nature:「人类亲吻难题」彻底难倒LLM,所有大模型全部失败!LLM根本不会推理,只是工具

LLM究竟是否拥有类似人类的符合理解和推理能力呢? 许多认知科学家和机器学习研究人员,都会认为,LLM表现出类人(或「接近类人」)的语言能力。 然而,来自帕维亚大学、柏林洪堡大学、得克萨斯大学休斯顿健康科学中心、纽约大学、巴塞罗那自治大学的研究者却提供了一些最全面的证据,表明目前它们基本没有!
11/18/2024 9:30:00 AM
新智元