大模型
终于等到你!港大首发「轻量级RAG神器」MiniRAG,1.5B手机端可用
传统RAG架构主要依赖大型语言模型(LLMs)的强大能力,但这种设计难以适应小型语言模型(SLMs)的固有局限,特别是在复杂查询理解、多步推理、语义匹配和信息合成等关键环节。 为此,MiniRAG重新设计了信息检索和生成流程,以极简和高效为核心原则,通过创新的轻量级架构设计,成功实现了一个高效的知识增强系统,无需依赖大型语言模型,在保证性能表现的同时有效保护用户数据隐私。 主要设计思路基于对小型语言模型的三个关键发现:虽然在复杂语义理解上存在局限,但在模式匹配和局部文本处理方面表现优异通过引入显式结构信息,可有效弥补有限的语义理解能力将复杂RAG任务分解为简单明确的子任务,可在不依赖高级推理能力的情况下保持系统稳定性基于以上认知,MiniRAG提出了两个核心创新组件:异构图索引和轻量级基于图的知识检索,以实现高效精准的信息检索。
1/16/2025 2:38:10 PM
新智元
突发,美国开始拉黑国产大模型公司!智谱官方回应:手握全链路大模型核心技术,无实质影响!一天内25家中企被列入实体名单!
编辑 | 伊风月初,腾讯被美国国防部列进了“中国军工企业清单”(1260H 清单)已经够离谱了! 没想到刚过去10天,更离谱的事情出现了:大模型公司也登上了美国黑名单! 昨晚深夜,美国商务部工业和安全局(BIS)修订了实体清单,其中大模型六小虎之一的智谱公司赫然在列。
1/16/2025 1:24:32 PM
伊风
文档解析技术指南:从传统Pipeline到端到端大模型
众多文档,如技术手册、历史档案、学术论文和法律文件,往往以扫描件或图片形式存在。 这对检索增强生成(Retrieval-Augmented Generation, RAG)、内容提取以及文档解读等后续处理工作构成了极大的挑战。 文档解析技术应运而生,它能够识别并提取文档中的多种元素,如文字、公式、表格和图片,同时保持它们之间的结构联系。
1/16/2025 10:11:58 AM
追求卓越的
ChatGPT全年更新大总结!重看「大模型风向标」进化之路
2024年,大模型已经深入融入了我们的日常生活。 而作为领跑者,ChatGPT也一直是大模型届的指南针,无论是去年发布的大模型o1-pro,Sora Turbo,还是各种小功能,比如视频模式、打断说话等,甚至是每月200美元的高额定价,OpenAI的每一场发布会都能给广大AI爱好者带来一些新震撼、新思路。 下面共同回顾一下OpenAI在2024年发布的关键更新,一起见证大模型的进化之路!
1/16/2025 9:30:00 AM
新智元
Transformer作者初创重磅发布Transformer²!AI模型活了,动态调整自己权重
从章鱼通过改变皮肤颜色来融入周围环境,到人类大脑在受伤后重新连接神经网络,无不体现着那句经典的名言——「物竞天择,适者生存」。 然而,对于LLM来说,想要加入哪怕只是一句话的新知识,都必须要再训练一次。 针对这一挑战,来自Sakana AI的研究团队刚刚提出了一种全新的方法——Transformer²。
1/16/2025 8:30:00 AM
新智元
Transformer²要做「活」的AI模型,动态调整权重,像章鱼一样适应环境
在自然界,「适应」是一种非常普遍的现象。 例如,章鱼能够迅速改变自身的肤色和纹理,以融入周围环境,从而躲避天敌和捕捉猎物;人脑在受伤后能够重新连接自身神经回路,使个体能够恢复失去的功能并适应新的思维方式或行动方式。 生物体展现出的适应能力使得生命能够在不断变化的环境中蓬勃发展。
1/15/2025 3:11:39 PM
机器之心
上海 AI 实验室书生・浦语大模型升级:仅用 4T 数据训练而成,通用模型首次融合常规对话与深度思考
IT之家从上海人工智能实验室获悉,其书生大模型今日获得重要版本升级——书生·浦语3.0(InternLM3)。据官方介绍,其通过精炼数据框架大幅提升了数据效率,实现思维密度的跃升。
1/15/2025 3:03:47 PM
清源
字节跳动2024奖学金公布:清华北大等八院校15名博士获奖
1月14日,字节跳动公众号公布“第四届字节跳动奖学金”评选结果,来自北京大学、北京邮电大学、清华大学、香港大学、香港城市大学、新加坡管理大学、新加坡国立大学、浙江大学(按拼音首字母排序)的15名在校生获奖,每人获得奖学金10万元人民币。 字节跳动奖学金计划是字节跳动于2021年发起的一年一期的人才培养项目。 过去三届,共有32位优秀学子获得了奖学金支持。
1/15/2025 3:01:00 PM
新闻助手
Retinex-Diffusion:让图像照明更加自然、细腻、富有层次感。
本文经AIGC Studio公众号授权转载,转载请联系出处。 这项研究主要是针对如何智能控制图像中的光照,采用了一种不需要重新训练模型的新方法。 简而言之,研究人员利用一种叫作Retinex理论的方法,先识别出图像中的光照元素,然后用这些元素来指导图像生成模型。
1/15/2025 10:00:00 AM
AIGC Studio
ScribbleDiff:使用涂鸦精细引导扩散,实现无需训练的文本到图像生成。
ScribbleDiff可以通过简单的涂鸦帮助计算机生成图像。 比如你在纸上随意画了一些线条,表示你想要的图像的轮廓。 ScribbleDiff会利用这些线条来指导图像生成的过程。
1/15/2025 9:28:42 AM
AIGC Studio
图数据库的剪枝在大型语言模型中的知识表示
译者 | 李睿审校 | 重楼图数据库的剪枝通过删除不必要的信息并加以改进,可以使LLM更快、更高效,同时节省电力和资源。 大型语言模型(LLM)通过从庞大的数据集中学习复杂的语言模式,极大地推进了自然语言处理(NLP)的发展。 然而,当这些模型与结构化知识图谱(用于表示实体之间关系的数据库)结合在一起时,可能面临一些挑战。
1/15/2025 7:52:53 AM
李睿
2025,大厂们的「大模型牌桌」战
随着大模型六小虎在AGI上的后撤第一枪被正式打响,中国大模型行业的分水岭快速露出水面、更加清晰。 初创公司在下一代超大规模模型竞争中的局限性开始被广泛关注,大厂「不下桌」的资本筹码变得更加明显。 无论是百度宣布2025年将推出下一代基座模型,还是阿里、字节在AI人才和资金上的继续投入,潮水退去,大模型在决胜战场的主导权还是来到了大厂手中。
1/14/2025 2:52:00 PM
陈彩娴
同时提升摄像机控制效率、视频质量,可控视频生成架构AC3D来了
可控的视频生成需要实现对摄像机的精确控制。 然而,控制视频生成模型的摄像机运动(camera control)总是不可避免地伴随着视频质量的下降。 近期,来自多伦多大学、Vector Institute、Snap Research 和西蒙・弗雷泽大学(SFU)的研究团队推出了 AC3D (Advanced 3D Camera Control)。
1/14/2025 2:02:05 PM
机器之心
思维链?思维树?华为诺亚:现在到了思维森林时刻!
OpenAI 接连发布 o1 和 o3 模型,大模型的高阶推理能力正在迎来爆发式增强。 在预训练 Scaling law “撞墙” 的背景下,探寻新的 Scaling law 成为业界关注的热点。 高阶推理能力有望开启新的 Scaling law,为大模型的发展注入新的活力。
1/14/2025 1:52:56 PM
国产推理大模型决战2025考研数学,看看谁第一个上岸?
随着上个月 2025 研究生考试的结束,最新的考研数学真题成为大语言模型尤其是推理模型的「试炼场」,将考验它们的深度思考能力。 业内曾有着这样一种共识:大语言模型在文字水平上的表现令人印象深刻,但说到数学就不甚令人满意了。 去年一度火出圈的「9.9 与 9.11」比大小的问题,包括 GPT-4o 在内的很多大模型都翻车了,直到深度推理模型出现后才从根本上改善了这一状况。
1/14/2025 1:51:18 PM
物理学家发现新型量子粒子!表现介于玻色子费米子之间 | Nature
新型量子粒子出现了,相关论文已经登上Nature。 事情是这样的,美国布朗大学物理学家发现了一类既不属于玻色子,也不属于费米子的新粒子,这种粒子的表现介于两种基本粒子之间,被称为“分数激子”。 研究人员表示,这种新粒子不携带整数电荷,却遵循独特的量子统计规律。
1/14/2025 12:28:01 PM
量子位
霉霉用中文拜早年!国风年味视频免费生成,可任意切换主角,0帧起手小白友好
新一年,霉霉也来送祝福啦,完全中文版哦。 几十米高的大熊猫爬上了长城。 鱼尾狮成了它把玩的玩具。
1/13/2025 1:50:25 PM
量子位
会用AI才能多发论文,LLM助力科研效率提升!新研究登Nature子刊
都说大模型被广泛应用于学术研究的文献回顾、摘要筛选和稿件撰写等方面,然而具体多少人在使用、如何使用,却缺少定量的调查研究。 为此,研究人员进行了一项调查,识别受访者们在学术研究和发表中使用大模型的情况。 以评估全球研究人员对大模型的认知水平。
1/13/2025 1:00:00 PM
新智元
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
论文
英伟达
Anthropic
代码
训练
算法
Stable Diffusion
芯片
蛋白质
开发者
LLM
腾讯
生成式
Claude
苹果
AI新词
Agent
神经网络
AI for Science
3D
机器学习
研究
生成
xAI
人形机器人
AI视频
计算
Sora
GPU
AI设计
百度
华为
工具
大语言模型
搜索
具身智能
场景
RAG
字节跳动
大型语言模型
深度学习
预测
伟达
视觉
Transformer
视频生成
AGI
架构
神器推荐
亚马逊
Copilot
DeepMind
应用
安全