大模型
国产推理大模型决战2025考研数学,看看谁第一个上岸?
随着上个月 2025 研究生考试的结束,最新的考研数学真题成为大语言模型尤其是推理模型的「试炼场」,将考验它们的深度思考能力。 业内曾有着这样一种共识:大语言模型在文字水平上的表现令人印象深刻,但说到数学就不甚令人满意了。 去年一度火出圈的「9.9 与 9.11」比大小的问题,包括 GPT-4o 在内的很多大模型都翻车了,直到深度推理模型出现后才从根本上改善了这一状况。
1/14/2025 1:51:18 PM
物理学家发现新型量子粒子!表现介于玻色子费米子之间 | Nature
新型量子粒子出现了,相关论文已经登上Nature。 事情是这样的,美国布朗大学物理学家发现了一类既不属于玻色子,也不属于费米子的新粒子,这种粒子的表现介于两种基本粒子之间,被称为“分数激子”。 研究人员表示,这种新粒子不携带整数电荷,却遵循独特的量子统计规律。
1/14/2025 12:28:01 PM
量子位
霉霉用中文拜早年!国风年味视频免费生成,可任意切换主角,0帧起手小白友好
新一年,霉霉也来送祝福啦,完全中文版哦。 几十米高的大熊猫爬上了长城。 鱼尾狮成了它把玩的玩具。
1/13/2025 1:50:25 PM
量子位
会用AI才能多发论文,LLM助力科研效率提升!新研究登Nature子刊
都说大模型被广泛应用于学术研究的文献回顾、摘要筛选和稿件撰写等方面,然而具体多少人在使用、如何使用,却缺少定量的调查研究。 为此,研究人员进行了一项调查,识别受访者们在学术研究和发表中使用大模型的情况。 以评估全球研究人员对大模型的认知水平。
1/13/2025 1:00:00 PM
新智元
基于阿里开源Qwen2.5-7B-Instruct模型进行多代理RAG开发实战
译者 | 朱先忠审校 | 重楼引言大型语言模型已经展现出令人印象深刻的能力,并且随着每一代新模型的发布,它们仍在稳步改进。 例如,聊天机器人和自动摘要器等应用程序可以直接利用LLM的语言能力,因为这些LLM只要求生成文本输出——这也是该类模型的自然设置。 此外,大型语言模型还表现出了理解和解决复杂任务的令人印象深刻的能力,但是只要它们的解决方案保持“纸上谈兵”,即纯文本形式,那么它们就需要外部人类用户代表它们行事并报告所提议操作的结果。
1/13/2025 10:55:53 AM
朱先忠
LLM注意力Attention,Q、K、V矩阵通俗理解
QKV的重要性要理解大语言模型效果的底层实现原理,很大一部分就是理解Transformers Block里面的QKV矩阵。 现在前沿的大模型研究工作很大一部分都是围绕着QKV矩阵去做的,比如注意力、量化、低秩压缩等等。 其本质原因是因为QKV权重占比着大语言模型50%以上的权重比例,在推理过程中,QKV存储量还会随着上下文长度的增长而线性增长,计算量也平方增加。
1/13/2025 8:23:07 AM
咚咚呛
GAN已死?GAN万岁!布朗康奈尔新作爆火,一夜碾压扩散模型
GAN已死? 不,GAN又回来了! 此前曾掀起AI圈巨大风暴的GAN,后来却逐渐沉寂了,甚至有人发出了「GAN已死」的论调。
1/13/2025 8:20:00 AM
新智元
OpenAI 不装了?左手赚钱,右手就一定有「神奇药水」吗?
近期,OpenAI CEO Sam Altman 一反此前的「故弄玄虚」「卖关子」,在其博客文章中明确表示,「已经知道如何构建通用人工智能(AGI)」。 为何 Sam Altman 这次如此笃定地表示已经明确知道如何做 AGI? 要知道,在此前 OpenAI 官方发布的 AGI 路线图中,OpenAI 表示目前尚在 AGI 的 L2(推理者)阶段,在朝着 L3 阶段前进。
1/13/2025 8:00:00 AM
机器之心
突破瓶颈!北航ETH等将扩散模型完全量化至1bit,28倍存储节省+52.7倍效率提升
将扩散模型量化到1比特极限,又有新SOTA了! 来自北航、ETH等机构的研究人员提出了一种名为BiDM的新方法,首次将扩散模型(DMs)的权重和激活完全二值化。 具体而言,作者们从时间和空间的角度对扩散模型进行了优化:从时间角度来看,引入了“时间步友好二值结构”(TBS),通过可学习的激活二值化器和跨时间步特征连接来应对DMs高度时间步相关的激活特征。
1/13/2025 7:00:00 AM
量子位
不停PUA大模型「写更好点」,无需其它花哨技术就能让AI代码水平暴增
AI 的编程能力已经得到了证明,但还并不完美。 近日,BuzzFeed 的资深数据科学家 Max Woolf 发现,如果通过提示词不断要求模型写更好的代码(write better code),AI 模型还真能写出更好的代码! 这篇文章在网络上引发了热议,著名 AI 科学家在看完这篇文章中更是发出了 matters 三连:迭代很重要,提示词设计很重要,代码执行能力很重要。
1/11/2025 3:37:00 PM
机器之心
英伟达迷你超算遭友商嘲讽:宣传FP4算力,实际“不如买个游戏电脑”
老黄在CES上发布的迷你超算Project DIGITS,开启了AI超算的PC时刻。 但随即也引发了不小争议,还遭到了大佬的贴脸嘲讽。 在AMD和英特尔都工作过的芯片设计专家Raja Koduri实名吐槽道:FLOPs除以4,价格翻倍,这就是在CES上stay grounded的秘诀。
1/10/2025 2:15:47 PM
量子位
AMD把o1炼成了实验室助手,自动科研经费节省84%
芯片强者AMD最新推出科研AI,o1-preview竟成天选打工人? 注意看,只需将科研idea和相关笔记一股脑丢给AI,研究报告甚至是代码就能立马出炉了。 这个AI系统代号“Agent Laboratory”,全程由LLM(大语言模型)驱动完成文献综述、实验,以及报告,一站式搞定科学研究。
1/10/2025 2:14:44 PM
企业软件是否已告别“太贵”时代?
在不太遥远的未来,GenAI将使企业软件领域以往无法实现或成本过高的功能成为可能。 GenAI,尤其是大型语言模型(LLM),正在改变公司开发和交付软件的方式。 从聊天机器人和简单自动化工具开始的这一进程,正在发展成为功能更为强大的AI系统——这些系统与软件架构深度融合,并影响从后端流程到用户界面的方方面面。
1/10/2025 2:03:38 PM
让Qwen2.5 7B超越o1,微软干的!MSRA推出小模型数学推理自我进化新方法
7B参数的Qwen2.5数学推理表现超过o1-preview,这是怎么做到的? ! 靠的就是MSRA最新的创新算法,rStar-Math。
1/10/2025 11:42:40 AM
量子位
个人跑大模型,英伟达「皮衣刀客」新出的Project DIGITS与M4 Mac Mini到底哪个好?
前些天,英伟达发布了一大堆东西,其中包括一款 AI 超级计算机 Project DIGITS,机器之心也在第一时间进行了报道,参阅《RTX5090 震撼发布,国行 16499 元起,黄仁勋「美国队长」pose 亮翻全场》。 在这篇文章的评论区,一位读者的问题引发了不少争议。 虽然该问题的最高赞回复表示这是「英伟达被黑得最惨的一次」,但实际上使用 Mac Mini 作为个人的大模型运行平台并不是什么罕见操作。
1/10/2025 11:39:39 AM
机器之心
Anthropic新研究:用统计思维评估大模型
目前,评估大模型的方法就是比在基准测试中的数值,在于突出SOTA结果,并未充分考虑统计显著性。 例如,在对不同模型进行评估时,若仅依据表面的得分高低判断优劣,而不考虑数据的不确定性和变异性,可能会得出不准确的结论。 所以,Anthropic提出了将严谨的统计思维引入大模型评估领域。
1/10/2025 10:30:00 AM
AIGC开放社区
真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!
近日,英伟达CEO黄仁勋在今年CES的演讲无疑让整个科技圈为之沸腾。 他先是向全世界展示了搭载Blackwell新架构的新一代卡皇RTX 5090,然后介绍了英伟达对于人形机器人发展的期盼和投入,并以令人印象深刻的画面结尾——「来自银河通用的全场唯一一台轮式具身大模型机器人Galbot G1将RTX 5090缓缓托起。 」发布会结束后,黄仁勋更是第一时间亲自来到银河通用所在的展区,与Galbot机器人进行真机互动。
1/10/2025 9:30:00 AM
新智元
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
模态
字节跳动
Claude
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
科技
亚马逊
智能体
DeepMind
特斯拉