AIGC宇宙 AIGC宇宙

大模型

为什么AI需要向量数据库?

大模型火遍全球,DeepSeek、OpenAI、谷歌、百度、抖音等科技巨头争相发布自家产品。 多数人会想当然认为,大模型越大越强大,参数量越多就越聪明。  现实呢?
4/3/2025 11:04:40 AM

大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

一个7B奖励模型搞定全学科,大模型强化学习不止数学和代码。 o1/r1的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构化程度高,奖励函数/奖励模型比较好设计。 那么,想提升大模型在其他学科领域的能力该怎么办?
4/3/2025 9:23:08 AM
量子位

AI算法 | 训练数据的数量、质量及语言分布等因素对中文大模型性能的影响

已有LLM研究探索了训练数据对模型性能的影响,但这些研究大多集中在英文模型上,对于中文模型的研究相对较少。 今天来看一篇来自贝壳的研究团队在2023年的一篇工作——《Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation》。 这篇工作的核心目标是提升中文指令跟随语言模型的性能。
4/3/2025 7:00:00 AM
Goldma

万卡集群真实部署,已节省数百万 GPU 小时!MoE 通信优化技术 COMET 开源

当前,MoE 架构是业界拓展模型规模的重要方向,然而,其在分布式训练中存在的大量通信开销,仍严重制约了训练效率和成本。 为攻克这一瓶颈,豆包大模型团队提出了一个全新的通信优化系统 COMET,通过更精准、细粒度的计算-通信重叠技术,在大规模 MoE 模型上可达到单层 1.96 倍加速,端到端平均 1.71 倍效率提升,且在不同并行策略、输入规模及硬件环境下均表现稳定。 目前,COMET 已实际应用于万卡级生产集群,助力 MoE 模型高效训练,并已累计节省了数百万 GPU 小时资源。
4/3/2025 12:00:00 AM
豆包大模型团队

超实用!Prompt程序员使用指南,大模型各角色代码实战案例

提示词(Prompt)是输入给大模型(LLM)的文本指令,用于明确地告诉大模型你想要解决的问题或完成的任务,也是大语言模型理解用户需求并生成准确答案的基础。 因此 prompt 使用的好坏,直接决定了大模型生成结果的质量(是否符合预期)。 图片Prompt 基本使用为了让大模型生成更符合预期的结果,我们在使用 Prompt 时,可以使用以下模版。
4/3/2025 12:00:00 AM
磊哥

人工智能应用就是大模型能力+场景,基于大模型构建应用,首先要了解大模型的能力圈

在关于大模型应用方面,虽然也了解和应用过其中的一些技术;但经过这段时间的实践和思考发现,对大模型应用的认识还很浅显,因此在此记录一下自己的思考。 大模型应用的思考大模型作为人工智能应用的底座技术,所有应用场景和技术都是构建在大模型之上;但很多时候我们都搞错了一件事,那就是我们没有搞清楚大模型能力和其它技术的关联和区别。 因此,在这里我们要搞清楚一个概念,那就是大模型能力;所谓大模型的能力,就是模型开发人员怎么把模型做的更好更强,其中设计到模型的设计,训练等;具体有神经网络架构,模型蒸馏等等。
4/2/2025 8:40:00 AM
DFires

大模型应用的能力分级

对大模型应用的能力分级就像给学生打分一样,能让我们更清楚它的本事有多大。 能力分级能帮我们设定目标,知道AI现在能干什么,未来还要学什么。 有了统一的分级方式,大家就能公平比较不同AI的水平,推动技术进步。
4/2/2025 1:25:00 AM
曹洪伟

关于大模型智能体意图识别不准确问题:function call 的缺陷

最近在研究大模型智能体也就是Agent的过程中,遇到了一个很严重的问题,直接影响到Agent的质量和效果;那就是意图识别不准确,也可以说是Agent的幻觉问题。 其产生的原因就在于大模型有时无法准确识别出用户意图,无法准确调用相应的函数。 意图识别不准确现在大模型技术在应用方面,主要有两大方向;其一就是大模型的创作能力,简单来说就是内容生成方面,如生成图片,文字,视频,也包括RAG等。
4/1/2025 12:10:00 PM
DFires

AI算法 | 如何训练自己的大模型?

1、第一阶段:二次预训练模型选择与转换在开始训练之前,需要选择一个合适的基础模型。 本文以LLaMA-7B为例,简单介绍下。 为了方便后续的操作,将LLaMA-7B模型转换为Hugging Face格式。
4/1/2025 9:54:09 AM
Goldma

阿里云与南京大学联合启动人工智能人才培养合作计划

南京大学与阿里云正式宣布启动一项人工智能人才培养合作计划,旨在共同培养适应未来技术变革、具备跨学科思维的 AI 创新人才。 该合作充分利用了阿里云在云计算和人工智能领域的技术优势,以及南京大学在相关学科的深厚底蕴。 根据协议,南京大学与阿里云将共同设计一系列前瞻性和应用性的人工智能通识课程,同时研发跨学科融合的大模型应用实践课程。
3/31/2025 2:51:00 PM
AI在线

面壁智能 CEO 李大海:汽车比手机更适合端侧模型落地

李大海指出,因为汽车这个场景,用户的手天然就会在方向盘上,用户更需要用语音去跟座舱交互,同时座舱也有更多的传感器能够去感知环境。相比之下,手机反而没有这样的条件,所以,汽车反而是端侧模型落地更好的产品。(新浪科技)
3/30/2025 4:14:33 PM
-

阿里通义千问 QwenQ-32B 上线 中科院科研项目大规模接入

近日,阿里巴巴宣布其最新的开源大模型 —— 通义千问 QwenQ-32B,已在多个中科院科研项目中得到广泛应用。 这一创新标志着人工智能在科研领域的进一步深入,尤其是在气候变化和水资源管理方面的潜力。 中国科学院国家天文台、青藏高原研究所和南海海洋研究所等单位,均已开始利用 QwenQ-32B 进行科研项目。
3/27/2025 5:56:00 PM
AI在线

必看!SpringAI轻松构建MCP Client-Server架构

MCP 这个概念相信大家已经听了无数次了,但不同人会有不同的解释,你可能也是听得云里雾里的。 不过没关系,今天这篇内容会通过 Spring AI 给你实现一个 MCP 的 Client 和 Server 架构,让你彻底搞懂 MCP 的概念,以及学会 MCP 的开发技能。 什么是MCP?
3/27/2025 11:34:11 AM
磊哥

揭秘MCP:AI大模型的万能接口,开启智能新时代

在人工智能的世界里,最近有个新名字频频被提起:MCP(模型上下文协议,Model Context Protocol)。 这个由Anthropic在2024年11月推出的开放标准,正悄然改变着大型语言模型的玩法。 它就像一座桥梁,把那些被困在“信息孤岛”里的AI模型和外部世界连接起来,让它们不再只是会聊天,而是能真正干实事。
3/27/2025 10:15:39 AM

关于智能体 Agent 的实现技术之思维链和函数调用 (function call) 的思考

Agent技术也被业界称为智能体技术,本质上是使得大模型具备独立思考和解决问题的能力;被广泛应用于各种应用场景,而且也被称为是实现通用人工智能的一种技术手段。 但在此之前对于智能体的理解比较肤浅,而今天突然发现原来智能体没我们想象中的那么简单,也没想象中的那么复杂。 今天我们就从Agent的两个实现技术之思维链和函数调用来重新理解智能体。
3/27/2025 8:10:00 AM
AI探索时代

随着AI大模型和MCP生态发展,传统低代码平台和RPA类产品还有无出路?

今天准备跟大家聊一下随着AI大模型和MCP协议生态的发展,对传统的低代码产品和RPA机器人产品所带来的一些影响。 因为在一年多前我其实就聊过这个话题,但是最近一年的时间AI大模型、AI编程、AI智能体,包括最近的MCP协议生态的发展太快了,导致原来我们对这两个产品的影响分析会出现一些变化。 低代码平台影响分析首先我们先讲一下低代码,大家都知道其实低代码平台的产品,它的本质仍然是辅助我们编程,仍然是可能会生成源代码或者是生成低代码产品模板引擎能够解析的元数据。
3/27/2025 5:00:00 AM
何明璐

RAG检索全攻略:Embedding与Rerank模型的终极指南

在构建基于检索增强生成(RAG)的系统时,Embedding Model和Rerank Model扮演着至关重要的角色。 比如你正在搭建一个智能搜索引擎,Embedding Model就像是帮你快速找到相关书籍的“图书管理员”,而Rerank Model则像是一位经验丰富的“资深书评人”,负责从一堆书里精准挑选出最符合你需求的那几本。 两者配合,就像一对完美搭档,确保RAG系统既能找到大量信息,又能精准提炼出最关键的内容。
3/26/2025 11:05:13 AM

传神语联发布深度思考大模型-T1:根原创铸基,任度双脑开启AI深度思考新高度

2025年3月24日,传神语联A纪元系列线上发布活动的第一天,传神语联重磅发布任度双脑深度思考大模型-T1(以下简称任度大模型-T1),为大模型领域贡献了又一创新性成果。 那么,你或许会好奇,在大模型层出不穷的今天,传神语联为什么还执着于推出大模型? 底气来自哪里?
3/25/2025 5:59:13 PM