大模型
大模型 Prompt 技巧全解析
作者 | mitin在数字化浪潮的推动下,AI大模型以其卓越的自然语言处理能力和智能交互特性,迅速在很多领域中占据了重要地位。 比如:与传统客服相比,AI大模型展现出了无可比拟的优势,通过精心设计的 prompt,能使我们在客服托管、智能客服等多个项目和业务场景中发挥显著作用,大幅提高工作效率,优化成果质量。 为了精进个人能力以及助力产研学习氛围的提升,本人在学习完吴恩达教授以及其他前辈们有关 prompt 的课程之后,整理了这份学习资料,以供大家学习交流。
2/18/2025 10:25:10 AM
腾讯技术工程
阶跃星辰联合吉利首次开源 Step 系列多模态大模型,包含视频、语音两款模型
今日阶跃星辰和吉利汽车集团联合宣布,将双方合作的阶跃两款 Step 系列多模态大模型向全球开发者开源。其中,包含目前全球范围内参数量最大、性能最好的开源视频生成模型阶跃 Step-Video-T2V,以及行业内首款产品级开源语音交互大模型阶跃 Step-Audio。
2/18/2025 10:14:49 AM
远洋
迅雷宣布为 AI 开发者提供大模型批量下载加速服务,当前可免费使用
迅雷今日宣布,将针对下载AI大模型及数据集文件的迅雷用户提供批量下载服务,以解决长期困扰AI开发者的“下载慢、耗时长”问题。
2/17/2025 7:07:17 PM
清源
大模型六小强如何在 DeepSeek 冲击下重塑策略?
在过去的一个月里,全球大模型市场因 DeepSeek 的发布而陷入了动荡,各大公司纷纷被问及对这一新兴力量的看法与应对策略。 在国内市场上,已经成为独角兽的六家大模型创业公司 —— 零一万物、百川智能、阶跃星辰、智谱华章、月之暗面及 MiniMax,面临着严峻挑战,但各自的应对策略显示出不同的方向。 首先,零一万物的创始人李开复早前就表示,他们不再追求超级大模型的训练,而是专注于轻量化模型的开发。
2/17/2025 3:36:00 PM
AI在线
零基础也能看懂的 ChatGPT 等大模型入门解析!
近两年,大语言模型LLM(Large Language Model)越来越受到各行各业的广泛应用及关注。 对于非相关领域研发人员,虽然不需要深入掌握每一个细节,但了解其基本运作原理是必备的技术素养。 本文笔者结合自己的理解,用通俗易懂的语言对复杂的概念进行了总结,与大家分享~一、什么是ChatGPT?
2/17/2025 1:00:00 PM
小喵学AI
大模型前缀缓存技术,有望将服务成本降低90%
译者 | 核子可乐审校 | 重楼是不是总感觉ChatGPT响应缓慢? 大家可能没有留意,大模型应用程序的提示词重复率高达70%,问天气、问翻译和问节日安排的内容大量出现,且每次都要消耗算力进行处理。 这样的情况在分布式集群的各节点上被无数次放大,白白烧掉宝贵的能源和金钱。
2/17/2025 10:49:49 AM
核子可乐
移远通信边缘计算模组成功运行DeepSeek模型,以领先的工程能力加速端侧AI落地
近日,国产大模型DeepSeek凭借其“开源开放、高效推理、端侧友好”的核心优势,迅速风靡全球。 移远通信基于边缘计算模组SG885G,已成功实现DeepSeek模型的稳定运行,并完成了针对性微调。 目前,该模型正在多款智能终端上进行深入测试与优化。
2/14/2025 10:00:00 AM
仅需3步,稳定快速!火山引擎边缘大模型网关全面支持DeepSeek系列模型
DeepSeek 作为大模型新锐,凭借其在算法、架构及系统等核心领域的创新突破,迅速获得业界瞩目。 在巨大的热度下,面对海量请求,越来越多用户遇到了请求失败、调用超时、结果无法返回等稳定性问题。 火山引擎边缘大模型网关通过一个 API 接入多家模型服务,利用全球边缘节点就近调用,提升响应速度;支持故障自动切换、重试和超时控制,确保服务可靠性;兼容 OpenAI 接口标准,可快速集成 DeepSeek 等模型,降低接入成本。
2/14/2025 9:00:00 AM
边缘云技术团队
DeepSeek-R1技术解码:如何实现大模型推理能力的提升?
1月20日,幻方量化旗下AI公司深度求索(DeepSeek)发布了新一代开源大模型DeepSeek-R1。 作为一款专注于推理能力的AI大模型,DeepSeek-R1凭借着成本低、推理能力强等优势,在人工智能领域掀起了千层巨浪,引起了人们的广泛关注与讨论。 DeepSeek-R1的成功,让我们更加清晰地认识到推理能力在当下人工智能发展中的重要地位。
2/13/2025 8:51:23 AM
Yu
NLLB 与 ChatGPT 双向优化:探索翻译模型与语言模型在小语种应用的融合策略
本文探讨了 NLLB 翻译模型与 ChatGPT 在小语种应用中的双向优化策略。 首先介绍了 NLLB-200 的背景、数据、分词器和模型,以及其与 LLM(Large Language Model)的异同和协同关系。 接着列举了实战与应用的案例,包括使用 ChatGPT 生成的样本微调 NLLB-200 和使用 NLLB-200 的翻译结果作为 LLM 的 prompt 等。
2/13/2025 8:44:56 AM
Huang Minghui
字节跳动豆包UltraMem架构将大模型推理成本降低83%
字节跳动豆包大模型团队今日宣布,成功研发出全新稀疏模型架构UltraMem,该架构有效解决了MoE(混合专家)模型推理时的高额访存问题,推理速度较MoE提升2-6倍,推理成本最高可降低83%。 这一突破性进展为大模型的高效推理开辟了新路径。 UltraMem架构在保证模型效果的前提下,成功解决了MoE架构推理时的访存瓶颈。
2/12/2025 2:04:00 PM
AI在线
豆包提出全新稀疏模型架构 UltraMem,推理成本较 MoE 最高可降 83%
实验结果表明,训练规模达 2000 万 value 的 UltraMem 模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模 value 或 expert 开辟了新路径。
2/12/2025 12:58:01 PM
清源
4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破大模型推理门槛
DeepSeek-R1火遍海内外,但推理服务器频频宕机,专享版按GPU小时计费的天价成本更让中小团队望而却步。 而市面上所谓“本地部署”方案,多为参数量缩水90%的蒸馏版,背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。 因此,想在本地小规模硬件上跑真正的DeepSeek-R1,被认为基本不可能。
2/12/2025 12:45:59 PM
全球开源大模型榜单揭晓,阿里通义千问独占鳌头
近日,全球最大人工智能开源社区 Huggingface 发布了最新的开源大模型排行榜(Open LLM Leaderboard),结果显示,排名前十的开源大模型全都是基于阿里通义千问(Qwen)开源模型进行二次训练的衍生模型。 这一成就标志着 Qwen 在开源 AI 领域的主导地位,进一步推动了其在全球的影响力。 Open LLM Leaderboard 被广泛认为是当前最权威的开源大模型榜单,测试维度涵盖了多个领域,包括阅读理解、逻辑推理、数学计算及事实问答等。
2/11/2025 11:55:00 AM
AI在线
从 DeepSeek 看25年前端的一个小趋势
从 DeepSeek 看25年前端的一个小趋势大家好,我卡颂。 最近DeepSeek R1爆火。 有多火呢?
2/11/2025 10:17:19 AM
卡颂
DeepSeek R1 震撼登场:从介绍到使用
春节期间,DeepSeek 掀起了一股热潮,成为了科技领域的热门话题。 身边很多非圈内人士茶余饭后也在讨论 DeepSeek,足以见得其火爆程度。 介绍DeepSeek 全称:杭州深度求索人工智能基础技术研究有限公司,成立于 2023 年 7 月 17 日。
2/11/2025 8:35:30 AM
oec2003
1分钟学会DeepSeek本地部署,小白也能搞定!
DeepSeek 是国内顶尖 AI 团队「深度求索」开发的多模态大模型,具备数学推理、代码生成等深度能力,堪称"AI界的六边形战士"。 DeepSeek 身上的标签有很多,其中最具代表性的标签有以下两个:低成本(不挑硬件、开源)高性能(推理能力极强、回答准确)一、为什么要部署本地DeepSeek? 相信大家在使用 DeepSeek 时都会遇到这样的问题:图片这是由于 DeepSeek 大火之后访问量比较大,再加上漂亮国大规模、持续的恶意攻击,导致 DeepSeek 的服务器很不稳定。
2/10/2025 12:00:10 AM
磊
为什么中国只有一个 DeepSeek?
DeepSeek 风暴后,中国的大模型创业圈会发生什么样的变化? 近日来,笔者也与多位业内人士进行了探讨,发现国产大模型圈目前出现了两个极端:一个是极端的热血沸腾,另一个则是极端的霜打茄子。 前者以积极拥抱 DeepSeek 生态的算力厂商与模型服务厂商、以及原先没有能力参与大模型“军备竞赛”的开源受益者为代表,后者则以其他中国大模型创业公司(俗称“大模型六小虎”)与过去两年投资了这些公司的 VC 们为主,形成了一个“冰火两重天”的局面。
2/9/2025 5:23:00 PM
陈彩娴
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
英伟达
Anthropic
论文
代码
AI新词
训练
算法
Stable Diffusion
LLM
芯片
蛋白质
开发者
腾讯
Claude
苹果
生成式
AI for Science
Agent
神经网络
3D
机器学习
研究
xAI
生成
人形机器人
AI视频
计算
百度
Sora
GPU
AI设计
华为
工具
大语言模型
RAG
搜索
具身智能
字节跳动
大型语言模型
场景
深度学习
预测
视频生成
伟达
视觉
Transformer
AGI
架构
亚马逊
神器推荐
Copilot
应用
DeepMind
特斯拉