大模型
NLLB 与 ChatGPT 双向优化:探索翻译模型与语言模型在小语种应用的融合策略
本文探讨了 NLLB 翻译模型与 ChatGPT 在小语种应用中的双向优化策略。 首先介绍了 NLLB-200 的背景、数据、分词器和模型,以及其与 LLM(Large Language Model)的异同和协同关系。 接着列举了实战与应用的案例,包括使用 ChatGPT 生成的样本微调 NLLB-200 和使用 NLLB-200 的翻译结果作为 LLM 的 prompt 等。
2/13/2025 8:44:56 AM
Huang Minghui
字节跳动豆包UltraMem架构将大模型推理成本降低83%
字节跳动豆包大模型团队今日宣布,成功研发出全新稀疏模型架构UltraMem,该架构有效解决了MoE(混合专家)模型推理时的高额访存问题,推理速度较MoE提升2-6倍,推理成本最高可降低83%。 这一突破性进展为大模型的高效推理开辟了新路径。 UltraMem架构在保证模型效果的前提下,成功解决了MoE架构推理时的访存瓶颈。
2/12/2025 2:04:00 PM
AI在线
豆包提出全新稀疏模型架构 UltraMem,推理成本较 MoE 最高可降 83%
实验结果表明,训练规模达 2000 万 value 的 UltraMem 模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模 value 或 expert 开辟了新路径。
2/12/2025 12:58:01 PM
清源
4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破大模型推理门槛
DeepSeek-R1火遍海内外,但推理服务器频频宕机,专享版按GPU小时计费的天价成本更让中小团队望而却步。 而市面上所谓“本地部署”方案,多为参数量缩水90%的蒸馏版,背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。 因此,想在本地小规模硬件上跑真正的DeepSeek-R1,被认为基本不可能。
2/12/2025 12:45:59 PM
国家超算平台推AI伙伴计划:三月免费开放DeepSeek API
国家超算互联网平台近日宣布启动"AI生态伙伴加速计划",面向企业用户推出一系列优惠举措,包括提供为期3个月的DeepSeek API接口免费使用权限,并配套千万卡时的算力资源池支持。 据了解,该平台已完成DeepSeek满血版模型镜像的部署工作。 目前平台已实现与全国14个省份超过20家超算和智算中心的互联互通,汇集各类算力商品逾6500款,其中AI模型服务近240款。
2/12/2025 9:28:00 AM
AI在线
IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线
IBM 近日宣布,其 AI 开发平台 watsonx.ai 现已支持 DeepSeek-R1蒸馏版的 Llama3.18B和 Llama3.370B模型。 DeepSeek 通过知识蒸馏技术,利用 R1模型生成的数据对多个 Llama和 Qwen变体进行了优化,进一步提升了模型性能。 在 watsonx.ai平台上,用户可以通过两种方式使用 DeepSeek 蒸馏模型。
2/11/2025 2:25:00 PM
AI在线
全球开源大模型榜单揭晓,阿里通义千问独占鳌头
近日,全球最大人工智能开源社区 Huggingface 发布了最新的开源大模型排行榜(Open LLM Leaderboard),结果显示,排名前十的开源大模型全都是基于阿里通义千问(Qwen)开源模型进行二次训练的衍生模型。 这一成就标志着 Qwen 在开源 AI 领域的主导地位,进一步推动了其在全球的影响力。 Open LLM Leaderboard 被广泛认为是当前最权威的开源大模型榜单,测试维度涵盖了多个领域,包括阅读理解、逻辑推理、数学计算及事实问答等。
2/11/2025 11:55:00 AM
AI在线
从 DeepSeek 看25年前端的一个小趋势
从 DeepSeek 看25年前端的一个小趋势大家好,我卡颂。 最近DeepSeek R1爆火。 有多火呢?
2/11/2025 10:17:19 AM
卡颂
AI 聊天机器人在时事问题上频频出错,BBC 研究揭示事实扭曲
最近,英国广播公司(BBC)的一项研究揭示,领先的人工智能助手在回答与新闻和时事相关的问题时,常常产生误导性和不准确的内容。 研究表明,ChatGPT、Gemini 和 Perplexity 四种主流 AI 工具所生成的回答中,有超过一半被认为存在 “重大问题”。 图源备注:图片由AI生成,图片授权服务商Midjourney研究人员要求这四款生成式 AI 工具使用 BBC 的新闻文章作为来源,回答100个相关问题。
2/11/2025 9:54:00 AM
AI在线
DeepSeek R1 震撼登场:从介绍到使用
春节期间,DeepSeek 掀起了一股热潮,成为了科技领域的热门话题。 身边很多非圈内人士茶余饭后也在讨论 DeepSeek,足以见得其火爆程度。 介绍DeepSeek 全称:杭州深度求索人工智能基础技术研究有限公司,成立于 2023 年 7 月 17 日。
2/11/2025 8:35:30 AM
oec2003
1分钟学会DeepSeek本地部署,小白也能搞定!
DeepSeek 是国内顶尖 AI 团队「深度求索」开发的多模态大模型,具备数学推理、代码生成等深度能力,堪称"AI界的六边形战士"。 DeepSeek 身上的标签有很多,其中最具代表性的标签有以下两个:低成本(不挑硬件、开源)高性能(推理能力极强、回答准确)一、为什么要部署本地DeepSeek? 相信大家在使用 DeepSeek 时都会遇到这样的问题:图片这是由于 DeepSeek 大火之后访问量比较大,再加上漂亮国大规模、持续的恶意攻击,导致 DeepSeek 的服务器很不稳定。
2/10/2025 12:00:10 AM
磊
为什么中国只有一个 DeepSeek?
DeepSeek 风暴后,中国的大模型创业圈会发生什么样的变化? 近日来,笔者也与多位业内人士进行了探讨,发现国产大模型圈目前出现了两个极端:一个是极端的热血沸腾,另一个则是极端的霜打茄子。 前者以积极拥抱 DeepSeek 生态的算力厂商与模型服务厂商、以及原先没有能力参与大模型“军备竞赛”的开源受益者为代表,后者则以其他中国大模型创业公司(俗称“大模型六小虎”)与过去两年投资了这些公司的 VC 们为主,形成了一个“冰火两重天”的局面。
2/9/2025 5:23:00 PM
陈彩娴
OpenAI公开了大模型o3-mini的推理思维链
2月8日消息,据外媒报道,OpenAI更新了o3-mini AI模型的“思维链”功能,让用户可以看到模型的思考过程。 这是在DeepSeek-R1发布之后发生的,DeepSeek-R1是一个竞争对手的推理模型,也显示了其反应背后的思维过程。 推理模型旨在逐步分解其决策过程,因此需要更长的时间来生成响应。
2/8/2025 5:00:11 PM
Yu
腾讯云上线DeepSeek全系API接口并打通联网搜索
腾讯云宣布完成对深度求索(DeepSeek)大模型的深度整合——正式上线DeepSeek-R1和V3原版模型的API接口,并创新性接入自研大模型知识引擎,同步开放联网搜索能力。 凭借腾讯云在推理并发和生成速率等方面的优化,用户可以获得更加稳定、安全、低门槛的使用体验。 开发者只需在云上简单三步即可实现API接口调用,并通过大模型知识引擎提供的文档解析、拆分、embedding、多轮改写等能力,灵活构建专属的AI服务。
2/8/2025 2:09:00 PM
AI在线
o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜
大语言模型,到底是学会了解决数学问题,还是只是背下了答案? LLM的「Generalize VS Memorize」之争,迎来最新进展。 苏黎世联邦理工的研究员Mislav Balunović,在X上公布了一众顶级AI推理模型在AIME 2025 I比赛中的结果。
2/8/2025 11:44:03 AM
新智元
SimilarWeb:DeepSeek 官网全球日访问量已超越谷歌 Gemini
在推出仅两个月后,DeepSeek 便迅速崛起,成为全球第二大受欢迎的人工智能聊天机器人。根据网站追踪公司 SimilarWeb 的数据,DeepSeek.com 的日访问量已经超过了谷歌的 Gemini 和 Character.AI。
2/8/2025 11:14:13 AM
远洋
从 DeepSeek 火热,到李飞飞团队新成果,“幕后高手”竟是它
最近 AI 大模型领域可以说是热点话题不断,DeepSeek 的热潮还未消退,国内李飞飞团队提出的一种模型训练新方法又在行业里引发热议
2/7/2025 2:13:55 PM
汐元
国产大模型DeepSeek爆火,崛起背后大模型专利申请激增
近日,国产大模型DeepSeek爆火全网,凭借“低成本、高性能”的技术优势,其成为全球科技市场关注的焦点。 创始人梁文锋介绍,团队主要由国内高校毕业生和没毕业的博士生组成。 过硬的创新成果表明,今天的中国,正在成为顶尖人才成长的沃土、原创性创新的策源地。
2/7/2025 1:42:00 PM
AI在线
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
论文
英伟达
Anthropic
代码
训练
算法
Stable Diffusion
芯片
蛋白质
开发者
LLM
腾讯
生成式
Claude
苹果
AI新词
Agent
神经网络
AI for Science
3D
机器学习
研究
生成
xAI
人形机器人
AI视频
计算
Sora
GPU
AI设计
百度
华为
工具
大语言模型
搜索
具身智能
场景
RAG
字节跳动
大型语言模型
深度学习
预测
伟达
视觉
Transformer
视频生成
AGI
架构
神器推荐
亚马逊
Copilot
DeepMind
应用
安全