Qwen

Qwen和DeepSeek为何都选YaRN？

这篇文章，我们还是从面试官的视角出发，一起来分析一下，如果你在面试现场被问到这个题目，应该如何回答？ 1.面试官心理分析首先还是分析一下面试官的心理，面试官问这个问题，主要是想考察三点：第一，你知不知道长度外推这个概念？很多同学可能听都没听过这个概念，那这个问题当然也就无从答起了。

6/6/2025 1:26:00 AM

丁师兄

互联网女皇最新报告:全球 AI 竞争格局生变中国与开源AI全面突围

硅谷投资人Mary Meeker最新发布的AI报告揭示:全球AI竞争格局正经历深刻重塑。中国力量与开源浪潮正在撼动OpenAI等头部公司主导的生态，全球进入“群雄逐鹿”的新阶段。中国AI:性能逼近国际一线，产业融合爆发报告指出，中国在大型语言模型发布节奏上正快速逼近美国，DeepSeek、阿里Qwen、百度文心一言等模型在代码生成与数学推理等核心任务中表现优异。

6/5/2025 3:00:56 PM

AI在线

我国水利标准 AI 大模型正式发布，采用海量知识库 + DeepSeek / Qwen 双模型

我国水利标准AI大模型正式发布，采用海量知识库+DeepSeek/Qwen双模型，实现水利标准全生命周期数字化、智能化管理。查重比对准确率超96.7%，标准编制效率提高2.5倍。#水利科技##AI大模型#

6/3/2025 10:04:47 AM

远洋

TCL联手阿里云深度布局AI赛道，半导体显示专家大模型"星智"正式亮相

家电巨头TCL与云计算龙头阿里云正式宣布达成全栈AI战略合作，这一合作将重点围绕半导体显示和智能终端两大核心领域展开。双方计划充分利用阿里云在"云 AI"方面的技术优势，联合开发面向垂直行业的专业大模型解决方案。在技术研发层面，TCL与阿里云将基于Qwen3、Qwen-VL、QwQ等先进模型，持续优化升级半导体显示专家大模型——星智X-Intelligence。

5/22/2025 5:00:55 PM

AI在线

Qwen 团队最近发布了一款统一多模态大模型 Qwen2.5-Omni，开放了 7B 版本的权重。能够同时处理文本、图像、音频和视频输入，并以流式方式生成文本和语音响应。下面来详细看下：开源地址：论文地址：：地址： Face：：：官方体验：：：在日常生活中，人类能够同时感知视觉和听觉信息，并通过大脑处理这些信息后，以书写、说话或使用工具等方式进行反馈，从而与世界上的各种生物进行信息交流并展现智能。

4/14/2025 12:20:00 AM

Goldma

为什么 Qwen 能自我改进推理，Llama 却不行？斯坦福找到了原理

给到额外的计算资源和「思考」时间，为什么有的模型能好好利用，把性能提升一大截，而有的模型就不行？当遇到困难问题时，人类会花时间深入思考以找到解决方案。在 AI 领域，最近的一些大语言模型在通过强化学习进行自我改进训练时，也已经开始表现出类似的推理行为。

3/6/2025 6:00:00 AM

机器之心

为什么Qwen能自我改进推理，Llama却不行？斯坦福找到了原理

虽然 Qwen「天生」就会检查自己的答案并修正错误。但找到原理之后，我们也能让 Llama 学会自我改进。给到额外的计算资源和「思考」时间，为什么有的模型能好好利用，把性能提升一大截，而有的模型就不行？

3/5/2025 2:54:00 PM

机器之心

国家超算平台推AI伙伴计划:三月免费开放DeepSeek API

国家超算互联网平台近日宣布启动"AI生态伙伴加速计划"，面向企业用户推出一系列优惠举措，包括提供为期3个月的DeepSeek API接口免费使用权限，并配套千万卡时的算力资源池支持。据了解，该平台已完成DeepSeek满血版模型镜像的部署工作。目前平台已实现与全国14个省份超过20家超算和智算中心的互联互通，汇集各类算力商品逾6500款，其中AI模型服务近240款。

2/12/2025 9:28:00 AM

AI在线

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线

IBM 近日宣布，其 AI 开发平台 watsonx.ai 现已支持 DeepSeek-R1蒸馏版的 Llama3.18B和 Llama3.370B模型。 DeepSeek 通过知识蒸馏技术，利用 R1模型生成的数据对多个 Llama和 Qwen变体进行了优化，进一步提升了模型性能。在 watsonx.ai平台上，用户可以通过两种方式使用 DeepSeek 蒸馏模型。

2/11/2025 2:25:00 PM

AI在线

全球开源大模型榜单揭晓，阿里通义千问独占鳌头

近日，全球最大人工智能开源社区 Huggingface 发布了最新的开源大模型排行榜（Open LLM Leaderboard），结果显示，排名前十的开源大模型全都是基于阿里通义千问(Qwen)开源模型进行二次训练的衍生模型。这一成就标志着 Qwen 在开源 AI 领域的主导地位，进一步推动了其在全球的影响力。 Open LLM Leaderboard 被广泛认为是当前最权威的开源大模型榜单，测试维度涵盖了多个领域，包括阅读理解、逻辑推理、数学计算及事实问答等。

2/11/2025 11:55:00 AM

AI在线

通义千问GPT-4级主力模型降价97%，1块钱200万tokens

5月21日，阿里云抛出重磅炸弹：通义千问GPT-4级主力模型Qwen-Long，API输入价格从0.02元/千tokens降至0.0005元/千tokens，直降97%。这意味着，1块钱可以买200万tokens，相当于5本《新华字典》的文字量。这款模型最高支持1千万tokens长文本输入，降价后约为GPT-4价格的1/400，击穿全球底价。Qwen-Long是通义千问的长文本增强版模型，性能对标GPT-4，上下文长度最高达1千万。除了输入价格降至0.0005元/千tokens，Qwen-Long输出价格也直降90

5/21/2024 4:48:00 PM

新闻助手

资讯热榜

苹果发布全新Xcode 26开发者工具：内置ChatGPT先进AI功能 DeepSeek前高管秘密创业，新AI Agent项目已获顶级VC押注那个男人回来了！Ilya现身多伦多大学毕业典礼：AI 像是用数字方式复制出来的大脑！不管你愿不愿意，AI都将深刻影响你的一生！支持MCP！开源智能体开发框架 Rowboat：打造你的智能助手只需几分钟 ChatGPT 语音功能升级，实时翻译对话更自然流畅肝了30小时，Flux Kontext是我用过最稳、最能干活的AI图像模型！谷歌 Gemini 应用月下载量超越 ChatGPT，用户活跃度仍显不足长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画数据谷歌机器人大模型 Midjourney 用户智能开源微软 GPT 学习 Meta 图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法代码英伟达 Anthropic 芯片生成式开发者蛋白质腾讯神经网络研究 3D 生成训练苹果计算智能体 Sora 机器学习 AI设计 AI for Science Claude GPU AI视频人形机器人华为搜索场景百度大语言模型 xAI 预测伟达深度学习 Transformer 字节跳动 Agent 模态具身智能神器推荐 LLaMA 文本视觉 Copilot 算力工具 LLM 驾驶 API 大型语言模型应用 RAG 亚马逊

Qwen

Qwen和DeepSeek为何都选YaRN？

互联网女皇最新报告:全球 AI 竞争格局生变 中国与开源AI全面突围

我国水利标准 AI 大模型正式发布，采用海量知识库 + DeepSeek / Qwen 双模型

TCL联手阿里云深度布局AI赛道，半导体显示专家大模型"星智"正式亮相

阿里全模态Qwen2.5-Omni技术报告万字解读！

为什么 Qwen 能自我改进推理，Llama 却不行？斯坦福找到了原理

为什么Qwen能自我改进推理，Llama却不行？斯坦福找到了原理

国家超算平台推AI伙伴计划:三月免费开放DeepSeek API

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线

全球开源大模型榜单揭晓，阿里通义千问独占鳌头

通义千问GPT-4级主力模型降价97%，1块钱200万tokens

互联网女皇最新报告:全球 AI 竞争格局生变中国与开源AI全面突围