大模型

基于Dify与DeepSeek：零门槛训练自己的专属AI大模型

在人工智能（AI）技术日益普及的今天，训练属于自己的AI大模型不再是遥不可及的梦想。随着DeepSeek R1的发布，其部署成本仅为ChatGPT的十分之一，这一突破让更多企业和个人能够轻松参与AI开发。未来，垂直领域的AI大模型和应用将如雨后春笋般涌现，这无疑是一个巨大的机遇。

3/11/2025 10:51:35 AM

冰河技术

字节跳动豆包大模型团队开源MoE架构优化技术，训练成本节省40%

字节跳动豆包大模型团队官宣开源一项针对 MoE（混合专家模型）架构的关键优化技术，可将大模型训练效率提升 1.7 倍，成本节省 40%。据悉，该技术叫做 COMET，已实际应用于字节的万卡集群训练，累计帮助节省了数百万 GPU 小时训练算力。

3/10/2025 5:42:41 PM

远洋

如何看待”首个真干活”AI—Manus？

话题背景今日凌晨，一款通用AI Agent产品「Manus」正式发布。 GAIA评分已超越OpenAI的DeepResearch，成为GAIA评分第一。这一产品以“数字代理人”自居，宣称能独立完成复杂任务并交付完整成果，迅速成为科技圈的焦点。

3/10/2025 12:00:00 PM

腾讯技术工程

2025年AI投资热潮延续：九家美国公司获超亿美元融资

2024年是人工智能行业具有里程碑意义的一年，据TechCrunch统计，去年有49家初创公司获得了价值1亿美元或以上的融资，其中七家公司筹集了10亿美元以上资金，三家公司甚至获得了多轮"巨额融资"。而2025年开年以来，这一势头不减。尽管年初刚过，融资额超过1亿美元的美国AI公司数量已接近两位数，且已有一轮融资突破10亿美元大。

3/10/2025 10:00:43 AM

AI在线

大模型本地部署的“隐形炸弹”，你的数据安全吗？

作者 | 朱雀实验室随着DeepSeek R1等开源大模型的火爆，越来越多的开发者、企业甚至开始尝试在本地部署大语言模型，享受AI带来的便利。然而近期腾讯混元安全团队-朱雀实验室发现：这些广受欢迎的AI工具中有不少存在安全隐患。如果使用不当，攻击者可能窃取用户数据、滥用算力资源，甚至控制用户设备。

3/10/2025 9:10:00 AM

腾讯技术工程

Ollama的配置修改与接口调用

一、修改环境变量1.1 配置远程访问在我们本地部署好ollama之后，仅支持本机访问，我们可以通过修改环境变量让其他人可以远程访问。在wins电脑上增加环境变量：复制1.2 配置本地模型路径1.2.1 本地模型默认路径wins本地模型默认路径：C:\Users\%username%\.ollama\models。这里 %username% 是当前登录的用户名。

3/10/2025 9:00:00 AM

Python伊甸园

Ollama的介绍与测试

一、Ollama介绍Ollama是一个开源工具，专为在本地机器上便捷部署和运行大型语言模型（LLM）而设计。它提供了一个简洁高效的界面，让用户能够轻松地创建、执行和管理这些复杂的模型。此外，Ollama还配备了一个丰富的预构建模型库，使得这些模型能够无缝集成到各种应用程序之中，大大提升了开发效率和用户体验。

3/10/2025 8:30:00 AM

Python伊甸园

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

Phi-4-Multimodal 是一种参数高效的多模态模型，通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。训练过程包括多阶段优化，确保在不同模式和任务上的性能，数据来源多样，覆盖高质量合成数据。它的设计体现了小型语言模型在多模态任务上的潜力。

3/10/2025 2:00:00 AM

余俊晖

7B级形式化推理与验证小模型，媲美满血版DeepSeek-R1，全面开源！

研究团队构成：香港科技大学、中国科学院软件研究所、西安电子科技大学和重庆大学。团队核心成员：香港科技大学的研究助理教授曹嘉伦，主要研究领域包括 AI&SE、人工智能测试、形式化验证等；中国科学院软件研究所副研究员陆垚杰，主要研究领域包括大语言模型及其应用。随着 DeepSeek-R1 的流行与 AI4Math 研究的深入，大模型在辅助形式化证明写作方面的需求日益增长。

3/8/2025 3:46:00 PM

机器之心

在全球最大的 AI 开源社区 HuggingFace 的最新更新中，阿里巴巴近期推出的通义千问推理模型 QwQ-32B 成功夺得了大模型榜单的第一名。这一模型在刚发布后便引起了广泛关注，超越了诸如微软的 Phi-4和 DeepSeek-R1等知名模型，展现出了强大的性能。 QwQ-32B 模型在数学、代码处理及通用能力等多个方面都取得了质的飞跃，特别是其参数数量较小的特点，使得其整体性能能够与 DeepSeek-R1相媲美。

3/7/2025 1:58:00 PM

AI在线

FP8 训练新范式：减少 40% 显存占用，训练速度提高 1.4 倍

近期DeepSeek V3 引爆国内外的社交媒体，他们在训练中成功应用了 FP8 精度，显著降低了 GPU 内存使用和计算开销。这表明，FP8 量化技术在优化大型模型训练方面正发挥着越来越重要的作用。近期，来自伯克利，英伟达，MIT 和清华的研究者们提出了显存高效的 FP8 训练方法：COAT（Compressing Optimizer states and Activation for Memory-Efficient FP8 Training），致力于通过 FP8 量化来压缩优化器状态和激活值，从而提高内存利用率和训练速度。

3/7/2025 10:02:10 AM

机器之心

如何理解模型的蒸馏和量化

在LLM领域内，经常会听到两个名词：蒸馏和量化。这代表了LLM两种不同的技术，它们之间有什么区别呢？本次我们就来详细聊一下。

3/7/2025 8:00:00 AM

大模型系列：DeepSeek大模型与应用场景介绍

今天给大家聊聊DeepSeek 究竟有哪些强大的模型？这些模型又适用于哪些具体的场景呢？希望对大家了解 DeepSeek 大模型提供一些参考。

3/6/2025 7:28:31 AM

郝光明

为什么 Qwen 能自我改进推理，Llama 却不行？斯坦福找到了原理

给到额外的计算资源和「思考」时间，为什么有的模型能好好利用，把性能提升一大截，而有的模型就不行？当遇到困难问题时，人类会花时间深入思考以找到解决方案。在 AI 领域，最近的一些大语言模型在通过强化学习进行自我改进训练时，也已经开始表现出类似的推理行为。

3/6/2025 6:00:00 AM

机器之心

如何高效使用DeepSeek-R1：推理大模型调优指南

如何高效使用DeepSeek-R1：推理大模型提示工程调优指南LLM 中 DeepSeek-R1 与传统非推理模型的交互方式存在本质差异。在数学推导、代码生成等复杂任务中展现出色能力。但与通用大模型不同，推理型模型需要特殊的交互策略，博文内容列举几个常见的优化手段，帮助开发者构建高效的交互范式。

3/5/2025 3:00:00 AM

山河已无恙

生物版DeepSeek的隐秘竞争，中国模型被视为更强对手，赛诺菲10亿美金押宝！

编辑 | ScienceAI上周，美国斯坦福大学、英伟达等机构联合发布的生物学AI模型Evo2引起广泛关注，被誉为「生物版Deepseek」。正当全球科研人员为这一突破性成果热议时，该论文中的特殊标注揭开了中国AI的实力——来自中国公司百图生科xTrimo系列大模型，被Evo2的研究人员列为「参数规模更大但尚未开源的竞争对手」，揭示中国生物大模型的崛起。实际上，百图生科公司一直被美国市场认定为生命科学基础大模型的先行者，自2020年起一直前瞻性地在该领域布局。

3/4/2025 6:22:00 PM

ScienceAI

自变量机器人成功融资，迈向具身智能新纪元

在最新的产业动态中，南京市创投集团宣布国产机器人初创企业自变量机器人（X Square Robot）成功完成 Pre-A 轮融资。这一轮融资的领投方为光速光合与君联资本，北京机器人产业基金及神骐资本等机构也参与了跟投，融资金额将用于下一代统一具身智能通用大模型的训练与场景落地。自变量机器人成立于2023年12月，目标是通过研发具身智能通用大模型，推动通用机器人技术的发展，最终实现通用机器人如人类一般，能够通过交互、感知和行动自主执行任务。

3/4/2025 4:16:00 PM

AI在线

周鸿祎谈AI幻觉与网络安全:问题不可夸大也不应忽视

在今年全国两会前夕，全国政协委员、360集团创始人周鸿祎就DeepSeek大模型及AI安全问题发表看法，强调正确认识AI安全，既不可夸大也不应忽视。周鸿祎指出，当前AI安全议题需警惕被夸大的趋势。他批评以OpenAI为代表的美国五大AI公司倾向于通过渲染AI不安全来为其垄断和闭源策略辩护，借此推动政府加强监管，阻挠后来者追赶。

3/4/2025 12:00:28 PM

AI在线

资讯热榜

最具争议性研究：大模型中间层输出可 100% 反推原始输入 Wan2.2-Animate又火了！5分钟让抠脚大汉秒变高冷女神奥特曼回应一切：重组后仍需微软支持，不相信OpenAI的欢迎做空 OpenAI 或将于明年上市，估值可达万亿！亚马逊股价暴涨 13%，人工智能推动云计算迎来多年最快增长 Bevel 获得 1000 万美元 A 轮融资，致力于 AI 健康助手创新「套壳」的最高境界：OpenAI揭秘Atlas浏览器架构OWL OpenAI更新ChatGPT规则：10月29日起禁止医疗、法律与财务建议

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 Midjourney 开源 Meta AI新词微软智能用户 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法 Agent AI for Science 芯片苹果 Claude 腾讯 Stable Diffusion 蛋白质开发者生成式神经网络 xAI 机器学习 3D RAG 人形机器人 AI视频研究大语言模型生成具身智能 Sora 工具 GPU 百度华为计算字节跳动 AI设计大型语言模型 AGI 搜索视频生成场景深度学习架构生成式AI DeepMind 编程视觉 Transformer AI模型预测亚马逊特斯拉 MCP

大模型

基于Dify与DeepSeek：零门槛训练自己的专属AI大模型

字节跳动豆包大模型团队开源MoE架构优化技术，训练成本节省40%

如何看待”首个真干活”AI—Manus？

2025年AI投资热潮延续：九家美国公司获超亿美元融资

大模型本地部署的“隐形炸弹”，你的数据安全吗？

Ollama的配置修改与接口调用

Ollama的介绍与测试

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

7B级形式化推理与验证小模型，媲美满血版DeepSeek-R1，全面开源！

​阿里通义千问推理大模型QwQ-32B勇夺全球开源社区榜榜首

FP8 训练新范式：减少 40% 显存占用，训练速度提高 1.4 倍

如何理解模型的蒸馏和量化

大模型系列：DeepSeek大模型与应用场景介绍

为什么 Qwen 能自我改进推理，Llama 却不行？斯坦福找到了原理

如何高效使用DeepSeek-R1：推理大模型调优指南

生物版DeepSeek的隐秘竞争，中国模型被视为更强对手，赛诺菲10亿美金押宝！

自变量机器人成功融资，迈向具身智能新纪元

周鸿祎谈AI幻觉与网络安全:问题不可夸大也不应忽视

阿里通义千问推理大模型QwQ-32B勇夺全球开源社区榜榜首