模型训练
基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战
群组相对策略优化(Group Relative Policy Optimization,GRPO)已被证明是一种有效的算法,可用于训练大语言模型(LLMs),使其具备推理能力并在基准测试中持续提升性能表现。 DeepSeek-R1 展示了如何通过监督式微调(Supervised Fine-Tuning)与 GRPO 技术的结合,引导模型达到与 OpenAI 的 o1 等顶尖模型相竞争的水平。 为了进一步探索其实践应用,我们尝试将这些技术应用于现实场景中。
4/7/2025 2:25:00 AM
超详细!写给设计师的LoRa模型训练SOP
写在前面:
在推进 AIGC 技术在我们业务中的应用过程中,我发现许多同事,特别是设计师和跨部门协作的团队,对 LoRA 模型在图像生成中的真正价值理解还不够深入。我们似乎更多地停留在"别人在做,我也要做"的从众心态,而没有真正认识到 LoRA 模型的战略意义和变革潜力。
这种认知差距可能会导致我们在实践中走一些弯路,无法充分发挥 LoRA 模型的优势,也难以实现 AIGC 技术在业务中的最大化赋能。因此,我针对 LoRA 模型训练流程进行了系统梳理和优化,希望能给大家一些启发,帮助我们更好地理解和应用这一强大的工
4/8/2024 6:51:01 AM
NIC
- 1
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
智能体
马斯克
AI新词
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
蛋白质
苹果
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
生成
人形机器人
AI视频
百度
计算
工具
Sora
GPU
大语言模型
华为
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
深度学习
AGI
视频生成
预测
视觉
伟达
架构
Transformer
神器推荐
DeepMind
亚马逊
特斯拉
编程
MCP