AIGC宇宙 AIGC宇宙

《Python 机器学习》作者新作:从头开始构建大型语言模型,代码已开源

自 ChatGPT 发布以来,大型语言模型(LLM)已经成为推动人工智能发展的关键技术。近期,机器学习和 AI 研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 又写了一本新书 ——《Build a Large Language Model (From Scratch)》,旨在讲解从头开始构建大型语言模型的整个过程,包括如何创建、训练和调整大型语言模型。最近,Sebastian Raschka 在 GitHub 上开源了这本新书对应的代码库。项目地址: LLM 来说,指令微调能够有效

自 ChatGPT 发布以来,大型语言模型(LLM)已经成为推动人工智能发展的关键技术。

近期,机器学习和 AI 研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 又写了一本新书 ——《Build a Large Language Model (From Scratch)》,旨在讲解从头开始构建大型语言模型的整个过程,包括如何创建、训练和调整大型语言模型。图片

最近,Sebastian Raschka 在 GitHub 上开源了这本新书对应的代码库。

图片

项目地址:https://github.com/rasbt/LLMs-from-scratch/tree/main?tab=readme-ov-file

对 LLM 来说,指令微调能够有效提升模型性能,因此各种指令微调方法陆续被提出。Sebastian Raschka 发推重点介绍了项目中关于指令微调的部分,其中讲解了:

如何将数据格式化为 1100 指令 - 响应对;

如何应用 prompt-style 模板;

如何使用掩码。

图片

《Build a Large Language Model (From Scratch)》用清晰的文字、图表和示例解释每个阶段,从最初的设计和创建,到采用通用语料库进行预训练,一直到针对特定任务进行微调。

图片

具体来说,新书和项目讲解了如何:

规划和编码 LLM 的所有部分;

准备适合 LLM 训练的数据集;

使用自己的数据微调 LLM;

应用指令调整方法来确保 LLM 遵循指令;

将预训练权重加载到 LLM 中。

作者介绍

图片

个人主页:https://sebastianraschka.com/

Sebastian Raschka 是一名机器学习和人工智能研究员,曾在威斯康星大学麦迪逊分校担任统计学助理教授,专门研究深度学习和机器学习。他让关于 AI 和深度学习相关的内容更加容易获得,并教人们如何大规模利用这些技术。

此外,Sebastian 热衷于开源软件,十多年来一直是一个充满热情的开源贡献者。他提出的方法现已成功应用于 Kaggle 等机器学习竞赛。

除了编写代码,Sebastian 还喜欢写作,并撰写了畅销书《Python Machine Learning》(《Python 机器学习》)和《Machine Learning with PyTorch and ScikitLearn》。

参考链接:https://twitter.com/rasbt/status/1802327699937009807

相关资讯

DeepSeek-R1之后推理模型发展如何?Raschka长文梳理后R1时代14篇重要论文

近日,Deepseek R1 等一系列推理大语言模型已成为 2025 年最热门的话题之一。 在过去的几周里,研究人员推出了许多改进推理的新策略,包括扩展简单测试 - 时间规模化(S1)、关联思维链(Chain of Associated thoughts)、Inner Transformer 等方法。 不仅如此,还有来自腾讯实验室的研究人员探索了 Thoughts Are All Over the Place,通过衡量不正确答案中的 token 效率来鼓励模型对每条推理路径进行更深入的探索;来自美国马里兰大学和橡树岭国家实验室等机构联合提出了 Recurrent Block,通过重复调用同一个循环体的方式,在推理阶段可以迭代任意多次;以及来自美国 Zoom 视频通讯公司的研究团队提出了 Chain of Draft(CoD),基于更接近人类推理的提示策略提出了草稿图,这是一种优先考虑效率和推理的提示词策略。
4/1/2025 4:14:00 PM
机器之心

OpenAI ChatGPT AI 聊天机器人新增“/picture”和“/search”指令

OpenAI 扩充 ChatGPT 系统快捷指令,新增“/picture”和“/search”,进一步改善用户的交互体验。AI在线附上操作方法如下:在与 ChatGPT 对话时,只需输入一个“/”(不含双引号),一个便捷的弹出窗口就会显示这些快捷选项。“/picture”该指令会调用 OpenAI 的文生图模型 DALL-E,即使用户没有具体的提示或想法,只需选择 / picture,也能为你生成有趣的图像。“/search”该指令会进入一个新的搜索模式,你输入的任何内容都会被视为搜索查询。即便用户没有输入任何内容
9/14/2024 9:13:18 AM
故渊

十个让DeepSeek变强大的指令模型

以下是10个AI指令万能公式及对比案例,涵盖不同场景下的应用技巧,帮助大家通过结构化指令提升AI输出质量:1. 角色定位法:明确AI的专家身份错误指令: "写一篇产品营销文案。 " (AI可能生成通用模板,缺乏针对性)正确公式:【角色】 【任务】 【场景】案例: "你是一位10年经验的数码产品营销专家,请为新品智能手表撰写一篇小红书文案,重点突出健康监测功能和商务场景适配性。
3/17/2025 12:22:00 AM
数师兄
  • 1