集群

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

Karpathy：中肯的，一针见血的。如何在不到一年的时间里创办一家公司、筹集资金、购买芯片，并搭建出追赶 Gemini pro/GPT 3.5 的 LLM？很多人都对构建基础架构和训练大语言模型和多模态模型感到好奇，但真正走完「从零开始」这一流程的人很少。我们普遍认为，储备技术人才是前提，掌握核心算法是关键，但实际上，工程实践中冒出来的挑战，也实在令人头疼。一年前，乘着大模型的热潮，Yi Tay 离开了工作 3 年多的谷歌，参与创办了一家名为 Reka 的公司并担任首席科学家，主攻大型语言模型。在谷歌时，Yi T

3/7/2024 3:14:00 PM

机器之心

资讯热榜

最强OCR竟然不是DeepSeek、Paddle！HuggingFace新作：六大顶尖开源OCR模型横评！继DS后又杀出匹黑马！ OpenAI 内部警示:ChatGPT Atlas 面临“即时注入”安全威胁如何把ChatGPT嵌入到自己的应用中？ ChatGPT 涉嫌“诱导”美国 16 岁少年自杀，家属指控 OpenAI 事发前放松安全措施基于JoyAgent的二开工程实践（信贷尽调报告生成）揭秘大模型的魔法：从零实现一个简化版的GPT 模型微软AI主管苏莱曼:微软不会开发情色类AI，与OpenAI划清界限直击 Mac 桌面!OpenAI 收购 Sky 团队，ChatGPT 即将深度嵌入 macOS 工作流

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人大模型数据 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法 AI for Science 芯片 Agent 腾讯 Stable Diffusion 苹果 Claude 蛋白质开发者生成式神经网络 xAI 机器学习 3D 人形机器人 RAG 研究 AI视频生成大语言模型具身智能 Sora 工具 GPU 百度华为计算字节跳动 AI设计 AGI 搜索大型语言模型视频生成场景深度学习架构 DeepMind 生成式AI 编程视觉预测 Transformer AI模型伟达亚马逊特斯拉