神经网络

小白也能轻松理解的大模型入门锦囊！

一、何为大模型？大模型，英文名叫Large Model，也被称为基础模型（Foundation Model）。我们通常说的大模型，主要指的是其中最常用的一类——大语言模型（Large Language Model，简称LLM）。

3/3/2025 10:00:00 AM

小喵学AI

断交OpenAI后，人形机器人独角兽首秀：一个神经网络控制整个上身，能听懂人话可抓万物

与OpenAI断交之后，Figure首个成果出炉：Helix，一个端到端通用控制模型，它能让机器人像人一样感知、理解和行动。只需自然语言提示，机器人就能拿起任何东西，哪怕是从没见过的东西，比如这个活泼的小仙人掌。从官方放出的演示中可以看到，它在接收到人类的提示后，就会按照指令逐一拿起桌上的物品放进冰箱。

2/21/2025 6:05:54 AM

清华“太极-Ⅱ”光芯片面世：成果登 Nature，首创全前向智能光计算训练架构

据清华大学官方消息，清华大学电子工程系方璐教授课题组、自动化系戴琼海院士课题组另辟蹊径，首创了全前向智能光计算训练架构，研制了“太极-II”光训练芯片，实现了光计算系统大规模神经网络的高效精准训练。该研究成果以“光神经网络全前向训练”为题，于北京时间 8 月 7 日晚在线发表于《自然》期刊。AI在线查询获悉，清华大学电子系为论文第一单位，方璐教授、戴琼海教授为论文的通讯作者，清华大学电子系博士生薛智威、博士后周天贶为共同一作，电子系博士生徐智昊、之江实验室虞绍良博士参与了该项工作。该课题受到国家科技部、国家自然科学

8/8/2024 9:05:32 AM

汪淼

为什么要纯C语言手搓GPT-2，Karpathy回应网友质疑

Karpathy：for fun.几天前，前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 发布了一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」。llm.c 旨在让大模型（LM）训练变得简单 —— 使用纯 C 语言 / CUDA，不需要 245MB 的 PyTorch 或 107MB 的 cPython。例如，训练 GPT-2（CPU、fp32）仅需要单个文件中的大约 1000 行干净代码（clean code），可以立即编

4/11/2024 3:18:00 PM

机器之心

神经网络debug太难了，这里有六个实用技巧

神经网络的 debug 过程着实不容易，这里是一些有所帮助的 tips。

6/11/2021 2:24:00 PM

机器之心

资讯热榜

DeepSeek刚提到FP8，英伟达就把FP4精度推向预训练，更快、更便宜多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快联合国成立人工智能咨询小组宾州州立大学推出首个人工智能工程学位，抢占教育先机深度测评！谷歌全新AI模型Nano Banana（附30+提示词案例） AI 安全测试揭示聊天机器人助长恐怖活动与网络犯罪 Meta 新超级智能实验室遭遇离职潮，AI 人才流失引发担忧亿万富翁丹・洛布减持台积电，转投另一家万亿人工智能公司

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌机器人数据大模型 Midjourney 开源智能 Meta 用户微软 GPT 学习技术图像 Gemini 马斯克 AI创作智能体 Anthropic 英伟达论文 AI新词代码训练算法 Stable Diffusion LLM 芯片蛋白质腾讯开发者 Claude 苹果生成式 AI for Science Agent 神经网络 3D 机器学习研究 xAI 生成人形机器人 AI视频计算百度 Sora GPU 华为 AI设计工具 RAG 大语言模型搜索具身智能字节跳动大型语言模型场景深度学习预测视频生成伟达视觉 Transformer AGI 架构亚马逊神器推荐 Copilot 特斯拉应用 DeepMind