编辑 | 云昭
出品 | 51CTO技术栈(微信号:blog51cto)
Meta 化身“人才收割机”的节奏简直停不下来。
此前从 OpenAI、谷歌花天价薪酬挖走了多达 8 位顶尖人才。现在,那个让我们非常熟悉的、经常在直播宣发中出现的大佬,o 系列模型的两位核心研究人员 Jason Wei 和 Hyung Won Chung,也被 Meta 一道挖走了。
刚刚有消息证实,这两位大佬的 Slack 账号已经被停用。
多提一嘴,OpenAI 别看公司已经很大了,但内部还没有自己的邮箱,沟通全靠Slack 活着。
不过,至于下一站是否是 Meta,目前还没有看到大佬本人的回应。
目前,小编发现, X 上 Jason 在两个小时前,连发两条长文,阐明自己对于强化学习的热爱。
两篇推文中蕴含着浓浓的“人生总结”的味道。尤其上面那篇,“要想超越老师,必须走自己的路”,似乎在回应着这场突发的别离。
但当网友发出证实疑问:离职去 Meta,是真的吗?
Jason 并没有给出回应。
另一位大佬 Hyung Won Chung 则在 2 小时前 X 上没有给出回应,只是转了一个斯坦福的讲座视频。
这个视频中的主角则是 Jason Wei 和 Hyung Won Chung,演讲内容则是有关缩放定律和惨痛教训的故事。
这波回忆杀,似乎也在透露两人共同经历的美好时光。
我是 RL死忠粉,但——要想超越老师,必须走自己的路,强化自己
成为过去一年里一位 RL(强化学习)死忠粉,并且大部分清醒时光都在思考 RL,无意中教会了我一个关于如何活好自己人生的重要课题。
在 RL 中,一个核心概念就是:你总是希望“在策略上(on-policy)”进行学习。也就是说,不是去模仿别人的成功路径,而是根据你自己的行为,从环境中获得奖赏并学习。显然,模仿学习在初期帮助你获得非零通过率非常有用,但一旦你能走出“合理的路径”,我们通常就避免继续用模仿学习,因为最有效发挥模型自身独特优势的方式,就是只从它自己的行动轨迹中学习。一个被广泛接受的体现是:在训练语言模型解决数学题时,RL 方法优于简单地用人类写下的思路链做监督微调。
在人生中,情况也一样。我们最开始通过“模仿学习”自我启动(上学阶段),这是非常合理的。但即便毕业后,我依然有个惯性——研究别人的成功路径,然后去模仿。有时,这种方法会奏效,但我最终意识到——我永远无法超过那个榜样,因为他们做事时用的是我没有的优势。可能是:某个研究者自己搭建整个代码库,一下子就 yolo(随性尝试)跑通一堆实验,而我并没那能力;又或者是足球中的例子:某个球员用力量压制对手控球,而我却没有那力量。
“RL 在策略上学习”的课题告诉我:想要超越老师,必须走自己的路,承担风险,从环境中直接获取奖赏。比如,我有两个方面比普通研究者更享受:
- 阅读大量数据;
- 做 ablation(消融实验),以理解系统中各组件的作用。
记得有次我在收集数据时,花了几天时间认真读每一条数据,并给每个标注员反馈,结果数据质量大幅提升,我对手头任务的理解也更深入。就在今年早些时候,我花了整整一个月,对之前“随性 yolo”的那些决策做了一次全面的消融实验。虽然时间成本不小,但正是这些实验让我对“哪种类型的 RL 更有效”有了独特洞见。更重要的是,这种追随自己兴趣的方式不仅让我更有成就感,也让我觉得自己正走在一条为自己和研究构建更强独特赛道的路径上。
总结一下:模仿当然有益,且起步必须。但当你启动得够稳健之后,想要胜过老师,就必须“on-policy”地强化自己,用你自己的优势拼出新高度 😊
好了,文章就到这里了,硅谷的人才流动氛围就是如此,小编非常期待生成式AI时代,多强争相引领风骚的局面,也祝愿每一位大佬得偿所愿,前程锦绣。
最后附上那场惊艳了小编的直播截图,权作一个阶段凌晨追踪报道的纪念吧!