AIGC宇宙 AIGC宇宙

讲座预约丨四位专家大论道 :大模型时代的强化学习丨GAIR live

作者:岑大师
2024-08-23 11:43
站在科技创新的浪潮之巅,我们见证了人工智能领域的巨大飞跃,尤其是大模型技术与强化学习中的结合和突破性应用,正在引领我们进入一个全新的智能时代。 在过去几年中,强化学习作为人工智能的一个重要分支,已经从理论研究的深奥殿堂走向了实践应用的广阔天地,从实验室的封闭空间走向了我们日常生活的各个角落。 在自动驾驶、游戏AI、机器人控制等领域,强化学习的身影无处不在,它们正逐步成为我们生活中不可分割的一部分。

站在科技创新的浪潮之巅,我们见证了人工智能领域的巨大飞跃,尤其是大模型技术与强化学习中的结合和突破性应用,正在引领我们进入一个全新的智能时代。

在过去几年中,强化学习作为人工智能的一个重要分支,已经从理论研究的深奥殿堂走向了实践应用的广阔天地,从实验室的封闭空间走向了我们日常生活的各个角落。在自动驾驶、游戏AI、机器人控制等领域,强化学习的身影无处不在,它们正逐步成为我们生活中不可分割的一部分。

而当我们展望未来时,大模型技术将在强化学习领域扮演何种角色?它们将如何进一步联动,推动强化学习和大模型技术的发展,使其更加智能、高效,并更好地服务于人类社会?

这些问题不仅激发了科技界的无限遐想,也引领着我们不断探索和前进。随着大模型技术的不断进步,我们有理由相信,未来的强化学习将更加贴近人类的需求,成为我们生活中更加紧密的合作伙伴。

讲座预约丨四位专家大论道 :大模型时代的强化学习丨GAIR live

本次论坛荣幸邀请到了:新加坡南洋理工大学校长讲席教授,人工智能系主任安波教授、南京大学人工智能学院俞扬教授、天津大学智能与计算学部、华为诺亚决策推理实验室主任郝建业副教授、清华大学交叉信息研究院许华哲助理教授,将分享他们的深刻见解和最新研究成果。

在这场论坛中,我们将深入探讨以下几个核心议题:

全球视野下的突破: 在国内外,哪些学术团队和工业团队在强化学习领域取得了显著成就?他们的研究成果如何推动了这一领域的发展?

大模型的融合与创新: 如何利用大模型技术提升强化学习的效率和智能性?在这一过程中,我们面临哪些技术难题,又是如何一一克服的?

强化学习的实际应用: 强化学习技术在自动驾驶、游戏AI、机器人控制等领域有哪些成功的应用案例?这些应用如何改变了我们的生活?

未来趋势与挑战: 随着技术的不断进步,强化学习将面临哪些新的挑战和机遇?我们应该如何准备迎接这些变化?

技术与伦理的平衡: 在强化学习技术快速发展的同时,我们应该如何确保技术的伦理性和可持续性?

添加策划人 岑峰 微信(微信号:8019788),备注“姓名+职位”,即可邀请进入专家群,实时交流与提问。

嘉宾介绍

讲座预约丨四位专家大论道 :大模型时代的强化学习丨GAIR live

安波,南洋理工大学计算机科学与工程学院校长讲习教授、人工智能系主任

安波博士现任南洋理工大学计算机科学与工程学院校长讲席教授、人工智能系主任,人工智能研究院联席院长。主要研究领域包括人工智能、多智能体系统、算法博弈论、强化学习及优化。他是国际人工智能顶级期刊 AIJ、JAIR、JAAMAS 等副主编,有 150 余篇论文发表在人工智能领域的国际顶级会议 AAMAS、IJCAI、AAAI、ICAPS、KDD、UAI、EC、WWW、ICLR、NeurIPS、ICML,先后多次获得会议杰出论文奖,在国际评测比赛中也屡获佳绩。他在人工智能领域内有重要影响力和专业认可度,2018 年入选 IEEE Intelligent Systems 杂志评选的“AI’s 10 to watch”。他将担任IJCAI’27的程序委员会主席。

讲座预约丨四位专家大论道 :大模型时代的强化学习丨GAIR live

俞扬,南京大学人工智能学院教授

俞扬博士现任南京大学人工智能学院教授,博士生导师。主要研究领域为人工智能、机器学习、强化学习、演化学习。共同出版专著《Evolutionary Learning: Advances in Theories and Algorithms》(2019)及其中文版本《演化学习:理论与算法进展》(2021)。在Artificial Intelligence、TPAMI、TKDE、TNNLS、NeurIPS、ICML、IJCAI、AAAI、KDD等人工智能、机器学习和数据挖掘国际顶级期刊和顶级会议发表多篇论文,研究成果获得DAI'23 Best Paper、IDEAL'16 Best Paper、KDD'12 Best Poster、GECCO'11 Best Theory Paper、PAKDD'08 Best Paper等论文奖,获得ICAPS'21 L2RPN with Trust冠军、OpenAI RetroContest 2018冠军、PAKDD’06数据挖掘竞赛冠军等竞赛奖。

讲座预约丨四位专家大论道 :大模型时代的强化学习丨GAIR live

郝建业,华为诺亚决策与推理实验室主任,天津大学智算学部副教授

郝建业博士,华为诺亚决策推理实验室主任,天津大学智算学部副教授。主要研究方向为深度强化学习、多智能体系统。发表人工智能领域国际会议和期刊论文100余篇,专著2部。 主持国家科技部2030人工智能重大项目课题、基金委人工智能重大培育项目、国防科技创新重点项目课题等项目10余项,研究成果荣获国际会议最佳论文奖3次,NeurIPS20-22大会竞赛冠军4次。相关成果在工业基础软件智能化、自动驾驶、游戏AI、广告及推荐、5G优化、物流调度等领域落地应用。

讲座预约丨四位专家大论道 :大模型时代的强化学习丨GAIR live

许华哲,清华大学交叉信息研究院助理教授

许华哲博士现任清华大学交叉信息研究院助理教授,博士后就读于斯坦福大学,博士毕业于加州大学伯克利分校。其研究领域是具身人工智能(Embodied AI)的理论、算法与应用,具体研究方向包括深度强化学习、机器人学、基于感知的控制(Sensorimotor)等。其科研围绕具身人工智能的关键环节,系统性地研究了视觉深度强化学习在决策中的理论、模仿学习中的算法设计和高维视觉预测中的模型和应用,对解决具身人工智能领域中数据效率低和泛化能力弱等核心问题做出多项贡献。其发表顶级会议论文四十余篇,代表性工作曾被MIT Tech Review,Stanford HAI等媒体报道。

讲座信息

主题: 大模型时代的强化学习

时间: 8月28日(周三),北京时间20:00-22:00

参考资料:

1,TWOSOME: An Efficient Online Framework to Align LLMs with Embodied Environments via Reinforcement Learning

https://gairdao.com/doi/10.1142/S2972335324500042

2,《对话南洋理工大学安波教授:如何让大语言模型适应动态环境?丨IJAIRR》https://mp.weixin.qq.com/s/85TOawIFQ6uZaGXR4Y2RCA

IJAIRR正在邀约论文和专题

《International Journal of Artificial Intelligence and Robotics Research》(简称IJAIRR),是由新加坡GAIR研究院与世界科技出版社(WSP)联合出版的国际学术期刊。

作为全球首本专注于人工智能(AI)、机器人技术(Robotics)以及基础科学交叉研究(Research)的期刊,IJAIRR致力于成为AI与机器人领域研究的权威发布平台。

IJAIRR欢迎各类研究论文、评论文章、短篇论文、书评以及专题(Special Issue)形式的投稿。我们特别关注那些在顶级AI会议上发表并现场展示,但缺乏长期沉淀平台的优秀论文。为了给这些论文及其作者提供一个更广泛的发表和推广渠道,IJAIRR现正积极邀约相关论文投稿。

如果您在本领域顶级会议上发表的文章(或即将发表)不超过一年,我们将协助您稍作修改后在IJAIRR期刊上发表。

如果您领导的团队在顶级会议上有多篇论文发表,并希望在IJAIRR上围绕特定主题策划一个专题(Special Issue),我们诚挚邀请您深入讨论合作事宜。

如果您是顶级会议的组织者,并有意与IJAIRR合作,针对特定会议策划一个专题(Special Issue),我们也期待与您具体商讨合作细节。

IJAIRR期待与您携手,共同推动人工智能与机器人研究的发展。

联系人:IJAIRR创刊主编朱晓蕊博士,[email protected]

关于期刊创刊主编等更多信息,可点击  https://mp.weixin.qq.com/s/gEctQolbEqqf2eVwBAkdoA

https://mp.weixin.qq.com/s/Qn7Gc3rVijQhhK0hTSrgxw

IJAIRR期刊的主页链接为:

https://gairdao.com/journals/ijairr

相关标签:

相关资讯

对话南洋理工大学安波教授:如何让大语言模型适应动态环境?丨IJAIRR

对人类越是简单的问题,大语言模型反而越难以做好? 尽管现在的大模型已经有能力冲击数学竞赛级别的题目,但在像“9.11和9.9谁大”这样的简单问题上仍然会翻船。 而从推特上网友对问题的讨论中猜测,出现这种错误的原因可能是由于大模型以token的方式来理解文字,当9.11被拆成“9”、“.”和“11”三部分时,11确实比9大。
7/18/2024 10:09:00 AM
岑大师

大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

一个7B奖励模型搞定全学科,大模型强化学习不止数学和代码。 o1/r1的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构化程度高,奖励函数/奖励模型比较好设计。 那么,想提升大模型在其他学科领域的能力该怎么办?
4/3/2025 9:23:08 AM
量子位

学术打假!清华上交大研究颠覆认知:强化学习竟是大模型推理的"绊脚石"

【研究颠覆】清华大学与上海交通大学联合发表的最新论文,对业界普遍认为"纯强化学习(RL)能提升大模型推理能力"的观点提出了挑战性反驳。 研究发现,引入强化学习的模型在某些任务中的表现,反而逊色于未使用强化学习的原始模型。 【实验验证】研究团队在数学、编码和视觉推理三大领域进行了系统性实验:数学任务:在GSM8K、MATH500等基准测试中,RL模型在低采样次数(k值)下准确率提升,但在高k值时问题覆盖率显著下降编码任务:RLVR训练模型在HumanEval 等测试中单样本pass@1分数提高,但在高采样数(k=128)时覆盖率下降视觉推理:Qwen-2.5-VL-7B模型在多模态任务中表现一致,RL未改变其基本问题解决策略【学界争议】研究结果引发学界激烈讨论:支持方认为RL提高了采样效率但限制了推理能力开发反对方指出可能是奖励结构缺陷而非RL本身问题中立观点建议结合蒸馏等其他方法增强推理【本质思考】研究团队提出关键区分:能力:模型解决问题的潜质与逻辑链条效率:在给定能力范围内得出答案的速度与稳定性强化学习更像是"能力调控器"而非"能力创造器",它能让模型更擅长做已知的事,但难以开发新的推理路径。
4/23/2025 2:00:43 PM
AI在线
  • 1