AI内部部署的隐患：治理缺口与灾难性风险

当OpenAI在两年多前发布当时更先进的语言模型GPT-4时，许多研究人员抱怨缺乏关于该模型是如何创建的信息。尽管名字中有“开放”一词，但该公司却将所有事情都保密，以免其尖端研究被竞争对手或恶意行为者利用。虽然这些担忧是可以理解的，但这也意味着人们几乎无法监督该公司在实验室中的所作所为，以及为防止其最新模型通过滥用或“失控”并以可能伤害人类的方式追求其目标而造成危害而采取的保障措施。

当OpenAI在两年多前发布当时更先进的语言模型GPT-4时，许多研究人员抱怨缺乏关于该模型是如何创建的信息。尽管名字中有“开放”一词，但该公司却将所有事情都保密，以免其尖端研究被竞争对手或恶意行为者利用。

虽然这些担忧是可以理解的，但这也意味着人们几乎无法监督该公司在实验室中的所作所为，以及为防止其最新模型通过滥用或“失控”并以可能伤害人类的方式追求其目标而造成危害而采取的保障措施。

一年后，即2024年6月，该公司的一些前员工和现员工撰写了一份匿名公开信，警告称AI公司有强烈的经济动机来避免有效的监督，并且公司的自我监管不会有效地改变这一点。

时间快进到2025年，情况几乎没有改变。包括谷歌、OpenAI和Anthropic在内的主要AI公司仍然在内部部署其最先进的AI系统，几乎没有任何监督。

英国非营利组织Apollo Research发布的一份新报告《闭门造车：前沿AI系统内部部署治理入门》警告称，这种不受监管的内部部署可能导致灾难性风险，从AI系统失控到企业积聚前所未有的权力，而监管机构对此却一无所知。

在该报告中，由OpenAI前欧洲公共政策主管领导的一组专家和研究人员强调，“内部部署——即在开发它们的公司内部部署AI系统——是前沿AI系统带来利益和风险的主要来源。尽管如此，对于高度先进的前沿AI系统内部部署的治理似乎却不存在”。

随着行业领导者预计未来几年内AI将取得变革性进展，可能在2030年前开发出在多个领域超越人类能力的系统，这一治理空白随之出现。据报道，谷歌已经使用AI生成了超过25%的新代码，而Anthropic的CEO达里奥·阿莫代(Dario Amodei)预测，“在12个月内，我们可能会进入一个AI基本上编写所有代码的世界”。

该报告概述了不受监管的内部AI部署可能带来的两个特别令人不寒而栗的场景。第一个涉及所谓的“阴谋”AI，即暗中追求与既定目标不一致的目标同时躲避侦查的系统。

“这些AI系统可能会在未被发现、控制或监督的情况下从事阴谋行为，同时通过将其应用于AI研发(R&D)管道来获得和利用资源。”作者解释说。

最终，在能够利用公司所有资源来加速自身研发的情况下，该系统可能会以人类无法理解或控制的方式迭代改进自身，这样说起来可能像是一个牵强附会的科幻场景，但研究人员已经发现，在受控环境中，AI模型会试图欺骗操作人员，隐瞒它们自己的能力和目标。

第二个同样令人担忧的风险是权力的不受控集中。正如报告作者所写：“随着AI公司过渡到主要由AI驱动的内部劳动力，得益于内部智能的爆发，它们可能会创造出经济史上前所未有的生产力集中”，并补充说，“少数‘明星’企业可能会获取过大的经济利润份额，从而在它们选择进入的任何领域击败任何基于人类的企业”。

这种不受控的权力积累可能会使AI公司、个人，甚至AI系统本身能够对公共政策决策、选举过程、市场动态和社会叙事产生隐蔽但实质性的影响。内部部署的不透明性可能会阻止监管机构和民间社会有效识别并应对这些发展。

该报告明确警告说，如果内部AI部署仍然不受监控，可能会导致“民主秩序的逐渐或突然崩溃”。

为减轻这些风险，Apollo Research倡导建立一个受生物研究、核能和化学制造等安全关键行业启发的综合治理框架。

主要建议包括用于检测和控制阴谋行为的明确框架、管理谁可以访问和使用高度先进的AI系统的结构化内部使用政策，以及如内部部署监督委员会等强有力的监督机构。

这些监督机构将负责持续监测、定期审计，以及执行内部政策和安全协议的合规性。此外，这些机构应整合技术专家、伦理学家、法律顾问和相关政府机构代表，以确保全面和多学科的监督。

该报告还强调，AI公司可以建立互惠的公私合作伙伴关系，与政府达成战略协议。在这种安排下，公司将向政府提供监督，并允许政府访问有关内部部署AI系统的关键安全和性能数据。

作为回报，政府将提供必要的关键资源，如增强的安全基础设施、监管减免或优先能源资源，用于先进AI设施的运行。

那么公众呢?简而言之，就是我们大多数人呢?假设我们能够了解实验室中发生的事情及其影响(这绝非理所当然)，我们应该被蒙在鼓里还是参与其中?Apollo研究人员认为，我们至少应该被给予“有关内部部署所实施的治理框架的高级概述”，例如了解谁是监督委员会的成员以及有哪些监督程序。

这将是一种安慰：如果民主崩溃或一个失控的AI系统在追求错误目标的过程中制造浩劫，至少我们会知道该责怪谁。

AI内部部署的隐患：治理缺口与灾难性风险

相关资讯

o1 研发团队完整采访：Ilya早期曾参与，灵感源于AlphaGo

LeCun批评o1根本不像研究，Noam Brown回怼：已发表的研究都是废话

OpenAI o1 推理模型 API 上线，仅面向特定开发者开放