《首尔宣言》与前沿人工智能安全承诺 [ZH]
本页面为原始英文文章的翻译版本。请注意,导航功能仍仅提供英文。
继《首尔安全、创新与包容性人工智能宣言》之后,我们加入了韩国人工智能安全联盟,旨在进一步拓展算法如何以安全方式推动公共、辅助及无障碍分类体系的发展,覆盖模型本身及相关关键基础设施等多个层面。
相关链接
《首尔人工智能安全宣言》于2024年5月21日在首尔人工智能峰会期间通过,该宣言以前一年发布的《布莱切利宣言》。由10个国家及欧盟领导人签署的宣言强调,需通过国际协作确保人工智能(AI)的安全、创新与包容性发展。该宣言强调以人为本、遵循法治原则的人工智能发展至关重要,同时倡导弥合数字鸿沟,加强全球合作以应对人工智能带来的挑战与机遇。
首尔峰会的重要成果包括建立国际人工智能安全研究所网络,该网络汇聚了来自英国、美国、日本、法国、德国、意大利、新加坡、韩国、澳大利亚、加拿大及欧盟的机构。其目标是促进安全研究协作、共享最佳实践并开发技术资源以推动人工智能安全发展。
另一项成果是推出《前沿人工智能安全承诺》。包括亚马逊、谷歌、Meta、微软、Anthropic和OpenAI在内的16家全球人工智能企业承诺界定并披露先进人工智能系统带来的“不可容忍风险”。这些承诺聚焦网络安全、模型自主性及社会颠覆等关键领域。这些企业承诺发布安全框架,阐明其风险管理策略,包括提升透明度、开展内部外部红队演练、鼓励第三方漏洞报告等举措。这些行动标志着主动风险管理及建立全球安全人工智能开发标准的重要进展。
前沿人工智能安全承诺
该宣言由前沿人工智能安全承诺补充完善——这是领先人工智能机构自愿作出的一系列承诺,旨在管控强大通用人工智能模型带来的严重风险
严格风险评估:企业承诺在训练前、训练期间及部署前评估人工智能模型的潜在危害。这包括内部测试和外部评估。
界定并管控“不可容忍”风险: 关键承诺在于为严重不可接受风险设定明确阈值。若触发阈值且缓解措施不足,相关机构承诺完全停止该模型的开发与部署。
稳健治理与透明度:包括建立严密的内部安全框架、公开进展报告、与外部专家开展“红队演练”(AI压力测试)、强化网络安全,并有选择性地分享模型能力与风险信息。
人工智能安全与公共系统
我们参与公共讨论的输出内容包括:如何进一步完善前沿人工智能安全承诺,使其与公共辅助系统的广泛协议体系和分类体系相契合。重点关注基础与应用型人工智能模型,如大型语言模型(LLMs)、小型语言模型(SLMs)、视觉语言模型(VLMs)及新兴的3D基础模型与多模态能力。这些模型对辅助技术、医疗保健及公共场景至关重要。人工智能安全机构必须构建涵盖广泛系统与接口的能力体系,从辅助机器人到无障碍工具。应特别关注模拟真实环境的监管沙盒与测试平台,确保人工智能模型安全且可访问。例如,语音设备或移动辅助装置等辅助型人工智能系统,必须在这些环境中接受合规性测试,确保其安全运行——尤其在与存在认知、感官或肢体障碍的用户交互时。
前沿人工智能模型应为基础关键技术要素进行评估,包括跨领域的数据需求、计算能力、电力消耗及网络弹性。此类评估还需考量对工作场所、医疗保健及教育等高风险公共领域的实际影响。风险与阈值设定应为基础实际应用场景,而非仅考量理论能力。例如将三维基础模型应用于辅助技术或医疗领域时,需严格评估其稳健性以防滥用。最后,呼应公众意见,人工智能开发者应公开风险缓解措施实施前后的安全评估结果,清晰展示其风险管理策略的有效性。
• • •
参考文献
¹ 英国政府。《2024年5月21日首尔人工智能峰会领导人会议参与者关于安全、创新与包容性人工智能的宣言》。GOV.UK。2024年5月21日。
² 英国政府。《2024年首尔人工智能峰会关于人工智能安全科学国际合作的意向声明(附件)》。GOV.UK。2024年5月21日。
³ 英国政府。《前沿人工智能安全承诺,2024首尔人工智能峰会》。GOV.UK。2024年5月21日。
⁴ 英国政府。《推进人工智能安全、创新与包容性首尔部长级声明:2024首尔人工智能峰会》。GOV.UK。2024年5月22日。
⁵ 战略与国际研究中心。《首尔人工智能峰会》。2024年10月15日。
⁶ 美国韩国经济研究所。《首尔人工智能峰会发布重大承诺》。2024年5月29日。