《首尔宣言》与前沿人工智能安全承诺 [ZH]

阅读语言：EN、ZH

本页面为原始英文文章的翻译版本。请注意，导航功能仍仅提供英文。

继《首尔安全、创新与包容性人工智能宣言》之后，我们加入了韩国人工智能安全联盟，旨在进一步拓展算法如何以安全方式推动公共、辅助及无障碍分类体系的发展，覆盖模型本身及相关关键基础设施等多个层面。

前沿人工智能安全承诺

该宣言由前沿人工智能安全承诺补充完善——这是领先人工智能机构自愿作出的一系列承诺，旨在管控强大通用人工智能模型带来的严重风险

严格风险评估：企业承诺在训练前、训练期间及部署前评估人工智能模型的潜在危害。这包括内部测试和外部评估。
界定并管控“不可容忍”风险： 关键承诺在于为严重不可接受风险设定明确阈值。若触发阈值且缓解措施不足，相关机构承诺完全停止该模型的开发与部署。
稳健治理与透明度：包括建立严密的内部安全框架、公开进展报告、与外部专家开展“红队演练”（AI压力测试）、强化网络安全，并有选择性地分享模型能力与风险信息。

人工智能安全与公共系统

我们参与公共讨论的输出内容包括：如何进一步完善前沿人工智能安全承诺，使其与公共辅助系统的广泛协议体系和分类体系相契合。重点关注基础与应用型人工智能模型，如大型语言模型（LLMs）、小型语言模型（SLMs）、视觉语言模型（VLMs）及新兴的3D基础模型与多模态能力。这些模型对辅助技术、医疗保健及公共场景至关重要。人工智能安全机构必须构建涵盖广泛系统与接口的能力体系，从辅助机器人到无障碍工具。应特别关注模拟真实环境的监管沙盒与测试平台，确保人工智能模型安全且可访问。例如，语音设备或移动辅助装置等辅助型人工智能系统，必须在这些环境中接受合规性测试，确保其安全运行——尤其在与存在认知、感官或肢体障碍的用户交互时。

前沿人工智能模型应为基础关键技术要素进行评估，包括跨领域的数据需求、计算能力、电力消耗及网络弹性。此类评估还需考量对工作场所、医疗保健及教育等高风险公共领域的实际影响。风险与阈值设定应为基础实际应用场景，而非仅考量理论能力。例如将三维基础模型应用于辅助技术或医疗领域时，需严格评估其稳健性以防滥用。最后，呼应公众意见，人工智能开发者应公开风险缓解措施实施前后的安全评估结果，清晰展示其风险管理策略的有效性。

• • •

参考文献

¹ 英国政府。《2024年5月21日首尔人工智能峰会领导人会议参与者关于安全、创新与包容性人工智能的宣言》。GOV.UK。2024年5月21日。

² 英国政府。《2024年首尔人工智能峰会关于人工智能安全科学国际合作的意向声明（附件）》。GOV.UK。2024年5月21日。

³ 英国政府。《前沿人工智能安全承诺，2024首尔人工智能峰会》。GOV.UK。2024年5月21日。

⁴ 英国政府。《推进人工智能安全、创新与包容性首尔部长级声明：2024首尔人工智能峰会》。GOV.UK。2024年5月22日。

⁵ 战略与国际研究中心。《首尔人工智能峰会》。2024年10月15日。

⁶ 美国韩国经济研究所。《首尔人工智能峰会发布重大承诺》。2024年5月29日。

《首尔宣言》与前沿人工智能安全承诺 [ZH]

相关链接

前沿人工智能安全承诺

人工智能安全与公共系统

参考文献