서울 선언 및 프론티어 AI 안전 약속 [KO]

사용 가능 언어: EN, KO

이 페이지는 원문 영어 기사의 번역본입니다. 메뉴 및 탐색 기능은 영어로만 제공됩니다.

안전하고 혁신적이며 포용적인 AI를 위한 서울 선언에 이어, 우리는 한국 AI 안전(Korea AI Safety)에 참여하여 알고리즘이 모델과 관련 핵심 인프라 양측을 포함하여 안전한 방식으로 공공, 보조 및 접근성 분류 체계를 어떻게 촉진할 수 있는지 더욱 확대해 나가고 있습니다.

관련

블레치리 선언과 AI 안전

AI 협약 및 AI법 시행을 위한 다음 단계: 접근성 및 공공 시스템

범용 AI 실행 강령(워킹그룹 2, 3)

서울 AI 안전 선언은 2024년 5월 21일 AI 서울 정상회의에서 채택되었으며, 전년도 블레치리 선언을 기반으로 합니다. 10개국 및 유럽연합(EU) 지도자들이 서명한 이 선언은 인공지능(AI)의 안전하고 혁신적이며 포용적인 발전을 보장하기 위한 국제적 협력의 필요성을 강조합니다. 이 선언은 법치주의에 부합하는 인간 중심 AI의 중요성을 강조합니다. 또한 디지털 격차 해소와 글로벌 협력 강화를 통해 AI의 도전과 기회를 해결할 것을 촉구합니다.

서울 정상회의의 주요 성과로는 국제 AI 안전 연구소 네트워크 구축이 있습니다. 이 네트워크는 영국, 미국, 일본, 프랑스, 독일, 이탈리아, 싱가포르, 한국, 호주, 캐나다, 유럽연합의 기관들을 한데 모았습니다. 이 네트워크는 안전 연구 협력 촉진, 모범 사례 공유, AI 안전성 향상을 위한 기술 자원 개발을 목표로 합니다.

또 다른 성과는 프론티어 AI 안전 약속 도입입니다. 아마존, 구글, 메타, 마이크로소프트, 앤트로픽, 오픈AI 등 16개 글로벌 AI 기업들은 첨단 AI 시스템이 초래하는 "용납할 수 없는 위험"을 정의하고 공개하기로 약속했습니다. 이 약속들은 사이버 보안, 모델 자율성, 사회적 혼란 등 핵심 분야에 초점을 맞춥니다. 해당 기업들은 위험 관리 전략을 명시한 안전 프레임워크를 공개하기로 약속했으며, 여기에는 투명성 강화, 내부 및 외부 레드팀 활동 수행, 제3자 취약점 보고 장려 등이 포함됩니다. 이러한 노력은 사전적 위험 관리와 안전한 AI 개발을 위한 글로벌 표준 수립을 향한 중요한 진전을 의미합니다.

프론티어 AI 안전 약속

이 선언문은 프론티어 AI 안전 약속으로 보완됩니다. 이는 강력한 범용 AI 모델과 관련된 심각한 위험을 관리하기 위한 선도적 AI 기관들의 자발적 서약입니다.

엄격한 위험 평가: 기업들은 AI 모델을 훈련 전과 훈련 중, 그리고 배포 전에 잠재적 피해를 평가할 것을 약속합니다. 이는 내부 테스트와 외부 평가를 모두 포함합니다.

"용납할 수 없는" 위험 정의 및 관리: 중요한 약속은 심각하고 용납할 수 없는 위험에 대한 명확한 기준을 설정하는 것입니다. 이러한 기준이 충족되고 완화 조치가 불충분할 경우, 해당 기관들은 모델을 전혀 개발하거나 배포하지 않겠다고 다짐합니다.

견고한 거버넌스 및 투명성: 이는 강력한 내부 안전 프레임워크 구축, 진행 상황 공개 보고, 외부 전문가와의 "레드팀(AI 스트레스 테스트)" 협력, 사이버 보안 강화, 모델 기능 및 위험에 대한 정보 선택적 공유를 포함합니다.

AI 안전성과 공공 시스템

공개 토론에서의 우리의 의견과 참여는 프론티어 AI 안전성 약속이 어떻게 더욱 정교화되어 광범위한 프로토콜 및 공공·보조 시스템 분류 체계와 조화를 이룰 수 있는지에 관한 것이었습니다. 특히 대규모 언어 모델(LLM), 소규모 언어 모델(SLM), 비전-언어 모델(VLM), 신흥 3D 파운데이션 모델, 다중 모달 능력 등 기초 및 응용 AI 모델 모두에 초점을 맞췄습니다. 이러한 모델들은 보조 기술, 의료, 공공 영역에서 핵심적입니다. AI 안전 연구소는 보조 로봇에서 접근성 도구까지 광범위한 시스템과 인터페이스를 포괄할 수 있도록 노력과 역량을 구조화해야 합니다. 실제 환경을 시뮬레이션하여 AI 모델의 안전성과 접근성을 보장하는 규제 샌드박스 및 테스트베드에 특별한 주의를 기울여야 합니다. 예를 들어 음성 지원 기기나 이동 보조 장치 같은 보조 AI 시스템은 특히 다양한 인지·감각·신체 장애를 가진 사용자와 상호작용할 때 안전하게 작동하도록 이러한 환경에서 준수 테스트를 거쳐야 합니다.

프론티어 AI 모델은 데이터 요구사항, 컴퓨팅 파워, 전력, 사이버 복원력 등 핵심 기술적 요소를 기준으로 부문별 평가되어야 합니다. 이 평가는 직장, 의료, 교육 등 고위험 공공 영역에 미치는 실질적 영향도 고려해야 합니다. 위험과 허용 기준은 이론적 성능이 아닌 실제 적용 사례를 통해 정의되어야 합니다. 예를 들어 보조 기술이나 의료 분야에 3D 파운데이션 모델을 도입할 때는 오용을 방지하기 위한 견고성 평가가 엄격히 이루어져야 합니다. 마지막으로, 대중의 의견을 반영하여 AI 개발자는 위험 완화 전후의 안전성 평가 결과를 모두 공개함으로써 위험 관리 전략의 효과성을 명확히 제시해야 합니다.

• • •

참고문헌

¹ 영국 정부. "정상회의 참석자들을 위한 안전하고 혁신적이며 포용적인 AI에 관한 서울 선언: AI 서울 정상회의, 2024년 5월 21일." GOV.UK. 2024년 5월 21일.

² 영국 정부. "인공지능 안전 과학 분야 국제 협력에 관한 서울 의향서, AI 서울 정상회의 2024 (부속서)." GOV.UK. 2024년 5월 21일.

³ 영국 정부. "프론티어 AI 안전 약속, AI 서울 정상회의 2024." GOV.UK. 2024년 5월 21일.

⁴ 영국 정부. "AI 안전, 혁신 및 포용성 증진을 위한 서울 장관 성명: AI 서울 정상회의 2024." GOV.UK. 2024년 5월 22일.

⁵ 전략국제문제연구소(CSIS). "AI 서울 정상회의." 2024년 10월 15일.

⁶ 미국 내 한국경제연구소(KEI). "AI 서울 정상회의에서 주요 약속 발표." 2024년 5월 29일.