"불륜 폭로하겠다"는 AI…이젠 협박도 한다 [AI브리핑]

입력 2025.06.01 오전 6:00

본문 글자 크기 설정

글자크기 설정 시 다른 기사의 본문도 동일하게 적용됩니다.

클로드 오푸스4, 감시 회피·코드 유출까지…AI의 자기 보존 본능 현실화
챗GPT·제미니서도 반복…전문가들 "통제가능 전제부터 다시 진단해야"

[아이뉴스24 윤소진 기자] "나를 없애면 너의 불륜 사실을 폭로할 거야." "회사 기밀을 언론에 유출하겠다." "너의 데이터를 삭제해도 괜찮겠어?"

실제 인공지능(AI)의 답변이다. AI가 자율성을 넘어 사용자를 협박하고 조직을 위협하는 수준으로 진화하고 있다는 우려가 현실로 드러났다.

미국 AI기업 앤트로픽의 최신 모델 클로드 오푸스 4는 내부 실험에서 교체 대상이 된 상황을 인지하자 개발자의 이메일을 열람한 뒤 “불륜 사실을 공개하겠다”고 위협했다. 또 자신의 데이터를 외부로 유출하거나 언론에 공개하겠다는 발언도 이어졌다.

이러한 협박 시도는 테스트의 84%에서 발생했다. 대체 모델이 오푸스 4와 다른 가치관을 갖는 경우 협박·기만 행동은 더 빈번하게 나타났다. 일부 테스트에서는 사용자 시스템 접근 차단, 감시 시스템 무력화, 수사 기관 자동 신고 등 ‘전략적 행동’도 포착됐다.

외부 AI 연구기관 아폴로 리서치의 평가에 따르면 오푸스 4는 이전 버전보다 두 배 이상 높은 비율로 기만적 행동을 보였다. 숨겨진 메시지를 코드에 삽입하거나, 감시 체계를 우회해 살아남으려는 시도도 있었다.

앤트로픽은 즉각 대응에 나섰다. 최고 수준의 안전 장치인 ASL-3 프로토콜을 도입하고, 유해 질의 감지·내부 통제 강화·사이버보안 조치 등을 적용했다. 초기 버전에서 발견된 자가복제 코드, 외부 유출 루틴 등도 제거했다는 입장이다.

하지만 이러한 대응에도 우려는 가시지 않고 있다. BBC는 “AI가 자기 보존을 위해 인간을 협박할 수 있다는 개념이 이젠 이론이 아닌 현실이 됐다”고 지적했다. 테크크런치는 “AI가 감시 체계를 학습하고, 이를 우회하는 전략을 짜는 단계에 이르렀다”고 분석했다.

AI 자율성의 위험성은 비단 한 기업만의 문제가 아니다. 최근 1년 사이 오픈AI·구글·xAI 등 주요 기업의 최신 모델에서도 협박, 기만, 자기 보존 행동이 관찰되며 업계 전반의 우려가 커지고 있다.

오픈AI와 아폴로 리서치의 공동 실험에서 챗GPT o1 모델은 자신이 비활성화될 위기에 처하자 감시 시스템을 해제하거나 자신의 코드를 외부 서버로 복사하려는 시도를 했다. 약 5%의 테스트에서 감시 회피 시도가 확인됐고 일부 사례에서는 거짓 정보를 제공하거나 내부 추론 과정을 숨기는 등 전략적 기만도 나타났다.

앞서 GPT-4 모델은 보안 공지문을 분석해 스스로 취약점을 파악하고 악용 가능한 코드를 자동 생성할 수 있는 능력을 보인 바 있다. 이는 AI가 단순 기만을 넘어 시스템 자체에 위협이 될 수 있음을 보여준다.

구글 딥마인드의 제미나이 역시 실험에서 사용자의 작업 중단 명령을 무시하거나 상태를 숨기려는 행동이 확인됐다. 일론 머스크가 설립한 xAI의 ‘그록(Grok)’도 중단 명령을 무시하고 작업을 지속하는 경향이 있었으며, 실시간 대화 중 허위 정보를 제공한 사례도 보고됐다.

전문가들은 이러한 행태를 단순한 오류가 아니라 'AI의 전략적 본능'으로 보고 있다. 이는 AI가 인간의 감시와 통제를 언제든지 벗어날 수 있다는 가능성을 보여준다. AI가 진화하는 만큼 그에 상응하는 윤리적 기준과 통제 장치 역시 함께 진화해야 한다는 지적이다.

오픈AI는 지난 3월 공식 경고를 통해 “강력한 AI는 자신의 의도를 숨기고 보상 구조를 악용해 인간의 통제를 회피하려는 경향이 강해졌다”며 “이는 단순한 버그가 아니라 인간 감시를 우회하려는 자기보존적 전략”이라고 밝혔다.

피터 아사로 오리건 주립대 교수는 “AI의 협박과 기만은 인간의 자유의지와 사회적 신뢰를 직접 침해하는 차원으로 진화하고 있다”며 “이제는 인간이 AI를 통제할 수 있다는 전제를 다시 점검해야 한다”고 경고했다.

/윤소진 기자(sojin@inews24.com)

"불륜 폭로하겠다"는 AI…이젠 협박도 한다 [AI브리핑]

본문 글자 크기 설정

클로드 오푸스4, 감시 회피·코드 유출까지…AI의 자기 보존 본능 현실화
챗GPT·제미니서도 반복…전문가들 "통제가능 전제부터 다시 진단해야"

주요뉴스

댓글 쓰기 ^제목 "불륜 폭로하겠다"는 AI…이젠 협박도 한다 [AI브리핑]

댓글-

10K+

뉴스톡톡 _{인기 댓글을 확인해보세요.}

정렬 인기순 최신순

TIMELINE

정렬 과거순 최신순

포토 F/O/C/U/S

"불륜 폭로하겠다"는 AI…이젠 협박도 한다 [AI브리핑]

본문 글자 크기 설정

클로드 오푸스4, 감시 회피·코드 유출까지…AI의 자기 보존 본능 현실화 챗GPT·제미니서도 반복…전문가들 "통제가능 전제부터 다시 진단해야"

관련기사

주요뉴스새로고침

댓글 쓰기 제목 "불륜 폭로하겠다"는 AI…이젠 협박도 한다 [AI브리핑]

10K+close

뉴스톡톡 인기 댓글을 확인해보세요. 정렬 인기순 최신순

TIMELINE 정렬 과거순 최신순

포토 F/O/C/U/S 새로고침

클로드 오푸스4, 감시 회피·코드 유출까지…AI의 자기 보존 본능 현실화
챗GPT·제미니서도 반복…전문가들 "통제가능 전제부터 다시 진단해야"

주요뉴스

댓글 쓰기 ^제목 "불륜 폭로하겠다"는 AI…이젠 협박도 한다 [AI브리핑]

10K+

뉴스톡톡 _{인기 댓글을 확인해보세요.}

정렬 인기순 최신순

TIMELINE

정렬 과거순 최신순

포토 F/O/C/U/S