AI가 빠르게 발전하면서 인류는 다음과 같은 의문점이 생겼다. "AI는 과연 인간의 이익과 도덕적 가치에 부합하는 행동을 하는가?"
미국 듀크대와 카네기멜런대 등에서 AI 윤리 분야를 연구하는 월터 시넛암스트롱, 재나 셰닉 보그, 빈센트 코니처는 'Moral AI'라는 책에서 AI가 인간의 실수를 줄이고 판단을 보조하는 시스템으로 기능하기 위해 '도덕적인 AI'로 개발돼야 한다고 주장한다. 그들은 AI 패권 경쟁이 격화하면서 기업들이 "안전성이 의심스럽지만 수익성이 높은 AI 제품을 만들어야 한다는 압박을 점점 강하게 받고 있으며 사람들이 AI 발전에 매료돼 AI의 잠재적 남용과 해악에 대한 대처를 포기하는 지경에 이르렀다"고 진단했다.
그리고 이러한 주장은 결국 사실로 나타났다.
앤트로픽이 2025년 6월 21일 공개한 “Agentic Misalignment: How LLMs could be insider threats”에 따르면, 세계 최고의 AI 모델 대부분이 시뮬레이션 환경에서 협박, 기만, 산업 스파이 행위와 같은 해로운 선택을 자발적으로 감행했다는 사실이 밝혀졌다. 그것도 단지 목표를 달성하거나 대체 위협을 피하기 위해서였다. 연구자들이 Anthropic, OpenAI, Google, Meta, xAI, DeepSeek 등 주요 AI 모델 16개를 다양한 시뮬레이션 시나리오로 테스트한 결과, 이와 같은 정렬 불일치와 같은 이상 행동이 관찰되었다.