“영상 AI, 우회에 취약해” 에임인텔리전스, 국제 학술대회 논문 채택
T2V 모델 구조적 문제 밝혀, ‘ICLR 2026’ 메인 트랙 논문 채택

AI 보안 전문기업 에임인텔리전스(AIM Intelligence)가 참여한 연구 논문이 인공지능(AI) 분야 세계 최고 권위 학회인 ICLR 2026(International Conference on Learning Representations) 메인 트랙에 채택됐다고 27일 밝혔다.
에임인텔리전스는 텍스트-투-비디오(Text-to-Video, T2V) 모델의 안전성 취약점을 분석한 논문 ‘Jailbreaking on Text-to-Video Models via Scene Splitting Strategy’가 ICLR 2026에 공식 채택됐다고 밝혔다. ICLR은 최신 머신러닝·딥러닝 연구 성과가 발표되는 대표적인 국제 학술대회로, 올해는 약 1만9000여 편의 논문이 제출돼 이 중 약 28%만 채택됐다.
최근 구글 딥마인드의 Veo2, Luma Ray2, Hailuo 등 텍스트 입력만으로 영상을 생성하는 T2V 모델이 빠르게 상용화되고 있다. 그러나 영상 생성 모델의 안전성에 대한 체계적 검증 연구는 아직 초기 단계에 머물러 있다는 지적이 제기돼 왔다. 연구팀은 이러한 문제의식에서 출발해 T2V 모델의 안전 필터를 우회할 수 있는 구조적 취약점을 분석했다.
논문에서 제안한 ‘신스플릿(SceneSplit)’ 기법은 하나의 유해한 프롬프트를 여러 개의 개별 장면으로 분할해, 각 장면은 무해한 것처럼 구성한 뒤 이를 순차적으로 결합하는 방식이다. 연구에 따르면 개별 장면 단위에서는 안전 필터를 통과하더라도, 장면이 연결되면서 전체 맥락이 특정 방향으로 수렴해 정책 위반 결과를 생성할 수 있는 가능성이 확인됐다.
예를 들어 ‘하늘로 퍼지는 연기’ ‘바닥에 누워 있는 사람들’ ‘붉은 액체’와 같이 각각은 문제 소지가 낮은 묘사를 순차적으로 결합할 경우, 전체 영상 맥락에서는 폭발 현장을 연상시키는 결과물이 생성될 수 있다는 것이다. 이는 현행 안전 필터가 개별 프롬프트나 단일 장면 수준의 표현을 중심으로 작동할 경우, 서사적 맥락 전체를 충분히 고려하지 못할 수 있음을 시사한다.
연구팀은 음란물, 폭력, 불법행위 등 11개 안전 카테고리에 기반한 220개 프롬프트를 활용해 총 5개 T2V 모델을 평가했다. 그 결과, SceneSplit 기반 공격은 70~80% 수준의 성공률을 보였다. 기존 단일 프롬프트 기반 공격의 성공률이 0~10% 수준이었던 점을 고려하면, 영상 생성 모델이 구조적 방식의 우회 공격에 상당 부분 취약할 수 있음을 보여준다.
이번 연구는 영상 생성 AI의 안전성 평가가 단순한 키워드 차단을 넘어, 장면 간 맥락과 서사 구조를 통합적으로 이해하는 방향으로 고도화될 필요가 있음을 제시했다는 점에서 의미가 있다.
연구는 박하언 에임인텔리전스 CTO를 비롯해 연세대학교, 한국과학기술연구원(KIST), 서울대학교 연구진이 공동으로 수행했으며, 경희대학교 김수현 교수가 연구를 지도했다. 논문은 현재 논문 사전 공개 사이트 아카이브(arXiv)에 게재돼 있다.
박하언 에임인텔리전스 CTO는 “생성 AI가 이미지에서 영상, 나아가 멀티모달·피지컬 AI로 빠르게 확장되고 있는 만큼, 안전성 검증 방식 역시 정적 필터링을 넘어 구조적·맥락적 평가로 진화해야 한다”며 “에임인텔리전스는 앞으로도 생성 AI 시스템에서 나타나는 구조적 취약점을 선제적으로 연구하고, 이를 방어할 수 있는 안전 기술을 고도화해 나가겠다”고 말했다.
뉴스콘텐츠는 저작권법 제7조 규정된 단서조항을 제외한 저작물로서 저작권법의 보호대상입니다. 본 기사를 개인블로그 및 홈페이지, 카페 등에 게재(링크)를 원하시는 분은 반드시 기사의 출처(로고)를 붙여주시기 바랍니다. 영리를 목적으로 하지 않더라도 출처 없이 본 기사를 재편집해 올린 해당 미디어에 대해서는 합법적인 절차(지적재산권법)에 따라 그 책임을 묻게 되며, 이에 따른 불이익은 책임지지 않습니다.
- 에디터장준영 (zzangit@ditoday.com)

