AI 탐지의 한계: 맹신하면 안 되는 이유
AI 탐지 도구를 사용할 때 반드시 알아야 할 한계점과 올바른 활용법을 설명해요.
AI 탐지 서비스를 직접 개발하면서 느낀 건데, "AI가 썼는지 아닌지" 판별하는 게 겉보기만큼 단순하지 않더라고요. 크게 세 가지 접근법이 있는데, 각각 잘하는 것과 못하는 게 확실히 다릅니다.
가장 오래된 방식이에요. AI가 만든 글과 사람이 쓴 글은 통계적으로 다른 특성을 보이거든요.
퍼플렉시티(Perplexity)라는 지표가 핵심인데, 쉽게 말하면 "다음 단어를 얼마나 잘 예측할 수 있느냐"예요. AI 글은 퍼플렉시티가 낮아요 — AI 자신이 쓴 글이니까 다음 단어를 잘 맞추는 거죠. 사람 글은 예측이 잘 안 되고요. 버스티니스(Burstiness)도 중요한데, 사람은 문장 복잡도가 들쭉날쭉한 반면 AI는 일정한 편이에요. 어휘 분포도 마찬가지고요.
다만 이 방법만으로는 정확도가 한 70~80% 수준이라, 단독으로 쓰기엔 부족한 감이 있어요.
아이러니하죠. AI 글을 잡으려고 또 다른 AI를 쓰는 거니까. 수십만 개의 AI 글과 사람 글을 학습시킨 분류 모델이 "이건 AI" "이건 사람"을 판정하는 방식이에요.
장점은 통계적 방법보다 미묘한 패턴까지 감지할 수 있다는 것. 단점은? 새 모델이 나올 때마다 학습을 다시 시켜야 하고, 학습 데이터에 없는 유형의 AI 글은 놓칠 수 있다는 거예요. 그리고 오탐 문제. 이건 진짜 골치 아프거든요 — 사람이 정성껏 쓴 글을 "AI"라고 찍어버리면 억울하잖아요.
개인적으로 가장 유망하다고 보는 기술이에요. AI가 글을 생성할 때 사람 눈에 보이지 않는 통계적 패턴을 글 안에 심어놓는 거예요. 나중에 그 패턴을 검출하면 "이건 AI가 썼다"를 거의 확실하게 알 수 있죠.
Google DeepMind의 SynthID가 대표적인데, 오탐률이 0.01% 미만이라는 연구 결과가 있어요. 문제는 AI 제공 업체가 자발적으로 넣어야 한다는 점이에요. 그리고 글을 복사해서 일부만 수정하면 워터마크가 약해지기도 하고요.
근본적인 이유가 있어요. AI 모델이 발전할수록 사람 글에 가까워지니까, 둘 사이의 통계적 차이가 점점 줄어드는 거예요. 거기다 패러프레이징 도구를 한번 거치면 탐지율이 30~50%까지 떨어진다는 연구도 있고, 200자 미만의 짧은 글은 분석할 데이터 자체가 부족해요. 한국어의 경우 영어 대비 학습 데이터가 5분의 1 수준이라 정확도가 더 낮은 편이죠.
EU AI Act에서 이미 AI 생성 콘텐츠 표시 의무를 넣었고, 미국도 비슷한 법안을 검토 중이에요. 워터마킹 의무화가 현실이 되면 탐지 정확도는 획기적으로 올라갈 거예요. 다중 모델 앙상블 — 여러 탐지 모델의 결과를 종합해서 판정하는 방식 — 도 활발히 연구되고 있고요.
솔직한 생각을 말하면, 장기적으로는 "잡아내겠다 vs 피하겠다" 경쟁보다 "AI 썼으면 밝히자"는 문화가 정착되는 게 더 나은 해결책이라고 봐요. 기술은 보조 수단이지, 그 자체가 답은 아니거든요.
그라운드코드
AI 보조 작성 · 최종 검토 2026-03-09