Tech Ethics

안전한 대화와 건강한 소통을 도와주는 AI 기술

공유하기
세이프봇을 형상화한 머리에 안테나를 달고 귀여운 표정을 한 이모티콘이 거친 표현을 순화하는 모습이  이미지로 표현되어 있다.

카카오는 표현의 자유와 권리를 보장하면서 서비스 이용자에게 안전한 온라인 환경을 제공하는 방법을 고민했습니다. 이를 위해 인공지능(AI) 기술을 활용한 ‘세이프봇(Safebot)’ 기능을 2020년에 도입했습니다. 일상에서 불쾌감을 주는 욕설과 비속어 등을 선별적으로 정확하게 가리는  '세이프봇' 이 도입되면서 실제로 욕설 댓글이 상당 부분 감소하는 효과를 거두기도 했습니다. ⟪Tech Ethics⟫ 2호에서는 ‘세이프봇’의 개발 과정과 그 안에 담긴 AI 기술에 대해 설명해 드립니다.

 

세이프봇의 첫걸음…‘욕설 자동감지 변환 기술’

카카오가 처음 도전한 영역은 댓글에 달린 욕설입니다. 카카오는 욕설 표현을 자동으로 음표로 변환시키는 ‘욕설 자동 치환’ 기술을 2017년 상반기에 개발했고, 같은 해 하반기에 포털 다음(Daum)에 도입되었습니다.

 

이를 위해 카카오는 수십만 개의 욕설 데이터베이스를 구축하였고, 데이터베이스에 포함된 욕설은 모두 자동으로 음표로 바뀌어서 표시됐습니다. 이 기술은 다음 뉴스 뿐만 아니라 톡 채널, 브런치, 카카오스토리 등 카카오의 30여 개 주요 서비스에도 적용되었습니다. 카카오톡 서비스의 상담원과 사용자 간의 채팅기능인 ‘상담톡’에도 도입되어 고객상담원의 심리 보호에 큰 역할을 하고 있습니다.

<동영상1: 욕설을 음표로 치환한 문장 예시>
진화하는 회피 기술…AI 기술을 탑재한 ‘세이프봇’ 탄생  

욕설 자동 치환 기술의 한계는 분명했습니다. 사용자들이 욕설을 변형하거나 특정한 단어를 이용해 게시물 운영 정책을 회피하는 사용자까지는 막지 못했습니다.

<동영상2: 자음과 모음을 분리하거나 영어 단어를 써서 악플 탐지를 피하는 문장 예시>

카카오는 악플 탐지 기술을 한 단계 더 강화하기로 결정했습니다. 기존의 욕설뿐만 아니라 다양한 방법으로 운영정책을 위반한 댓글을 관리자가 일일이 찾는 대신,  AI 기술을 활용하여 자동으로 찾는 '세이프봇' 개발 계획이 확정됐습니다. 2020년 12월, 시범 적용된 ‘세이프봇’은 초창기에는 AI 모델의 정확도를 완벽히 신뢰하기 어려워 감지된 악플을 자동으로 신고하는 역할만 수행했습니다.  ‘세이프봇’이 우수한 성능을 보이면서, 카카오는 세이프봇의 기능을 더욱 강화하고 확장하는 방침을 세웠습니다.  세이프봇 도입 후  욕설 및 비속어가 포함되어 신고되는 신고량이 43%가 감소했고 신고 자체도 73%가 줄어드는 성과가 있었기 때문입니다.

 

그 결과, 2021년 12월에는 더욱 발전된 세이프봇이 정식으로 도입되었습니다. 새로운 버전의 세이프봇에는 ‘욕설 자동 치환’ 뿐아니라, AI 기술을 활용해 욕설, 비속어 등 운영 정책을 위반하는 댓글을 자동으로 가리는 기능이 추가됐습니다. 이렇게 세이프봇은 온라인 공간의 악플 문제를 기술을 활용해 개선하며 더 건전하고 안전한 디지털 시스템을 만드는 데 큰 역할을 했습니다.

세이프봇은 어떻게 만들어지나 데이터 수집과 학습으로 부적절 표현 식별

세이프봇이 AI 기술로 부적절한 표현을 분류하는 과정은 다음과 같은 순서로 이뤄집니다.

 

1. 데이터 수집 : 이용자들이 올린 다양한 댓글 데이터를 수집합니다.

 

2. 데이터 라벨링 : 수집된 데이터에서 스팸 댓글과 그렇지 않은 댓글을 구분하기 위해, 전문가가 직접 판단하여 데이터에 마킹을 하는 과정을 '라벨링 (Labeling)'이라고 합니다. 라벨링 도구는 지금 이 순간에도 지속적으로 개선되고 있습니다. 더불어, 카카오는 사내 라벨링 전문가들에게 지속적인 교육을 제공해 라벨링 능력을 높이도록 꾸준한 노력을 하고 있습니다.

 

* 데이터 라벨링 : 다음 뉴스 댓글에서 수집된 데이터 가운데 스팸 댓글과 그렇지 않은 댓글을 구분하기 위해서는 해당 데이터를 AI가 식별해서 학습할 수 있도록 다양한 정보를 입력하는 과정인 데이터 라벨링 (Labeling)이 필요합니다. 카카오는 AI 를 이용해 데이터 라벨을 자동으로 판단하여 마킹하는 Auto Labeling 기법을 채택하고 있으며 일부 데이터는 사람이 직접 검증하는 과정을 거치고 있습니다.

 

3. 학습 : 라벨링 된 데이터로 세이프봇이 스팸 댓글을 분류할 수 있도록 학습을 시킵니다. 이때 활용되는 기술은 AI 스팸 분류입니다. 이 방법은 단어들이 어떤 상황에서 어떻게 사용되는지를 이해하는 능력이 특징입니다. 핵심은 AI기술을 활용한 세이프봇은 단어 하나하나를 독립적으로 보지 않고, 그 단어가 문장 속에서 어떤 위치에 있느냐, 어떤 단어들과 함께 쓰였느냐를 고려한다는 점입니다. 이런 기능 덕분에 세이프봇은 문장의 의미를 더 정확하게 파악할 수 있습니다.
예를 들어, "라이언은 _____ 옆에 있다."라는 문장이 있을 때, 세이프봇은 '라이언’과 '옆에 있다'를 동시에 보며 '_____'에 들어갈 적절한 단어를 찾아냅니다. 마치 우리가 문맥을 통해 대화를 이해하는 것과 유사합니다.

 

4.테스트와 개선 : 학습이 끝난 후, 세이프봇이 실제로 스팸 댓글을 잘 분류하는지 테스트합니다. 만약 세이프봇이 잘못 분류한 경우가 있다면, 사용자의 피드백을 통해 세이프봇을 개선합니다.

세이프봇이 어떻게 맥락에 따라 특정 단어를 필터링하는지 설명하기 위해 세 가지 문장이 제시되어 있다. 첫번째 문장에는 우리 집 강아지 새끼, 두번째 문장에서는 새끼 고양이, 세번째 문장에서 이새끼 때문에가 나와있다. 세이프봇은 첫번째, 두번째 문장은 필터링 하지 않고 세번째 문장에서 새끼라는 단어가 거친 표현을 목적으로 사용되었음을 인식하고 이를 필터링한다.
<그림3: 세이프봇은 ‘낳은 지 얼마 되지 않은 어린 동물’을 의미하는지 ‘어떤 사람을 욕하여 이르는 말’인지 문맥을 이해합니다. 이에 따라 (ㄱ),(ㄴ) 문장에서 사용된 단어는 가리지 않고 (ㄷ)문장에서만 해당 단어를 가리기 대상으로 판단합니다.>

스팸 댓글을 찾아내려면, 단어 하나하나를 보는 것보다는 그 단어들이 어떻게 함께 쓰였는지, 어떤 문맥에서 사용되었는지를 봐야합니다. 그래서 세이프봇은 분석하려는 전체 텍스트 속 단어들이 어떻게 서로 관련되어 있는지를 학습합니다. 그리고 이를 통해, 스팸인지 아닌지를 판단하게 됩니다. 아래 예시에서도 특정 단어가 반복해서 쓰였지만, 세이프봇은 문맥을 반영하여 필요할 때만 해당 단어를 가리기 대상으로 판별합니다.

이용자의 정상적 댓글이 스팸으로 분류되지 않도록 정밀도와 피드백에 중점

이 과정에서 '정밀도(Precision)'와 '재현율(Recall)'이 중요한 역할을 합니다. 조금은 어려울 수 있지만 두 개념을 가급적 쉽게 설명해 보겠습니다.

 

'정밀도'는 세이프봇이 '스팸이다!'라고 판별한 댓글 중에서, 실제로 스팸인 댓글이 얼마나 많은지를 나타냅니다. 예를 들어, 세이프봇이 100개의 댓글을 스팸이라고 했는데, 그 중 실제 스팸인 것이 80개라면, 정밀도는 80%라고 할 수 있습니다.

반면 '재현율'은 실제로 스팸인 댓글 중에서, 세이프봇이 얼마나 많이 찾아내는지를 나타냅니다. 예를 들어, 실제로 스팸인 댓글이 100개 있었는데, 세이프봇이 이 중 90개를 찾아냈다면, 재현율은 90%라고 할 수 있습니다.

 

여기서 주의해야 할 점은, 정밀도와 재현율은 서로 반비례 관계가 될 수 있다는 점입니다.  만약, 가능한 한 많은 스팸을 잡는 것에 가중치를 두면 세이프봇이 정상 댓글을 스팸으로 잘못 분류할 가능성이 높아집니다. 이는 결국 정밀도를 낮추는 결과로 이어집니다.

반대로 정상 댓글을 스팸으로 분류하지 않는 것에 우선 순위를 두도록 프로그램을 설계한다면,  실제 스팸을 놓치는 경우가 늘어나고, 재현율은 낮아지게 됩니다.

 

즉, 정밀도를 높이려면 재현율이 낮아질 가능성이 있고, 재현율을 높이려면 정밀도가 낮아질 가능성이 있습니다.

카카오는 이용자의 정상 댓글이 스팸으로 분류되지 않는 것이 더 중요하다는 판단에 따라 ‘재현율'이 아닌  '정밀도'를  중요한 성능 지표로 선택했습니다. 이에 따라  ‘정밀도'를 높이기 위한 다각적인 노력도 병행됐습니다. 우선, 사용자의 피드백을 반영하고 지속적인 학습을 통해 가려야 할 댓글을 더욱 정밀하게 찾는 능력을 향상시켰습니다.

욕설을 판별할 데이터셋 역시 더욱 체계적이고 과학적으로 가다듬었습니다. 세이프봇에 탑재되며 더욱 고도화된  '욕설 자동 치환' 기능은 욕설의 수위를 네 가지 레벨로 분류하도록 설계됐습니다.

레벨 1은 일상적인 비속어입니다. 레벨 2는 거친 비속어를 포함하며, 레벨 3는 심한 비속어 표현으로  이루어져 있습니다. 마지막으로, 레벨 4는 노골적이고 외설적인 비속어를 규정합니다.

<동영상4: 욕설을 4단계로 구분하는 데이터셋>

이 데이터셋을 통해 세이프봇은 단순히 욕설을 분류하는 것에 그치지 않고, 파생된 욕설이나 다양한 조합도 식별할 수 있습니다. 동시에 잘못된 분류로 인해 선의의 사용자가 피해를 입지 않도록 화이트 리스트도 생성했습니다. 예를 들어 ‘화장지롤’ 같은 단어는 일상 생활 용품을 지칭하지만 이를 세이프봇이 욕설로 오인해 가리게 되면  이용자의 불편을 초래할 수도 있습니다. 이처럼 맥락상 주의 깊게 판단해야 할 단어들은 별도로 화이트 리스트에 등록합니다.

욕설을 구분하기 위한 데이터 분류 단계가 표로 표시되어 있다. 욕설은 총 4단계로 데이터베이스화 된다. 1단계는 일상 비속어, 2단계는 심한 비속어, 3단계는 거친 비속어, 4단계는 노골적이고 외설적인 비속어를 규정해서 관리된다.
<그림5: 세이프봇 욕설과 정상문장 차이 예시1>

이처럼, 세이프봇은 다양한 레벨의 욕설과 변형된 욕설을 식별하고 치환하는 데 있어 핵심적인 역할을 담당하며, 디지털 환경에서의 커뮤니케이션 품질을 높이는데 기여하고 있습니다.

세이프봇 적용 후의 변화…욕설⬝비속어⬝신고 대폭 감소

세이프봇이 도입되면서 카카오 플랫폼에서 생긴 큰 변화는 수치로도 확인됐습니다. 1차적으로 욕설 치환 비율이 크게 감소했고, 댓글 신고 및 삭제 비율도 확연히 감소했습니다.

세이프봇 적용 전인 2020년 하반기와 적용 이후인 2021년, 2022년 월평균 수치를 비교한 결과, 욕설이나 비속어가 포함된 댓글이 3분의 1 수준으로 줄었습니다. 욕설이 포함되어 음표로 자동 치환된 댓글 수가 2020년 하반기 대비 2021년에는 53.7%, 2022년에는 무려 63.8% 감소했습니다.

세이프봇이 기계적으로 욕설을 인식해서 일상 단어를 필터링하지 않기 위한 과정이 단어의 예시를 통해 설명되고 있다. 기미년의 해라는 연도를 나타내는 표현이 욕설로 오인되지 않도록 정밀한 식별이 이뤄진다
<그림6: 세이프봇 적용 후 욕설 치환 비율과 댓글 신고 삭제 비율>

전체 댓글 중 이용자가 신고한 욕설 댓글의 비중도 2020년 하반기 4.2%에서 2022년 2.4%로 낮아졌고 이용자의 신고로 삭제된 욕설 댓글 건수도 2020년 하반기와 비교해보면 2022년에는 12분의 1 수준(8.2%)로 줄어들었습니다.

이러한 추세 변화는 세이프봇의 능동적 조치로 댓글 문화가 점차 성숙해진 결과로 해석됩니다. 세이프봇이 욕설이나 비속어가 담긴 댓글을 신속하게 필터링했고, 이용자들이 건전한 댓글 문화 형성에 자발적으로 동참하면서 결과적으로 댓글 공론장의 건강성 향상으로 이어진 것으로 분석됩니다.

세이프봇, 뉴스 댓글 ‘타임톡'⬝오픈채팅Auto에도 적용

포털다음 뉴스 서비스를 사용하던 이용자분들은 다음의 댓글창이 ‘타임톡'으로 바뀐 걸 알고 계실텐데요. 2023년 6월, 다음은 이용자의 실시간 소통과 표현의 자유를 유지하면서도 일부 댓글이 과대 대표되거나 부적절한 댓글이 사라지지 않는 기존의 문제점을 해결하기 위해 채팅형 댓글 서비스 타임톡을 도입했습니다.  

기존 댓글과 달리 이용자 간 실시간 소통하듯 채팅형으로 댓글이 보여지기 때문에  댓글 관리도 더욱 중요해졌습니다. 그래서 검증된 세이프봇이 타임톡에 기본으로 적용되게 됐습니다.

세이프봇이 타임톡 서비스에서 욕설이나, 혐오 표현 등을 가리는 과정은 정해진 절차에 따라 관리자의 개입없이 자동적으로 진행됩니다.  다음뉴스 이용자가 뉴스 댓글에 메시지를 작성하면 아래에 설명하는 방식으로 세이프봇이 가동하기 시작합니다.

세이프봇의 도입된 이후 감소한 욕설과 비속어를 포함한 댓글 수와 전체 댓글 중 이용자 신고 욕설 덧글 비중 변화가 막대 그래프와 벤다이어그램 표로 설명되고 있다.  세이프봇 도입 이후 욕설 비속어를 포함한 덧글 수는 2020년과 비교해 2022년에는 63.8%가 감소했다. 욕설 덧글 신고 비중 역시 2020년과 비교해 2022년에는 62.8% 감소하는 효과가 나타났다.
<그림7: 타임톡 서비스에 세이프봇이 작동되고 있다는 안내가 표시되고 있다>

세이프봇 메시지 분석 요청: 메시지를 작성하면, 세이프봇에게 해당 내용에 문제가 없는지 분석을 요청합니다.

 

1. 가리기 메시지 판정 : 세이프봇은 해당 댓글이 가리기 대상인지 판단합니다. 욕설, 비속어 등 다른 이용자에게 불쾌감을 줄 수 있는 메시지로 분석되면, 메시지가 자동으로 가려지게 됩니다.

 

2. 가려진 메시지 확인 기능 : 다른 사용자들이 가려진 댓글의 내용을 보고 싶다면, 세이프봇에 의해 가려진 메시지는 ‘메시지 보기'를 길게 눌러 내용을 확인할 수 있습니다.

 

3. 피드백과 모델 개선 : 사용자의 피드백과 모니터링을 통해 분류 결과를 개선합니다. 특히, 잘못된 분류가 발생한 경우 사용자의 신고를 통해 개선 작업을 수행합니다. 이를 통해 스팸 분류의 정확도를 점진적으로 향상시키고 사용자에게 더 나은 경험을 제공합니다.

 

이러한 단계를 거쳐 세이프봇은 사용자들이 안전한 뉴스 댓글 환경을 즐길 수 있도록 도와줍니다.

또 최근 많은 이용자들이 사용하고 있는 오픈채팅 서비스 가운데 대중적 접근이 가능한(사적 게시물로 판단하지 않는) 오픈채팅 Auto, 오픈채팅 Lite에도 욕설•혐오•유해정보 등 타인의 안전을 위협하는 표현은 세이프봇이 가리고 있습니다.

검증된 기술로 사회에 공헌…이용자보호시스템 구축

카카오는 세이프봇 기술이 사회에 공헌할 수 있는 방법도 고민했습니다. 세이프봇을 개발하며 구축한 60만 건의 욕설 데이터베이스를 한국인터넷자율정책기구(KISO)에 제공했습니다. 한국인터넷자율정책기구는 이를 통해 인터넷 서비스 기업들이 자율적으로 활용할 수 있도록 응용 프로그램(API)를 만들었고 2023년 6월 온라인 게시판이나 댓글에 포함된 욕설·비속어를 탐지해 알려주는 ‘KISO이용자보호시스템’(KSS)을 공개했습니다.

 

KSS API는 큰 비용부담 없이, 누구나 쓸 수 있습니다. 해당 시스템은 KISO 회원사, 공공기관 등에 무료로 제공됩니다. 기존에는 욕설을 차단하려면 개별 업체들이 자체 데이터베이스를 구축해야 했습니다. 이러한 체계를 유지하고 괸리하는 비용은 상당해서  중·소규모 업체는 이용자 안전을 위한 시스템 구축에 엄두를 내지 못했습니다. KSS가 구축되면서 이러한 문제가 해결되었으며, 해당 시스템은 제8회 휴먼테크놀로지 어워드에서 대상을 수상했습니다.

유해한 모든 형태의 콘텐츠를 인식할 때까지

카카오는 ‘기술이 만드는 더 나은 세상'이라는 초심을 항상 기억합니다. 카카오 서비스 이용자들에게 더 안전한 환경을 제공하고자 개발한 ‘세이프봇' 기술이 악성 댓글이라는 사회적 문제를 해결하는 데 도움이 됐다는 점에서 카카오는 큰 보람을 느낍니다.

세이프봇이 욕설뿐만 아니라 특정 집단이나 성별, 지역 등을 겨냥한 증오 표현도 정교하게 가려내기 위한 노력도 지속하고 있습니다. 카카오는 증오발언 대응을 위해 각계 전문가와 함께 연구하고 제작해온 가이드라인을 ‘코딩북(Coding Book)’ 으로 제작하고 있습니다. 코딩북은 수집한 데이터를 분석 가능한 형태로 변환 시, 참고할 수 있는 정의나 원칙, 판단 기준 등을 담은 지침서입니다. 세이프봇에 탑재도 검토되고 있습니다.

 

 세이프봇을 총괄하고 있는 김종환 다음개발사업실 실장이 밝힌 세이프봇의 향후 목표를 소개하면서 글을 마무리합니다. 

 “앞으로 욕설이나 혐오 발언뿐만 아니라 정신적, 육체적 피해를 주거나 건전한 토론문화를 저해하는 표현을 사람이 아닌 AI가 100% 판단할 수 있도록 기술 혁신을 지속할 것입니다.  현재는 댓글이나 짧은 대화형 콘텐츠에 적용되어 있지만, 게시글 같은 장문 콘텐츠, 이미지, 동영상 등에도 적용을 확대할 예정입니다. 카카오는 이용자들에게 더 안전한 디지털 환경을 제공하고 건강한 댓글 공론장을 형성하는 디지털 기업의 책임을 이행하기 위한 노력을 멈추지 않겠습니다.”

목록 보기
추천 콘텐츠