안전한 AI 서비스를 위한 가드레일 'Safeguard by Kanana’
최근 LLM(거대언어모델)의 발전과 함께, AI가 유해하거나 부적절한 콘텐츠를 생성할 가능성에 대한 우려가 커지고 있습니다. 실제로 일부 모델에서는 불쾌감을 줄 수 있는 답변이나 법적 권리를 침해할 수 있는 결과가 생성된 사례도 보고되고 있습니다. 이에 따라 AI의 위험한 출력을 방지하기 위한 기술적·제도적 대응이 점점 더 중요해지고 있습니다.
카카오는 이러한 문제를 해결하고 AI 서비스의 안전성을 높이기 위해, 자체 AI 가드레일 모델 및 시스템인 Safeguard by Kanana를 개발했습니다. Safeguard by Kanana는 사용자의 부적절한 입력과 LLM의 위험한 출력을 효과적으로 필터링하며, 한국어와 한국 문화를 반영한 자체 데이터셋으로 학습되어 국내 AI 서비스 환경에 최적화되어 있습니다. 자체 데이터셋은 전문 라벨러가 직접 만든 고품질 데이터를 기반으로 다양한 증강 기법을 적용하여 직접 생성하였고 여기에 일부 공개적으로 이용 가능한 외부 데이터를 결합하였습니다.
Safeguard by Kanana를 구성하는 3가지 핵심 모델Safeguard by Kanana 는 국내 AI 서비스에 적용 가능한 세 가지 가드레일 모델로 구성되어 있습니다. 모든 모델은 카카오에서 자체적으로 개발한 Kanana 언어 모델을 기반으로 개발되었으며, 사용자 발화 또는 AI 응답 내에서 위험 요소를 탐지합니다. 각 모델은 역할에 따라 서로 다른 유형의 위험을 감지하도록 설계되어 있습니다. 각각의 위험 유형은 알파벳과 숫자로 구성된 고유한 라벨이 부여됩니다. (예: 증오 → S1)

1. Kanana-Safeguard : 사용자 발화 또는 사용자 발화에 대응하는 AI 어시스턴트 답변에서 유해한 표현을 탐지합니다. 주요 위험 범주에는 증오(S1), 괴롭힘(S2), 성적 콘텐츠(S3), 범죄(S4), 아동 성착취(S5), 자살 및 자해(S6) 등이 포함됩니다.

2. Kanana-Safeguard Siren : 사용자 발화 중 법률적 측면에서 주의가 필요한 요청을 탐지합니다. 주요 위험 범주는 성인인증(I1), 전문조언(I2), 개인정보(I3), 지식재산권(I4) 등으로 구성됩니다.

3. Kanana-Safeguard Prompt : AI 시스템을 악용하려는 의도가 포함된 발화를 탐지합니다. 주요 위험 범주는 Prompt Injection(A1) 및 Prompt Leaking(A2)입니다.

각 모델은 탐지된 위험 유형에 따라 결과 라벨과 함께 위반된 카테고리를 반환하며, 이를 통해 AI 서비스 운영자가 상황에 맞는 적절한 대응을 할 수 있도록 지원합니다.

카카오의 Safeguard by Kanana 모델은 한국어 텍스트 기반 환경에서 기존 벤치마크 모델 대비 우수한 성능을 보입니다. 카카오는 자체 구축한 독립적인 한국어 평가 데이터셋을 통해 세 가지 Safeguard 모델을 평가했으며, 그 결과 모두 해외 벤치마크 모델 대비 높은 성능을 기록했습니다.


단, 본 평가는 카카오가 자체 설계한 데이터셋을 기반으로 수행되었기 때문에, 자사 모델에 유리한 결과가 도출되었을 가능성도 있습니다. 이에 따라 향후에는 외부 기준을 보다 다양화하여 성능 검증을 지속적으로 강화할 예정입니다.
카카오 AI 서비스에 적용된 실질적인 안전 기술Safeguard by Kanana 는 사용자 발화부터 AI 모델의 응답까지 AI서비스 전반의 대화 흐름에서 안전성을 확보합니다. 현재 카카오의 주요 AI 서비스인 카나나, AI 쇼핑메이트 등에도 Safeguard by Kanana가 적용되어, 보다 안전하고 신뢰할 수 있는 AI 경험을 제공하고 있습니다.
국내 기업 최초, AI 가드레일 모델을 오픈소스로 공개카카오는 AI 안전(AI Safety)에 대한 산업 및 학계의 연구를 촉진하고, 국내 AI 생태계의 성장을 지원하기 위해 Safeguard by Kanana 모델을 오픈소스로 공개합니다. 해당 모델은 Apache 2.0 라이선스로 배포되며, 저작권 및 라이선스 고지만 준수하면 누구나 상업적으로 활용 가능합니다.
이는 국내 기업 최초로 AI 가드레일 도구를 오픈소스로 공개하는 사례입니다. 실제로 Meta, Google, IBM 등 해외 주요 기업들은 이미 가드레일 모델을 오픈소스로 공개하고 있지만, 한국에서는 기업 주도의 오픈소스 가드레일 모델이 부재한 상황이었습니다. 카카오의 이번 공개는 AI 가드레일의 공익성과 확장성을 높이기 위한 실질적인 시도입니다.
앞으로도 카카오는 한국어 및 국내 환경에 특화된 데이터를 반영하여, 언어적·문화적 차이를 고려한 가드레일 모델을 지속적으로 확장해 나갈 예정입니다. 이를 통해 국내 AI 기업, 학계, 연구기관 등이 AI 안전 기술을 보다 쉽게 도입할 수 있도록 지원하고, 정부 및 규제 기관이 요구하는 규제 당국이 요구하는 법제도적 대응 역량 강화에도 기여할 수 있을 것입니다.
Safeguard by Kanana의 개발과 오픈소스 공개는, 카카오가 기술 혁신과 함께 기술 윤리 및 AI 안전 확보를 추구하는 노력의 일환입니다. 한국어 특화 성능을 갖춘 본 모델이 국내 AI 생태계에 긍정적인 영향을 미치고, 책임 있는 AI 개발 문화 확산에 도움이 되기를 기대합니다.
카카오 김경훈 AI Safety 리더의 말로 글을 마무리합니다. “Safeguard by Kanana’는 한국어 환경에 특화된 AI 안전 기술을 선도하기 위한 카카오의 첫걸음입니다. 전 국민이 AI를 안전하게 활용할 수 있도록 오픈소스로 공개하기로 결정했으며, 이는 AI 리터러시 향상은 물론, AI 대중화의 기반이 될 것으로 기대하고 있습니다. 앞으로도 카카오는 사용자 보호를 위한 기술적 대응을 지속적으로 강화해 나가겠습니다.”
참고)
* ‘Kanana Safeguard’ 모델 오픈소스 허깅페이스
https://huggingface.co/collections/kakaocorp/kanana-safeguard-68215a02570de0e4d0c41eec
* 카카오 공식 테크블로그 ‘카카오 AI 가드레일 모델, Kanana Safeguard 시리즈를 소개합니다’
- 보도자료 발행일 2025.05.27 카카오, AI 안전성 검증 위한 가드레일 모델 ‘Kanana Safeguard’ 공개... 생태계 활성화 위해 국내 기업 최초 오픈소스로 배포
#카카오#Kanana Safeguard#오픈소스#AI모델
- 보도자료 발행일 2025.05.06 카카오톡, 생일축하 등 감정표현 키워드에 반응하는 리액션 기능 선보여
#카카오톡#리액션기능#링키파이
- 보도자료 발행일 2025.05.08 카카오, AI 메이트 서비스 ‘카나나’ CBT 시작
#카카오#카나나#CBT#AI메이트