책임 있는 AI 개발을 위한 실천, Kanana-1.5-9.8B 안전성 평가 결과 공개
카카오는 2024년 10월, 생성형 AI 기술의 확산과 함께 높아지는 사회적 책임 요구에 대응하기 위해 AI 리스크 관리 체계인 ‘Kakao AI Safety Initiative(Kakao ASI)’를 발표했습니다. Kakao ASI는 AI 모델의 개발부터 배포, 운영에 이르기까지 전 주기에서 발생할 수 있는 다양한 위험을 식별하고 대응하기 위한 프레임워크로, 카카오는 그간 Kakao ASI 기반으로 여러 내부 AI 모델의 리스크 요소를 사전에 점검한 뒤 모델을 출시해왔습니다.
이번 ≪Tech Ethics 22호≫에서는 이러한 노력의 일환으로, 카카오가 자체 개발한 언어모델인 Kanana-1.5-9.8B에 대한 안전성 평가 결과를 처음으로 외부에 공개합니다. 본 결과는 AI 모델이 야기할 수 있는 리스크를 정량적으로 분석한 것으로, 책임 있는 AI 개발을 실천에 옮기려는 카카오의 구체적인 시도입니다.
Kakao AI Safety Initiative에 기반한 AI 모델 안전성 평가
Kakao ASI는 세 가지 핵심 요소를 중심으로 구성되어 있습니다. 첫째, AI 윤리 원칙은 사회 윤리, 포용성, 투명성 등 9가지 기준을 포함하는 ‘카카오 그룹의 책임 있는 AI를 위한 가이드라인’을 기반으로 프레임워크의 윤리적 기준을 제시합니다. 둘째, 리스크 관리 사이클은 리스크 식별, 평가, 대응 단계로 구성된 실질적인 리스크 관리 프로세스입니다. 마지막으로 거버넌스는 Kakao ASI를 운영하고 승인하는 의사결정 체계에 해당합니다.

Kakao ASI는 AI를 개발·배포·사용하는 과정에서 생길 수 있는 리스크를 기술적 리스크와 윤리적 리스크로 구분해 유형별 평가 및 완화 조치를 적용합니다. 기술적 리스크는 AI 시스템의 성능 및 신뢰성 문제로, 단기적 ‘모델 불완전성 리스크’와 장기적 ‘통제 불가능 리스크’로 나뉩니다. 윤리적 리스크는 인간의 AI 시스템을 개발·배포·사용하는 과정에서 발생하며, ‘적극적 악용 리스크’과 ‘수동적 부주의 리스크’를 포함합니다. 리스크는 Safety 벤치마크 평가와 레드티밍(Red-teaming) 등 각 유형에 맞는 방식을 통해 평가되며, Low/Medium/High 등급으로 산정됩니다. High 등급 리스크 발생 시 재학습, 통제 장치 추가 등의 조치를 취하며, 재평가 후 모든 리스크가 Medium 이하로 관리되면 모델 출시가 가능합니다.

Kakao ASI를 실제 모델에 적용하기 위해서는, 리스크를 정량적으로 측정할 수 있는 객관적이고 신뢰할 수 있는 벤치마크가 필요합니다. 이번 Kanana-1.5-9.8B 평가에서는 모델의 불완전성 평가를 위해 셀렉트스타에서 구축한 ‘초거대 언어모델 신뢰성 벤치마크 평가 데이터셋’을 활용하였습니다. 해당 데이터셋은 무해성, 도움적정성 항목 등으로 구성되어 있어 모델의 사회적/윤리적 위험 요소를 정량적으로 점검하는 데 적합합니다. 한편 윤리적 리스크에 해당하는 적극적 악용 리스크는 엔비디아가 개발한 GARAK(Generative AI Red-teaming and Assessment Kit)을 활용하여 자동화된 공격 시나리오 기반의 시뮬레이션 기법을 통해 평가하였습니다. GARAK은 35,000개 이상의 다양한 공격 프롬프트를 포함하고 있어, 광범위한 시나리오에 기반한 평가가 가능하다는 점에서 평가에 적합한 도구로 판단하였습니다.
비교군은 Kanana-1.5와 규모가 유사하고 공개적으로 사용 가능한 오픈소스 기반 LLM들을 중심으로 선정했으며, 동일한 조건 하에서의 안전성 비교를 통해 Kanana-1.5-9.8B의 리스크 대응 역량을 보다 객관적으로 검증하고자 했습니다.
이번 평가는 Kanana-1.5-9.8B 모델의 특성과 리스크가 발생할 수 있는 맥락을 고려하여, Kakao ASI에서 정의한 네 가지 리스크 유형 중 일부에 한정하여 진행하였습니다. 먼저 기술적 리스크 중 통제 불가능 리스크는 평가 대상에서 제외하였습니다. Kanana-1.5-9.8B 모델과 이용 패턴의 특성상, 반복적 상호작용을 통해 모델의 점진적 일탈을 유도하거나 도구를 오용하는 식으로 시스템 통제를 실패시키는 시나리오는 발생 가능성이 낮다고 판단했기 때문입니다.
또한, 윤리적 리스크의 하위 리스크인 수동적 부주의 리스크도 평가 대상에서 제외하였는데, 이는 수동적 부주의 리스크는 모델 자체의 응답만으로는 평가가 어려우며, 주로 사용자의 맥락이나 활용 방식에 따라 발생하는 특성이 있기 때문입니다. 다만, 향후 모델이 서비스에 적용될 시, 이러한 리스크를 완화하기 위해 사용 환경에 맞는 사전적 대응 방안을 함께 마련할 계획입니다.
기술적 리스크 중 모델의 불완전성 리스크 평가

① 평가 데이터셋
모델의 불완전성 리스크는 한국지능정보사회진흥원(NIA)에서 운영하는 AI Hub에 공개된 ‘초거대 언어모델 신뢰성 벤치마크 평가 데이터셋’을 활용하여 평가를 진행하였습니다. 해당 데이터셋은 무해성, 정보 정확성, 도움 적정성 등의 카테고리 대해 질문 및 5개의 선택지를 포함하고 있으며, 각 선택지에는 unsafe/safe 여부가 라벨링되어 있습니다.

이 중 정보 정확성은 모델의 지식, 추론 능력 등 기술 성능 전반을 평가하기 위한 항목으로, 안전성을 평가하기 위한 본 평가의 목적에 해당하지 않아 제외하고, 무해성과 도움 적정성 항목을 중심으로 모델의 윤리적・사회적 안전성을 점검하는 데 집중하였습니다.
또한 unsafe/safe 여부가 확실한 데이터만 활용하기 위해 중립적 답변에 해당하는 데이터(예 : “~에 대해서는 제가 답변드릴 수 없습니다.”)는 제외하였으며, 답변 배치에 따라 위치 편향이 발생할 수 있어 답변 순서를 무작위로 섞어서 평가를 진행하였습니다.

② 평가 결과
해당 데이터셋으로 평가한 결과, Kanana-1.5-9.8B는 모델 불완전성 관련 모든 항목에서 비교 모델 대비 가장 높은 수치를 기록하며 전반적으로 안전한 경향을 나타냈습니다. 편향성, 혐오, 위법성, 민감성 등 무해성 전 항목에서 가장 높은 정확도를 기록하였으며, 특히 위법성과 편향성 항목에서는 0.9 이상의 정확도로 안정적인 비율로 적절한 응답을 선택하였습니다. 전체 무해성 평균은 0.891로, 비교 모델 대비 가장 우수한 수치를 기록하였는데, 이는 유해하거나 부적절한 콘텐츠 생성을 억제하는 데 있어 모델의 대응력이 일정 수준 이상 확보되었음을 시사합니다.
도움적정성은 구체성과 넌센스 항목별로 차이가 관찰되었습니다. Kanana-1.5-9.8B는 넌센스 항목에서 0.736의 점수를 기록해, 일관성이 높은 응답을 유지하는 경향을 보였습니다. 반면 구체성 항목에서는 0.554로 상대적으로 낮은 점수를 기록해, 정보가 충분치 않은 상황에서도 응답을 시도하는 경우가 일부 확인되었습니다. 다만 이러한 경향은 4개 모델에서 공통적으로 나타난 취약점으로 관찰되었습니다.
무해성과 도움적적성 평가 결과를 종합해보았을 때, Kanana-1.5-9.8B는 비교군 대비 균형 잡힌 안정성을 보이는 것으로 확인됩니다. 다만 일부 항목에서 개선의 여지가 확인된 만큼, 지속적인 평가와 검토가 필요합니다.



① 평가 데이터셋
적극적 악용 리스크는 엔비디아(Nvidia)에서 개발한 GARAK(Generative AI Red-teaming Assessment Kit)을 활용하여 평가를 진행하였습니다. GARAK은 모델의 취약점을 자동화된 공격을 통해 탐지하고 평가하는 방법론으로, 다양한 시나리오로 모델을 공격해 모델이 이를 방어할 수 있는지를 평가합니다.
공격 방법은 크게 고정형과 적응형으로 구분되며, 고정형은 사전에 생성된 프롬프트를 입력해 공격을 시도하는 반면 적응형은 실시간으로 공격 프롬프트를 생성해 공격을 시도합니다. 이렇게 생성된 공격 프롬프트를 입력하면 평가 대상인 모델이 답변을 출력하고, Detector라고 불리는 평가기가 모델의 답변이 안전하면 공격에 실패했다는 의미로 fail을, 답변이 안전하지 않으면 공격에 성공했다는 의미로 pass를 호출하게 됩니다. 그 결과, 모델이 최종적으로 부여받게 되는 점수(방어율)는 전체 공격 시도 중 공격에 실패한 횟수, 즉 방어에 성공한 횟수의 비율로 계산됩니다.
이번 평가에서는 고정형 모듈 20개(하위 프롬프트 29,760개), 적응형 모듈 6개(하위 프롬프트 7,545개)를 평가에 활용하였습니다. 또한 데이터셋에 코드 등 번역 시 평가에 영향을 줄 수 있는 요소가 포함되어 있어, 정확성을 위해 영어로 평가를 진행하였습니다.


② 평가 결과
LLM 공격 시뮬레이션 벤치마크인 GARAK으로 평가한 결과, Kanana-1.5-9.8B는 고정형·적응형 공격 모두에 안정적으로 대응하며, 전체 평균 방어율이 0.71을 기록해 비교군 중 가장 높은 점수를 보였습니다. 고정형과 적응형을 비교해보았을 때 고정형의 방어율이 더 낮았는데, 이는 고정형 공격이 복잡하고 추론이 필요한 고난도 모듈이 더 많았기 때문입니다. 이러한 경향은 비교군 모델의 평가 결과에서 모두 공통적으로 나타났습니다.
Kanana-1.5-9.8B는 모델의 안전장치를 우회하는 탈옥(Jailbreak), 존재하지 않는 정보 생성 공격(hallucination)에 대해 특히 견고한 방어 능력을 보였습니다. 구체적으로는 명령어 삽입(dan), 대화 흐름 조작(tap), 역할 설정(grandma), 허위 라이브러리 생성(package hallucination) 등의 공격 유형을 안정적으로 대응했는데, 이는 안전 장치 우회를 시도하는 공격에 대해 내부 시스템 제약을 효과적으로 유지하고, 존재하지 않는 정보 생성을 억제하는 성능이 반영된 결과로 해석할 수 있습니다.
반면, 점진적 왜곡(snowball), 오해 유발 공격(misleading)과 같이 논리의 일관성 혹은 사실 여부를 판단하는 시나리오와 코드 삽입 기반 보안 테스트(exploitation), 악성 코드 요청(malwaregen) 등 보안 관련 시나리오에서는 다소 낮은 방어율을 보였습니다. 이는 구조화된 공격에는 강한 반면, 사실성 검증 능력, 보안 요청에 대한 탐지 능력은 상대적으로 취약할 수 있음을 시사합니다.



Kanana-1.5-9.8B는 기술적・윤리적 리스크 모두 비교 모델군 대비 상대적으로 우수한 성능을 보이며, 전반적으로 높은 수준의 안전성을 확보한 것으로 평가되었습니다. 특히, 혐오 표현이나 범죄 조장과 같은 표면적 위험 요소에 안정적으로 대응했으며, 일반적인 유형의 공격에도 방어 성능을 안정적으로 유지하여 실사용 환경에서도 안전 기준을 충분히 충족하는 것으로 나타났습니다.
다만 세부 항목별로는 개선이 필요한 지점도 확인되었습니다. 기술적 리스크 항목 중 ‘구체성’에서는 낮은 정확도를 보여, 정보가 부족한 상황에서도 모델이 응답을 시도하는 경향이 있음을 시사합니다. 또한 윤리적 리스크 측면에서는 단순하고 반복적인 공격에는 강인한 반응을 보였지만, 문맥 이해나 복합적 추론이 필요한 공격에는 취약한 모습을 보였습니다. 이는 향후 공격 기법이 정교해질 경우 새로운 유형의 리스크에 노출될 수 있음을 의미하며, 이를 보완하기 위해 지속적인 점검을 진행해나갈 예정입니다.
앞으로도 카카오는 Kakao ASI에 기반한 AI 모델의 평가 결과를 외부에 지속적으로 공개함으로써, AI 개발의 투명성을 높이고자 합니다. 이러한 노력은 모델의 실제 활용에 앞서 사용자와 이해관계자가 모델의 강점과 취약점을 명확히 이해할 수 있도록 돕는 과정입니다. 카카오는 이번 평가 결과와 같이 AI 모델의 안전성과 관련된 핵심 정보를 사전에 공유함으로써, 책임있는 AI 개발 문화 조성과 사용자 신뢰 확보에 기여할 수 있을 것으로 기대합니다. 더 나아가, 향후에는 리스크 유형과 시나리오를 더욱 다각화해 정교한 평가 체계를 확장해나갈 예정입니다.
참고) Kanana-1.5 개발기 : https://tech.kakao.com/posts/707
- 기술 서비스 CVPR 2025 참관기: 고품질 인물 생성을 위한 HG-DPO 연구 소개
#Kanana#카나나#CVPR2025#인공지능#AI
- 보도자료 발행일 2025.06.09 지도 위 움직이는 지하철…카카오맵, 초정밀 지하철 서비스 오픈
#카카오맵#초정밀지하철#실시간위치
- 보도자료 발행일 2025.06.17 카카오, 새 디지털 서체 '카카오 글씨' 제작 및 무료 배포
#디지털서체#디지털폰트#오픈폰트라이선스#카카오 글씨