달라지는 카카오

우리의 재발 방지 계획

공유하기
카카오의 재발 방지 계획을 소개합니다.

지난 장애를 수습한 이후 카카오는 이용자들의 신뢰를 되찾기 위해 크게 세 가지 방향의 노력을 진행하고 있습니다. 투명한 원인 규명, 세심한 피해 지원, 그리고 마지막으로는 철저한 재발 방지 대책을 철저하게 세우는 것이죠. ‘소 잃고 외양간 고친다’는 속담은 보통 뒤늦은 대처를 비판하는 의미로 쓰이지만, 이는 사고가 일어난 후에 꼭 필요한 일이기도 합니다. 비록 늦더라도, 외양간을 제대로 고쳐야지만 같은 실수를 반복하지 않을 수 있을 테니까요. 달라질 모습을 다짐하며 카카오의 재발 방지 대책들을 소개합니다.

# 기존 데이터 센터를 보완합니다. 

이번 데이터센터 화재는 카카오 전체 서버의 약 34%에 영향을 주는 강도의 재난이었습니다. 판교 데이터센터 전원공급이 화재로 인해 중단되면서 네트워크 구성 여부와 관계 없이 서버가 함께 다운되었고, 이 때문에 모니터링 및 분석 툴이 마비되어 장비 모니터링과 장애 탐지가 원활히 이루어지지 못했습니다. 나아가 서버 이동 및 재설치에 필요한 환경 구성 정보가 대부분 판교 데이터센터에 위치해 해당 정보를 조회하는 데도 한계가 있었습니다. 앞으로는 재난 규모와 관계없이 모니터링과 장애 탐지가 잘 동작할 수 있도록, 모니터링 시스템을 증설하겠습니다. 또한, 데이터 센터간에 늘어날 트래픽에 대응할 수 있도록 확장성을 고려한 설비 투자를 진행할 것입니다. 대용량 트래픽 전송이 필요한 서비스의 데이터센터 간 삼중화를 위해 별도 전용망도 구성할 예정입니다. 

# 화재를 포함한 모든 종류의 재난에 대한 대비를 철저히 합니다.
재난대비를 위해 준비하는 크루의 모습입니다
이미지 새창 열림

만약 이번과 같은 배터리실 화재 상황이 발생할 경우, 삼중의 진화 대책이 작동하게 됩니다. 우선 이번 화재 사고에서와 같이 밀폐된 공간에 소화 가스가 들어가지 못해 수습에 어려움이 발생하지 않도록 밀폐된 전기 판넬별로 개별 소화장치를 설치하여 우선 작동되도록 했습니다. 두 번째 진화 수단으로 소화 가스가 작동됩니다. 규정치 이상의 소화 가스 비치는 기본으로 하고, 가스 부족 상황에 대응하기 위해 필요한 경우에는 다른 층의 소화 가스를 끌어다 쓸 수 있도록 예비 시스템을 구축했습니다. 만약 소화 가스를 활용한 진화가 실패할 경우, 화재 발생 구간을 차단하고 냉각수를 채워 방염, 방열이 가능하도록 조치했습니다.

 자체 소화 대책과는 별개로 소방서 출동 상황에서의 데이터 센터 전력 공급 중단 상황을 최소화하기 위해, 지역 소방서와 합동 모의 훈련 시행을 협의 중입니다. 이 밖에도 신축되는 안산 데이터센터 (가칭) 는 침수, 해일, 강풍, 지진 등 화재 이외의 극단적인 재난 재해에 대한 대비책도 완비한 상태입니다.

 

# 개발자 운영도구와 서비스 시스템을 다중화합니다. 
개발자 운영도구와 서비스 시스템을 다중화하는 모습을 시각화 했습니다
이미지 새창 열림

사내의 엔지니어들이 서비스를 운영 및 관리하기 위해 사용하는 도구로 사내 계정 인증, 소스 관리나 앱 배포 도구, 위키, 지라 등의 협업 도구 등이 있는데요. 이러한 운영 관리 도구가 일부 이중화되어 있지 않아, 장애 초기에 개발자들이 서비스를 복구할 시간을 지연시켰습니다. 특히 앱 배포 도구의 경우, 앱 빌드의 근간이 되는 서비스임에도 해당 서비스의 중요성에 대한 인식이 부족했던 것이 문제였습니다. 판교 데이터센터 내에서만 이중화가 구성되어 있었고, 데이터센터 간 이중화 구성은 되어 있지 않아 전면 장애가 발생했습니다. 현재는 데이터센터 간 이중화를 완료했으며, 향후에는 삼중화를 계획하고 있습니다. 

또한 클라우드와 플랫폼 도구의 경우 데이터센터 단위에서 삼중화하여 전면적인 장애에도 서비스 수준을 유지할 수 있는 구조로 운영할 계획입니다. 각 도구의 목적, 영향도 및 중요도를 정기적으로 파악하는 프로세스를 구축하여, 서버 장애 시 영향을 받는 서비스에 대해 공지를 하겠습니다. 서비스 시스템과 애플리케이션의 경우, 서비스 간의 의존성과 타이트한 연동을 최대한 줄이고 중요 서비스 기능을 단독 실행할 수 있는 구조로 변경하는 작업을 진행하고 있습니다. 또한, 장애 복구를 위해 구성한 시스템에서 발견한 문제점을 개선하는 작업 역시 진행 중입니다.

# 달라질 카카오를 지켜봐주세요.

지금까지 카카오의 재발 방지 대책을 간단하게 살펴보았습니다. 더 자세한 내용은 if kakao dev 2022의 ‘재발 방지 키노트'에서 확인할 수 있습니다. 앞서 말씀드린 내용들이 공허한 다짐이 되지 않도록, 이용자들이 안심하고 서비스를 사용할 수 있는 환경을 만드는 것에 집중하겠습니다. 👉🏻 키노트 바로가기

공유하기
목록 보기
추천 콘텐츠