카카오헬스케어가 의료데이터를 책임 있게 활용하는 방법
헬스케어 분야는 지속적으로 인류의 삶을 개선하면서 유망한 시장으로 각광받아왔습니다. 시장조사 기관 MarketsandMarkets는 헬스케어 데이터 분석 시장이 연평균 24% 성장해 2029년에는 1,330억 달러 규모에 달할 것으로 전망하고 있습니다(Healthcare Analytics Market, 2025). 헬스케어 데이터 분석기술은 데이터와 AI를 이용하여 초개인화된 헬스케어 서비스를 구현하여 건강하게 오래 살 수 있는 방법을 제시할 수 있을 것으로 많은 기대를 받고 있습니다.
하지만, 이러한 관심과 기대에도 불구하고 여전히 헬스케어 시장은 테크기업이 진입하기 어렵고, 해결해야 하는 숙제가 많이 있습니다. 특히 최근 급격히 발전하고 있는 AI를 잘 활용하기 위해서는 오래된 문제점들을 반드시 해결해야만 합니다. 여러 문제점들이 있지만 대표적으로 헬스케어 데이터 활용을 어렵게 하는 요소는 크게 세 가지를 들 수 있습니다.

헬스케어 데이터는 일반적으로 질병 정보, 유전 정보 등 매우 민감한 개인정보들로 개인정보보호법에서도 “민감정보”로 별도로 지정하여 다른 개인정보보다 더욱 철저히 보호해야 한다고 명시하고 있습니다. 그 외에도 의료정보가 오남용되거나 유출될 경우 환자 뿐 아니라 유전정보를 공유하는 가족들에게도 심각한 피해를 줄 수 있기 때문에, 의료법, 생명윤리 및 안전에 관한 법률 등의 다양한 법률에 의해 엄격한 법적 규제를 받습니다. 이로 인하여 데이터의 수집, 저장, 공유, 활용에 많은 제약이 따르며, 이를 해결하기 위해서 최근에는 개인정보 보호 강화 기술 (Privacy Enhancing Technology, PET)이 부각되고 있습니다.
PET 중 가장 기본적인 기술은 가명처리라고 할 수 있습니다. 우선 법적으로 개인정보보호법 제2조제1의2호에 의하면 ““가명처리”란 개인정보의 일부를 삭제하거나 일부 또는 전부를 대체하는 등의 방법으로 추가 정보가 없이는 특정 개인을 알아볼 수 없도록 처리하는 것을 말한다.”라고 정의되어 있습니다. 즉, 개인을 식별할 수 있는 정보를 변형해서 해당 개인을 식별할 수 없도록 만드는 기술입니다. 가명처리가 주목받는 이유는 개인정보보호법 상 개인의 명시적인 동의를 획득하거나 가명처리를 거쳐야만 연구나 산업적 목적으로 활용할 수 있고, AI를 개발하기 위해서는 대량의 빅데이터가 필요로 하고 이 경우에는 개별 동의를 획득하는 것이 아주 어렵기 때문입니다.
헬스케어 데이터를 가명처리하는 방법에 대해서는 보건복지부 “보건의료데이터 활용 가이드라인”에 상세히 설명되어 있습니다. 다만 어려운 점은 전자의무기록(Electronic Medical Record, EMR) 도입으로 인하여 데이터 전산화가 잘 되어 있지만, 상당수의 중요한 정보들이 비정형으로 저장되어 있다는 것입니다. 따라서 가명처리하기 위해서는 텍스트에서 개인식별정보를 찾아서 제거하거나 의료 영상(CT, MRI, X-ray 등)에서 개인식별 가능성이 있는 부분들을 찾아서 해당 부분을 마스킹하는 기술을 개발해야 합니다. 그런데, 민감한 개인정보인 건강정보라서 최대한 정확하게, 놓치는 것이 없이 제거해야 한다는 어려운 도전에 직면하게 됩니다. 특히 헬스케어 데이터의 가장 중요한 부분인 진료기록을 관리하고 있는 의료기관들이 가명처리를 상당히 엄격하게 수행하고 있어서 더욱 도전적인 상황입니다.
카카오헬스케어는 HRS (Healthcare data Research Suite)라는 의료기관용 데이터 플랫폼을 개발하여 제공하고 있기 때문에, 이러한 가명처리를 의료기관의 높은 요구 수준에 맞춰서 개발하는 것이 중요한 상황입니다. 특히 카카오헬스케어가 국내 17개 의료기관들과 체결한 Research Alliance (R-Alliance)를 선보이기 위해서는 개별 의료기관의 서로 다른 요구사항을 전부 만족시켜야만 했습니다. R-Alliance에 참여하는 의료기관들 중에 충분한 GPU 서버를 확보하고 있는 의료기관들도 있었지만, 일부 의료기관들은 SLM (Small Language Model)을 운영하기 위한 GPU 확보도 쉽지 않는 경우가 있었기 때문에, 이런 다양한 의료기관들의 상황을 반영하여 가명처리 솔루션은 우선 정규표현식(Regular Expression)을 활용하여 Java 기반의 Spark* 사용자 정의 함수(User Defined Function, UDF) 형태로 구현하여 HRS에 적용하였고, 데이터가 적재되는 과정에서 실시간으로 가명처리가 이루어지도록 하였습니다. 가명처리 항목들은 개인정보보호위원회의 “가명정보 처리 가이드라인”과 보건복지부의 “보건의료 데이터 활용 가이드라인”을 기반으로 하여 개별 의료기관들과 협의하여 선정하였고, 대부분의 병원에서 F1-Score** 기준으로 99%가 넘는 정확도를 보이면서 처리를 하여 R-Alliance 참여 의료기관들의 우려를 불식시켰습니다.
* Spark : 빅데이터를 빠르고 효율적으로 처리하는 분산 처리 엔진
** F1-score : 정밀도(Precision)와 재현율(Recall)의 조화 평균. 두 지표가 서로 트레이드오프 관계에 있을 때, 어느 한 쪽에 치우치지 않고 균형 잡힌 성능을 보여주는지를 판단하는 데 사용되는 지표.

가명처리 만으로는 의료기관들의 개인정보 유출 우려를 완전히 해소할 수 없기 때문에, 카카오헬스케어는 Google과 협력하여 연합학습(Federated Learning) 기술도 도입하여 HRS를 통해 제공하고 있습니다. 보통 모델을 학습하기 위해서는 데이터를 한 곳으로 모아야 하지만, 연합학습은 각 의료기관이 데이터를 내부에 둔 채로 학습을 진행하고, 학습 결과인 변수만을 외부와 공유하는 방식입니다. 이를 통해 여러 기관의 데이터를 활용하면서도 개인정보를 안전하게 보호할 수 있습니다. 특히 카카오헬스케어가 개발한 연합학습 솔루션은 Google TensorFlow Federated*를 기반으로 개발된 세계 최초의 상업적 연합학습 솔루션입니다.
* Google TensorFlow Federated : 구글이 개발한 연합학습용 오픈소스 프레임워크
파편화·비표준화 데이터를 하나로 통합하는 표준화 전략이처럼 중요한 개인정보인 의료정보 보호를 위해 여러 가지 노력을 한 이후에도 또다른 어려움을 직면하게 됩니다. 헬스케어 데이터는 직접 진료를 보는 의료기관, 건강보험공단과 같은 공공기관 등에 데이터가 흩어져 있습니다. 최근에는 재택 의료기기 및 웨어러블 디바이스 등의 발전으로 인하여 개인이 직접 관리하는 데이터들도 많아지고 있습니다. 더군다나 이처럼 파편화된 데이터들은 개별 의료기관에 따라 혹은 개별 웨어러블 장비에 따라 서로 다른 형태로 저장되고 있습니다. 예를 들어, 병원에서 환자의 의료정보를 기록ᆞ관리하는 전자의무기록의 경우만 보더라도 병원마다 서로 다른 시스템을 사용하고 있어 데이터가 호환되지 않고, 심지어 같은 질병을 나타내는 용어가 병원마다 다르게 사용되는 경우도 많이 있습니다. 이러한 헬스케어 데이터의 파편화와 비표준화는 헬스케어 데이터 분석에 큰 어려움이 되고 있습니다.
이를 해결하기 위해서는 헬스케어 데이터의 상호운용성(interoperability)을 보장하는 것이 필수적입니다. 상호운용성은 원래 다양한 업체에서 개발된 군사 장비를 원활하게 연동하기 위해 도입된 개념이지만, 헬스케어 분야에서는 데이터의 파편화와 비표준화 문제를 해결하기 위한 핵심 요건을 의미합니다. 헬스케어 분야에서 상호운용성은 범위에 따라 크게 4가지로 구분할 수 있습니다.

일반적으로 헬스케어 데이터가 상호운용성을 보장한다는 것은, 데이터의 구조적 상호운용성과 의미적 상호운용성을 확보하는 것을 의미합니다. 즉, 데이터가 동일한 형태(구조적 상호운용성)를 가지고, 동일한 용어(의미적 상호운용성)를 사용한다면 상호운용성이 달성된 것으로 볼 수 있습니다.
상호운용성을 확보하기 위해서는 기준이 되는 표준이 필요합니다. 구조적 상호운용성을 지원하는 대표적인 표준은 FHIR (Fast Healthcare Interoperability Resources)입니다. FHIR는 의료정보 국제 표준 개발 단체인 HL7 (Health Level 7)에서 개발한 차세대 데이터 교류 표준으로, 최신 IT 기술을 반영하고 있습니다. 현재 미국을 비롯해 유럽, 아시아 등 전 세계적으로 적용을 확대하고 있으며, 의료기관 간 데이터 교류뿐만 아니라 헬스케어 장비와 디바이스 간 연동에도 활용되고 있습니다. 한국에서도 FHIR를 국가 표준으로 채택하였습니다.
의미적 상호운용성을 확보하기 위해서는 국제적으로 통용되는 용어 표준이 필요합니다. 적용 분야와 범위에 따라 SNOMED CT, LOINC, ICD-10 등 다양한 국제 표준이 있으며, 대표적인 용어 표준인 SNOMED CT는 질병, 증상, 절차, 약물 등 헬스케어 분야 전반의 의료 정보를 포괄적으로 표현할 수 있는 용어 체계입니다. Ontology* 기반으로 설계되어 논리적 계층 구조와 관계를 갖추고 있으며, 다양한 데이터 출처에서 일관된 의미를 부여하여 상호운용성을 높이는 데 핵심적인 역할을 합니다.
* Ontology : 특정 분야의 지식을 개념과 관계로 정리해놓은 체계적인 지식 구조
하지만 이러한 표준을 적용하는 것은 상당한 비용과 시간, 전문 인력의 투자를 필요로 합니다. 카카오헬스케어는 회사 초기부터 표준화에 집중적인 투자를 하고 있으며, 현재 ‘Clinical Terminology팀’과 ‘표준기술팀’이라는 두 개의 팀을 운영하면서 의미적 상호운용성과 구조적 상호운용성 확보 업무를 하면서 모든 서비스에 적용하고 있습니다. 즉, 카카오헬스케어에서는 헬스케어 데이터의 상호운용성을 보장하고, 카카오헬스케어 서비스에는 기본적으로 모든 데이터를 국제 표준 기반으로 저장, 관리하고 있으며, 이를 활용하여 더욱 가치있는 서비스가 되도록 노력하고 있습니다.
의미적 상호운용성 확보를 위해서는 의학 용어에 대한 지식이 필요하기에 초기에는 회사 내부의 의료진들이 수작업으로 용어 표준화 작업을 수행하였으나, 최근 좋은 성능을 보이고 있는 LLM을 이용하여 자동매핑솔루션을 개발하였습니다. 현재는 이 자동매핑솔루션을 이용하여 용어 표준화를 수행하고 있고, 기존 수작업 대비 용어 표준화 시간을 평균 80% 정도 단축하여 업무를 효율적으로 수행하게 되었습니다. 또한 HRS에 여러 의료기관의 데이터를 국제 표준 기반의 동일한 형태로 저장하기 위하여 UDM (Universal Data Model by Kakao Healthcare) 데이터 모델을 개발하여 HRS에서 활용하고 있습니다. 즉, HRS를 도입하는 의료기관들은 모두 동일한 구조와 동일한 용어로 데이터가 표준화되어 저장ᆞ관리됩니다.
FHIR와 관련해서도 카카오헬스케어의 만성질환관리 모바일 솔루션인 PASTA를 통해 수집된 혈당 및 여러 데이터들을 병원에 연동하기 위해서 PASTA Connect Pro를 개발하여 국내 여러 병원들에 도입을 하였습니다. PASTA Connect Pro는 보건복지부의 표준 고시인 FHIR KR Core 및 개인생성건강데이터 표준 가이드라인을 준수하면서 FHIR 국내 활용을 선도하고 있습니다. 최근에는 의료마이데이터 선도사업자로 선정되어 병원 컨시어지 챗봇 서비스인 KareChat 기반으로 마이데이터 서비스를 출시하여 처방받은 약 이력부터 상세정보까지 제공하고 있습니다.


마지막으로 헬스케어 데이터를 잘 표준화하였더라도 헬스케어 데이터는 상상할 수 있는 모든 형태(텍스트, 이미지, 동영상, 사운드, 코드, 숫자 등)로 데이터가 저장된다는 문제를 해결해야 합니다. 예를 들어 혈액검사들은 대부분 숫자 형태로 저장되지만, X-ray, CT 등의 의료영상은 이미지로 저장되고 있으며, 내시경은 동영상으로도 저장됩니다. 심전도와 같은 검사들은 시계열 데이터로 저장되고 있고, 일부 검사들은 사운드를 저장하기도 합니다. 개인의 건강상태를 파악하고 적절한 치료를 하기 위해서는 이 모든 데이터를 통합 분석하는 것이 필요합니다.
이렇듯 다양한 형태와 출처를 가지고 있는 헬스케어 데이터는 기존의 데이터베이스만으로는 효율적인 관리가 어렵다는 점이 특징입니다. 이러한 방대한 양의 비정형 데이터는 정형 데이터보다 훨씬 더 높은 처리 비용과 시간을 요구하지만, 동시에 큰 기회를 제공합니다. 정형 데이터로는 파악하기 어려운 숨겨진 패턴과 상관관계를 분석할 수 있기 때문입니다.
이를 위해 여러 첨단 기술의 적용이 필수적이고 최근 주목 받고 있는 생성형 AI 또한 비정형 데이터 분석에 활용되고 있습니다. 이 기술들은 비정형 데이터에서 의미 있는 패턴을 발견하고, 복잡한 상호관계를 분석함으로써 개인 맞춤형 치료, 질병 예측 및 예방, 신약 개발 등 헬스케어 혁신을 가능하게 합니다.
카카오헬스케어는 데이터 플랫폼에 여러 최신 생성형AI 기술을 사용하고 있습니다. 대표적인 기술이 의료진들이 자유롭게 작성한 텍스트 기록에서 꼭 필요한 정보를 추출하는 NER (Named Entity Recognition) 기술입니다. 의료영상을 판독한 영상검사기록지나 조직을 채취하여 현미경 등으로 확인한 병리 검사 기록지 등에는 아주 중요한 정보들이 포함되어 있으나, 모든 정보들이 구조화되지 않은 텍스트로 저장되어 있습니다. 이러한 기록지들에서 정보를 추출하고자 하는 많은 시도들이 있었으나 일부 기록지들을 제외하면 성능이 만족스럽지 않았습니다. 카카오헬스케어는 생성형AI의 가능성에 주목해서 이러한 기록지들을 대상으로 LLM기반의 NER 기술을 개발하였고, 수작업 대비 처리 속도는 260배 향상되어, 작업 완료 시간이 수작업의 5% 이하 시간으로 가능하게 되었고, 소요 비용도 97% 절약되었습니다. 또한 성능도 모든 병원들에게 F1 값 기준으로 아주 복잡한 기록지라도 최소 90% 이상을 만족시키도록 하였고, 평균적으로 96~97% 의 성능을 보장하고 있습니다.

카카오헬스케어에서는 지속적으로 헬스케어 데이터의 활용을 저해하는 장벽을 허물고, 헬스케어 산업이 유망 산업만으로 남지 않도록 노력하고 있습니다. 특히 안전한 데이터 활용을 위해 꼼꼼히 개인정보 보호 정책을 세우고 이를 위한 기술을 개발하면서 데이터를 안전하게 관리하며, 모든 사용자가 안심하고 데이터 서비스를 이용할 수 있도록 하기 위해 다양한 방안을 강구하고 있습니다.
카카오헬스케어의 여정은 분명히 쉽지 않은 길이지만, 누군가는 가야 하는 길이고, 우리가 그 길의 선두에서 데이터와 기술을 통해서 헬스케어의 새로운 미래를 열고자 노력하고 있습니다.
- 서비스 바른 근무 자세 가이드 l 카카오헬스케어
#바른자세가이드#카카오헬스케어
- 보도자료 발행일 2025.09.03 카카오, 창사 이래 첫 그룹 단위 전 직군 신입사원 공개 채용
#AI네이티브#채용#카카오그룹
- 커뮤니케이션 쓰는이에 집중. 쓰기좋게 맞춤.
카카오톡