뉴스 2016년 02월 15일

다음, 국내 최초 음성 합성 엔진 '뉴톤 톡' API 공개

공유하기
노란 바탕 속 검정색 Kakao CI

- 자체 개발 한국어 운율 모델 적용, 대용량·자동화 처리에 의한 운율 예측 고도화

- 음성 인식 API에 합성 엔진 추가해 완전한 형태의 음성 API 무료 제공

 

 

2014-06-26 다음커뮤니케이션이 국내 최초로 음성 합성 API를 공개했다. 자체 개발한 음성 합성 엔진 ‘뉴톤 톡(Newtone Talk)’의 API로 사람이 읽어주는 것처럼 자연스러운 것이 특징이다. 지난 2월 공개한 음성 인식 엔진 ‘뉴톤(NewTone)’의 API에 음성 합성 기능이 더해짐으로써 앱 개발자 누구나 완전한 형태의 음성 API를 무료로 이용할 수 있게 됐다.


뉴톤 톡은 2012년 말, 다음이 인수한 음성 인식 전문기업 ‘다이알로이드’의 기술로 제작됐다. 음성 합성이란 글자를 입력했을 때 이를 음성으로 변환해 들려주는 것으로, 사람처럼 자연스럽게 읽어주는 것이 기술의 최종 목적이다. 한국어 음성 합성을 공개 API 형태로 제공하는 것은 뉴톤 톡이 유일하다. 다음은 이를 위해 한국어 운율 모델을 자체 개발했으며 대용량·자동화 처리 기술에 의해 빠르게 모델을 학습할 수 있도록 했다. 기존 음성 합성 기술은 대부분 사람이 일일이 들어보고 운율과 발성상태를 표기한 후 이를 기반으로 학습하는, 수작업에 의존하는 형태였다. 하지만 다음의 운율 모델은 이 모든 과정을 자동으로 처리하며 다양한 운율을 예측하기 때문에 효율적이다. 다음 검색으로 축적된 데이터를 활용해 가수 ‘2NE1’, ‘B1A4’의 이름과 같이 사전에 등록되지 않은 신조어도 ‘투애니원’, ‘비원에이포’로 정확히 읽고, ‘ㅋㅋㅋ’은 ‘크크크’로, ‘You&I’와 같이 특수문자가 포함된 경우에는 ‘유앤아이’로 읽는 등 유연한 대응도 눈에 띈다. 다음 음성 처리 전문가들의 노하우와 기술력이 집약된 결과다.


뉴톤 톡은 한 번에 최대 30초의 음성을 합성할 수 있다. 입력된 글자를 분석해 음성으로 합성하기까지 0.1초면 된다. 문장을 입력하고 합성 요청을 하면 즉시 들을 수 있다. 뉴톤 톡에는 현재 남성과 여성 각 하나씩의 낭독 음색이 탑재돼 있고, 대화체나 밝은 낭독체 등 4개의 음색이 연내 추가될 예정이다.


뉴톤 톡의 활용 범위는 무한하다. 예를 들어, 현재 ‘100미터 앞에서 우회전입니다’라는 형태로 음성 안내하는 내비게이션 앱을 ‘100미터 앞에서 다음커뮤니케이션 본사를 끼고 우회전입니다’ 수준까지 안내 가능하도록 만들 수 있다. 뉴스나 문자, 책 구절 등을 읽어주거나 각종 안내 방송을 대신할 수 있고, 시각 장애인을 위한 생활형 앱 등을 개발할 때도 유용하다.


다음 검색부문 이상호 부사장은 “음성 합성 기능의 추가로 입출력이 모두 가능한 음성 엔진이 완성됐다. 이를 통해 음성 기반의 새로운 감각과 메시지를 나눈다는 의미를 담아 음성 인식 엔진을 ‘뉴톤(Newtone)’으로 음성 합성 엔진을 ‘뉴톤 톡(Newtone Talk)’으로 이름 지었다”며 “개발자 누구나 음성 인식 및 합성 기술을 자유롭게 활용해 혁신적인 모바일 서비스를 만들 수 있도록 완성된 엔진을 API로 먼저 공개했고, 이런 시도가 장기적으로 음성 기술 영역 전반의 발전을 이끌 것이라 기대한다”고 밝혔다.


뉴톤과 뉴톤 톡은 안드로이드와 iOS 버전 모두를 지원한다. 다음 개발자 네트워크(http://dna.daum.net)에서 제휴 신청을 하면 발급 받을 수 있으며 일 1만회까지 자유롭게 사용 가능하다. 이미 뉴톤 API를 발급 받았다면 별도의 재신청 절차 없이 뉴톤 톡 기능까지 이용할 수 있다.

공유하기
목록 보기
추천 콘텐츠