CNET Korea뉴스콘텐츠

내 목소리, 캐릭터 음성으로 바뀐다…수퍼톤 시프트 오픈 베타 시작

실시간 AI 음성합성 파운데이션 모델 ‘낸시’…음성 변환까지 1/1000초 수준

(씨넷코리아=윤현종 기자) AI 오디오 기업 수퍼톤이 게임과 영화, 애니메이션 등 각종 콘텐츠에서 활용할 수 있는 AI 기반 실시간 음성 변환 서비스 ‘수퍼톤 시프트’(이하 시프트)의 글로벌 오픈 베타를 시작했다고 15일 밝혔다. 

시프트는 수퍼톤이 콘텐츠 제작 및 크리에이터들의 창작을 지원하고 업무 편의성을 높이기 위해 개발한 솔루션이다. 시프트에 탑재된 10개의 캐릭터 음성 중 하나를 선택하면, 사용자가 발화하는 즉시 캐릭터의 목소리로 실시간 송출하는 방식이다. 

이번 오픈 베타는 수퍼톤 공식 홈페이지에서 무료로 다운로드해 사용할 수 있다. 수퍼톤은 오는 6월 26일까지 오픈 베타 기간을 거쳐 올 하반기 중 정식 론칭한다는 계획이다. 

수퍼톤 시프트에서 제공하는 캐릭터 목소리 샘플 화면 (사진=수퍼톤)

수퍼톤은 지난해 11월 부산 벡스코에서 열린 국제 게임 전시회 ‘지스타2023’의 B2B 부스에 참가해 시프트를 클로즈드 베타 형식으로 처음 선보인 바 있다. 당시 시프트는 국내외 주요 미디어의 집중 조명을 받았고 참관객들의 방문이 이어지는 등 관심을 모았다. 

시프트는 ▲자연스러운 음성 발화 스타일 ▲실시간 수준으로 음성변환 속도 단축 ▲단 10초 만에 사용자 목소리를 캐릭터로 커스텀하는 기능 등 3가지 측면에서 높은 기술력과 편의성을 자랑한다.

시프트는 실제 사람의 발화에 가깝게 자연스럽고 섬세한 음성을 구현하는 것이 특징이다. 수퍼톤이 자체 개발한 음성합성 파운데이션 모델 낸시(NANSY, Neural Analysis & Synthesis)를 기반으로 만든 시프트는 사용자의 음성을 음색·발음·음고·강세 등 4개 구성 요소로 빠르게 분석해 사용자와 캐릭터의 목소리를 실시간 변환하는 방식을 적용한다. 이를 통해 기계음은 물론, 외부 노이즈를 없애 사실적이고 깨끗한 음성을 출력한다.

또 음성을 빠르게 변환시켜 즉각적인 의사소통을 지원한다. 수퍼톤은 음성이 출력돼 청자에게 도달하기까지 걸리는 지연 시간을 청자들이 인지하지 못하는 수준인 47ms(밀리 세컨드, 1000분의 1초)까지 단축시켰다. 이는 세계적으로도 뛰어난 수준이다.

사용자 편의성도 대폭 높였다. 사용자의 음성 분석을 위해, 시프트가 제시한 10초 가량의 샘플 대본을 읽으면 바로 사용자가 선택한 캐릭터로의 음성 변환이 시작된다. 동시에 커스커마이징도 가능하다. 시프트는 사용자와 캐릭터 음성 간의 혼합 비율이나 감정의 표현 정도, 음의 높낮이 등의 음성 구성 요소 값을 섬세하게 조절할 수 있는 기술 도구를 탑재해 사용자의 취향이나 사용 목적에 맞춘 음성을 자유롭게 생성할 수 있다.

이 같은 장점을 활용해 콘텐츠 크리에이터들은 시프트를 콘텐츠의 다양성과 완성도를 높이는 창작 도구로 활용 할 수 있다. 버튜버나 스트리머, 팟캐스터가 개성 있는 목소리로 구독자들에게 색다른 청취 경험을 선사하거나, 게이머와 코스튬 플레이어가 게임 캐릭터의 목소리로 타 유저들과 음성 채팅을 즐기며 게임 몰입감을 높이는 식이다. 

이교구 수퍼톤 대표는 “제작사와 크리에이터들이 손쉽게 시프트를 사용할 수 있도록 다양한 의견을 수집하는 것이 이번 오픈 베타의 가장 큰 목적”이라며 “정식 출시 버전에는 목소리 샘플을 확대하고 콘텐츠 제작에 유용한 기능들을 추가 탑재하는 등 시프트가 최적의 목소리 목소리 창작 도구로 널리 사용될 수 있도록 노력해 나가겠다”고 말했다.

윤현종 기자mandu@cnet.co.kr

국내외 최신 IT 소식, 쉽고 재미있게 풀어내겠습니다. :)