(씨넷코리아=김태훈 기자) 미디어젠 컨소시엄이 17일 한국지능정보사회진흥원(NIA)과 함께 '인공지능 학습용 데이터 구축 사업'을 수행한다고 밝혔다. 사업 목표는 감정이 태깅된 자유대화 음성 데이터 구축이다.
컨소시엄은 미디어젠, 비디, 메트릭스로 구성됐다. 음성 통화 녹음과 자동 전사 시스템이 포함된 자체 수집 툴과 공정관리 시스템을 기반으로 데이터를 수집한다.
'인공지능 학습용 데이터 구축 사업'은 과학기술정보통신부 디지털 뉴딜 실행 계획의 하나로 한국지능정보사회진흥원(NIA)에서 수행하는 대규모 학습용 데이터 구축 사업이며, 구축된 데이터는 공익적인 목적으로 AI 허브를 통해 공개된다.
이번 과제는 인공지능 데이터 중에서도 수집이 어려운 축에 속하는 자유대화 음성 데이터를 대규모로 구축한다는 데 초점을 두고 있다. 대화에 포함된 감정 상태를 분석할 수 있는 정보를 함께 제공함으로써 음성인식, 화자인식, 감정인식 등 다양한 분야에 활용할 수 있는 기초데이터를 제공할 예정이다.
과제 책임을 맡은 송민규 미디어젠 상무는 "이번 과제는 성인이나 청소년을 대상으로 자유로운 대화 데이터 수집을 진행하고 있다"며, "특히 최근 많이 사용되고 있는 신조어와 젊은 층의 발화 스타일을 수집할 수 있는 중·고등학생들의 적극적인 참여를 권장한다"고 밝혔다.
데이터 수집은 성인과 청소년 크라우드 워커 지원자를 대상으로 진행하며, 참여한 이들에게 소정의 참가비를 지급한다. 크라우드 워커 참가 지원 관련 정보와 문의는 메트웍스에서 확인할 수 있다.