[아이뉴스24 문영수 기자] 말소리 만으로 게임 몬스터 '오크'의 울부짖음을 구현하는 기술이 베일을 벗는다. 엔씨AI는 세계 최대 음성·언어 기술 학회인 인터스피치(INTERSPEECH) 2025에서 혁신적인 몬스터 사운드 생성·변환 AI 기술을 공개한다고 밝혔다.
인터스피치는 국제 음성커뮤니케이션협회(ISCA)가 주최하는 음성 및 언어 기술 학회로, 매년 전 세계 음성 연구자와 산업 관계자가 모여 최신 연구 결과와 혁신 기술을 공유하는 자리다.
![[사진=엔씨AI]](https://image.inews24.com/v1/8195aaec562582.jpg)
8월 17일부터 21일까지 네덜란드 로테르담에서 개최되는 이번 26회 학회는 '공정하고 포용적인 음성 과학과 기술(Fair and Inclusive Speech Science and Technology)'을 주제로, 개인과 언어 간의 다양한 음성 특성을 존중하고 이를 기반으로 한 맞춤형 음성 기술 발전에 초점을 맞췄다.
엔씨AI는 이번 학회에서 몬스터 사운드에 특화된 고품질 음색 변환 모델의 구조와 학습 기법을 상세히 다룬 논문과, 이를 웹 기반 실시간 변환 시스템으로 구현한 데모 구축 사례 논문 등 총 2편을 발표한다. 현장에서는 방문자가 마이크를 통해 말을 하거나 사운드를 업로드하면 즉각 특정 몬스터의 울음이나 포효 같은 음색으로 변환되는 체험형 데모가 제공되며 온라인 데모 페이지도 공개해 현장에 오지 못한 이들도 이 기술을 체험할 수 있다.
엔씨AI가 이번에 선보이는 기술은 대규모 MMORPG에서 몬스터 사운드 제작 방식을 혁신적으로 개선했다. CD 수준(44.1kHz)으로 음성을 분석, 캐릭터 고유의 거친 숨소리나 날카로운 포효까지 놓치지 않고 담아낸 뒤, 원래 음성의 내용은 유지하면서도 원하는 스타일만 정확하게 덧입힌다는 게 회사 측 설명이다.
또한 목소리의 '무슨 말을 하는지'와 '어떤 느낌으로 말하는지'를 동시에 인식해 대사뿐 아니라 웃음, 포효, 숨소리 같은 비언어적 요소까지 자연스럽게 변환한다. 금속성 울림이나 두꺼운 숨소리 같은 질감을 주파수별로 정밀 복원하고 0.005초마다 강약 변화를 반영해 기계적인 소리가 아닌 실제 생물이 내는 것 같은 울림을 구현한다.
회사 측은 "첨단 모델을 통해 기존에는 사운드 디자이너들이 각 몬스터와 상황별 변주음을 일일이 수작업으로 제작하는 데 막대한 시간과 비용이 들던 작업을 상대적으로 가볍게 인간 음성의 폭넓은 주파수 스펙트럼을 그대로 확장, 몬스터 특유의 다이내믹하고 복잡한 음색과 질감 변화를 정교하게 재현할 수 있게 됐다"고 강조했다.
이와 함께 공격성, 위압감, 유쾌함 등 캐릭터 성격을 반영하는 스타일 속성까지 세밀하게 조절할 수 있어, 동일 몬스터라도 전투나 감정 상태에 따라 완전히 새로운 음향을 자동 생성할 수 있다.
기술 기반은 방대한 고품질 데이터다. 엔씨AI의 오디오AI팀은 엔씨소프트 사운드센터와 협업해 다년간 누적해온 대규모 게임 오디오 데이터베이스를 정밀하게 분류·태깅하고, 음색, 공기감, 노이즈, 분위기 등 다양한 음향 특성에 따른 세분화를 진행했다.
또한 '디휴머나이저' 등 전문 음향 변형 툴을 활용, 현실 녹음으로는 잡아내기 어려운 가상의 몬스터 사운드를 대량 증강해 극단적이고 다양한 비인간 음색 환경에서도 안정적으로 모델을 학습시킬 수 있는 토대를 마련했다. 이 데이터 구축 및 증강 전략은 2025년 춘계 한국음향학회에서 소개되어 국내외 학계와 업계로부터 높은 평가를 받았다.
모델 테스트 결과 엔씨AI의 기술은 최근 공개된 최신 음색 변환 모델(DDDM-VC, Diff-HierVC, Free-VC 등)을 모두 앞질렀다. 음질과 자연스러움, 음색 유사도, 발화 내용 보존성 등 주관·객관 평가 전 부문에서 우수 성적을 기록했다. 이는 고해상도 오디오 처리, 스타일 정보 적용 최적화, 언어·비언어 동시 분석, 질감 복원 로직, 강약·리듬 재현 등 모델 전반의 개선이 시너지를 낸 결과다.
이번 성과로 엔씨AI는 국내 AI 주권 확보와 산업 경쟁력 강화를 위한 국가 전략 사업인 '독자 AI 파운데이션 모델 프로젝트' 선정 이후 AI 연구 역량과 기술력을 공식적으로 인정받으며, 국내 멀티모달 AI 분야에서 독보적인 입지를 구축하게 됐다.
조남현 엔씨AI 오디오AI 팀장은 "엔씨AI는 국내 멀티모달 AI 분야를 대표하는 연구 전문 조직으로 방대한 게임 오디오 데이터와 첨단 AI 모델링 기술, 뛰어난 사운드 디자인 전문성을 융합해 이번 몬스터 사운드 변환 기술을 완성했다"며 "앞으로도 AI를 활용해 창작자의 상상력을 현실로 구현하고, 디지털 콘텐츠 산업 전반에 혁신적인 오디오 경험을 제공하는 데 기여할 것"이라고 강조했다.
/문영수 기자(mj@inews24.com)
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기