[아이뉴스24 김국배기자] "인공신경망 기계번역(NMT)과 사람의 번역을 비교하는 휴먼 평가를 실시했는데 47%의 평가자가 NMT가 더 낫다는 의견을 나타냈습니다. 또 IT 분야에서도 43%가 NMT가 더 낫다고 평가했습니다."
최근 서울 양재동 본사에서 만난 호망 로드리게즈 시스트란인터내셔널 최고분석책임자(CAO)는 기계번역의 개선 수준에 대해 "기계번역이 사람의 번역과 우열을 가리는 경우는 역사상 처음 있는 일"이라고 표현했다.
그만큼 NMT가 등장하면서 기계번역 품질, 즉 문장의 가독성이 이전과 비교할 수 없을 정도로 향상됐다는 의미다. 수치는 이 회사의 NMT에 대한 평가 결과지만 최근 구글, 네이버의 번역 품질 향상에서 보듯 NMT가 번역의 품질을 바꿔놓고 있음은 틀림없다.
호망 로드리게스 CAO는 프랑스 파리 시스트란에서 9년 이상 근무하다 지난해 9월 서울 시스트란 본사로 자리를 옮기며 기계번역 시스템에 대한 연구개발(R&D)을 담당해왔다.
이처럼 번역 품질이 개선되기 시작한 건 잘 알려진대로 통계 기반 기계번역을 인공지능(AI) 기반으로 바꾸면서부터다.
NMT가 나오기 전 기계번역은 규칙 기반(RBMT)과 통계 기반 기계번역(SMT) 크게 두 가지로 구분됐다.
RBMT는 엔지니어와 언어 공학자가 협업하며 언어에 대한 규칙을 만들어 나가는 기술이다. 많은 언어적 지식과 시간이 필요한 데다 규칙을 만들어 내는 것이 어려웠다.
SMT는 통계를 사용해서 확률을 다룬다. 머신러닝을 기반으로 '번역된 말뭉치(parallel corpus)'를 학습시킨 뒤 가능한 번역문을 나열하고 제일 적합한 번역문을 선택하는 것이다. 그러나 SMT에서는 한국어와 영어처럼 어순이 다른 언어 번역이 항상 문제가 됐다.
호망 CAO는 "NMT로 오면서 어순 처리 부분이 많이 개선됐다"며 "SMT는 몇 개의 단어 이상, 구 단위를 벗어나면 가독성이 떨어졌지만 NMT는 문장 단위의 가독성을 보여준다"고 설명했다.
그는 "NMT 역시 사용하는 자원은 말뭉치지만 딥러닝 기술을 사용해 스스로 언어에 대한 표현(representation)을 만들어 나가는 것이 다르다"고 부연했다.
물론 아직 약점도 많다. 이전에 보지 못한 단어, 빈도수가 낮은 단어들은 여전히 처리가 어렵다. 독일어 등 개선이 쉽지 않은 특정 언어도 있다.
그는 "독일어 같은 경우 복합명사 때문에 NMT에서도 개선 폭이 넓지 않았다"며 "SMT에서는 한국어 번역도 독일어처럼 똑같이 어려웠지만 NMT로 오면서 엄청난 개선을 보인 것"이라고 말했다.
시스트란은 독일어 등 특정 언어의 문제점을 해결하기 위해 '사용자 사전 기술' '용어 추출 기술' 등 기존 용어 기술(terminology tech)과 딥러닝 기술을 통합시켜 처리하는 방법을 연구중이다.
"사용자 사전 기술의 경우 분야별로 단어를 처리하는 데, 용어 추출 기술은 딥 러닝에서 용어 커버리지(coverage)를 높이는 데 신경을 쓰고 있다"고 그는 말했다.
진화하는 번역 기술이 번역가를 대체할 지에 대해선 호망 CAO는 "기계번역과 인간은 협업 관계"라는 점도 분명히 했다.
호망 CAO는 "기계번역의 품질이 올라갈수록 언어 서비스 제공자(LSP)와 파트너십이 이뤄지는 사례가 더 많아지는 것을 경험했다"며 "기계번역은 사람들의 작업 흐름에 적용하는 것이기 때문에 번역 품질이 향상되면 이를 기반으로 도구 등을 만들어 더 효율적으로 일할 수 있게 된다"고 했다.
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기