AI폰, 인간의 언어장벽 무너뜨릴까... 세계 언어 정밀분석하는 삼성전자 ‘AI 글로벌 연구소’의 놀라운 성과

‘AI 통역’으로 현재 16개 언어 동시 통역 가능

최첨단 인공지능과 로봇 기술이 급속히 발전하고 있는 가운데, 스마트폰을 통한 인간의 언어장벽이 사라질 것으로 보인다. 자료사진=Figure AI 홈페이지 화면 캡처

삼성전자가 이번에 새롭게 선보인 '갤럭시 Z폴더블폰' 시리즈의 핵심은 세계 최초의 ‘AI 폴더블폰’이다. AI 기능을 폴더블폰의 특성을 살려 구현한 것이다. Z 폴드의 경우 반만 접어 책상에 올리고 대화를 하면 Z 폴드의 화면 양쪽으로 대화가 실시간으로 통역된다.

현재 삼성 AI 통역 기능은 ▲영어 ▲한국어 ▲스페인어 ▲프랑스어 ▲독일어 ▲이탈리아어 ▲포르투갈어 ▲폴란드어 ▲러시아어 ▲중국어 ▲일본어 ▲태국어 ▲아랍어 ▲힌두어 ▲베트남어 ▲인도네시아어 16개 언어를 지원한다.

해당 언어들 중 중국어, 베트남어 등은 상당히 까다로운 언어라고 한다. 지역마다 심지어 미세한 차이로 다른 뜻의 단어들이 많기 때문이다. 삼성전자는 애플 스마트폰과의 차별성을 위해 통번역 기능 역량 강화에 집중해왔다.

삼성전자가 통역 기능에 해당 언어들을 탑재하기 위해, 갤럭시 AI 글로벌 연구소를 통해 걸어온 그간의 노력을 정리했다.

◇갤럭시 AI 글로벌 연구소 : 인도네시아(SRIN)

전 세계 2억명 이상의 인구가 사용하는 인도네시아어는 관사와 복수형이 없고 동사 시제 변화도 없어서 배우기 쉬운 것으로 알려져다. 사진=삼성전자

삼성리서치 인도네시아 연구소(SRIN)는 최근 갤럭시 AI에 인도네시아어를 추가하는 데 성공했다.

전 세계 2억명 이상의 인구가 사용하는 인도네시아어는 관사와 복수형이 없고 동사 시제 변화도 없어서 배우기 쉬운 것으로 알려져다. 그러나 맥락을 충분히 파악해야 정확히 이해할 수 있어 번역이 간단치 않은 언어다.

갤럭시 AI에 인도네시아어 번역 기능을 담는 임무를 맡은 SRIN은 인도네시아어의 이런 특성을 감안해 양질의 데이터를 확보하는 작업에 집중했다.

주나이딜라 파들릴 SRIN AI 파트장은 “훌륭한 AI는 관련성이 높은 양질의 학습 데이터에서 출발한다”며 “특히 언어마다 서로 다른 데이터 접근 방식이 요구되기 때문에 현지의 언어적 필요성과 고유의 환경을 이해하기 위한 심층적인 연구를 거친다”고 설명했다. 이어 “갤럭시 AI에 언어 옵션을 추가하는 전 과정은 현지의 법적, 윤리적 기준에 맞춰 어떤 종류의 데이터를 어떻게 확보할지 계획하는 것에서 시작한다”고 덧붙였다.

“인도네시아어 번역은 고난도 작업”

갤럭시 AI의 통화 중 실시간 통역 기능은 크게 ▲자동 음성인식(ASR) ▲인공신경망 기반 기계번역(NMT) ▲텍스트 음성 변환(TTS) 세가지 과정을 거친다. 갤럭시 AI에 인도네시아어를 추가한 것도 해당 과정을 기반으로 진행됐으며 SRIN은 단계별로 다른 데이터 세트를 확보했다.

우선 자동 음성인식(ASR) 단계의 경우 다양한 환경의 배경 소음이 들어있는 데이터를 대량 확보함으로써 실제 사용 환경에서 인식 정확도를 높였다.

무클리신 아디 사푸트라 ASR 리더는 “녹음된 음성 데이터에 인위적인 소음을 추가하는 것만으로는 충분하지 않다”며 “파트너와 협업으로 확보한 언어 데이터 외에도 시끄러운 카페나 사무실 등 일상적 소음 환경에서 음성 녹음이 필요하다”고 말했다.

신조어와 같이 지속적으로 변화하는 언어의 특성도 반드시 고려해야 하는데 SRIN은 인도네시아의 다양한 소셜미디어에서 해당 정보를 찾아냈다.

인도네시아어를 갤럭시 AI에 추가하는 데 특히 중요한 과정이 인공신경망 기반 기계번역(NMT)이다. 사람의 뇌가 학습하는 과정을 본뜬 기술로 단어나 구문 단위로 쪼개는 것이 아니라 문장 단위로 번역하는 것이다.

다른 언어도 마찬가지지만 인도네시아어의 경우 특히 사회적 상황에 따라 다른 맥락과 암묵적인 의미를 내포하는 경우가 많다. 때문에 AI가 의사소통의 맥락과 규칙을 이해할 수 있도록 학습시켰다는 게 SRIN의 설명이다.

무하마드 파이살 NMT 리더는 “인도네시아어 번역은 고난도의 작업”이라며 “AI에 대량의 번역된 텍스트 데이터를 제공해 새로운 단어, 외래어, 고유명사, 관용어 등을 학습할 수 있게 했다”고 말했다.

텍스트 음성 변환(TTS) 기능에는 여러 형태의 음성과 톤이 포함된 데이터가 필요하다. 다양한 상황에서 인도네시아어 단어의 일부가 어떻게 발음되는지 등에 대한 정보가 요구된다.

하리츠 압두로만 TTS 리더는 “양질의 음성 데이터로 작업의 절반을 수행할 수 있다“며 “성우가 초반 작업을 마치고 나면 다음 과제는 AI 모델이 특정 단어를 정확하게 발음할 수 있도록 한다”고 설명했다.

뭉쳐야 산다... 전문가·전세계 SR과 협업

SRIN은 인도네시아어를 갤럭시 AI에 추가하는 과정에서 언어학 전문가, 전 세계 삼성리서치와 긴밀하게 협력했다고 한다.

파들릴 AI 파트장은 “인도네시아어와 머신러닝에 대한 전문성, 창의성, 통찰력이 필요했다”며 “개방형 협업을 토대로 글로벌 네트워크를 활용하고 과거부터 이어온 삼성리서치의 AI 개발 경험이 큰 도움이 됐다”고 말했다.

그는 또 “이번 성과는 우리 연구소의 첫 번째 AI 프로젝트”라면서 “이번 프로젝트를 통해 삼성전자의 가치를 반영할 뿐만 아니라 언어를 통해 사용자들의 문화적 정체성과 자부심을 AI 기능에 투영할 수 있었다”고 덧붙였다.

◇갤럭시 AI 글로벌 연구소 : 요르단(SRJO)

요르단 연구소는 이를 해결하기 위해 언어 학습을 담당하는 갤럭시 AI 개발 여타 팀들과는 다른 방식으로 프로젝트에 접근했다. 모함마드 함단 아랍어 언어 개발 프로젝트 총 책임자는 “다른 언어와는 다르게 아랍어는 문장 내 주어와 동사에 따라 목적어의 발음이 달라진다”며 “이 모든 방언을 이해하면서 표준 아랍어로 대답할 수 있는 모델을 개발하는 것이 우리의 목표”라고 말했다. 사진=삼성전자

AI 모델에 언어를 학습시키는 일은 매우 복잡한 과정을 거친다. 만일 특정 언어가 단순한 하나의 언어가 아닌 다양한 방언의 집합체라면 과연 AI 모델에 어떻게 학습시킬 수 있을까?

아랍어는 세계에서 6번째로 많이 사용되는 언어(20여개국 4억명 이상)로 현대 표준 아랍어(MSA)인 푸스하와 방언인 암미야로 구분할 수 있다. 푸스하는 아랍 지역에서 공식 표준어로 사용되고 있어 미디어나 교육, 정부 등에서 사용된다. 반면 암미야는 일상적인 대화에 흔히 사용되곤 한다. 아랍어 방언은 특정 지역이나 도시에서 변형되어 사용하고 있는데 총 30여종이 있다.

수 많은 방언을 표준어로... 쉽지 않은 도전

갤럭시 AI의 실시간 통역 기능에 아랍어 옵션을 추가하기로 하면서 요르단 연구소에는 비상이 걸렸다고 한다. 중동과 북아프리카 권역에 퍼져있는 다른 발음, 어휘, 억양을 가진 방언들을 고려해야 했기 때문이다.

요르단 연구소는 이를 해결하기 위해 언어 학습을 담당하는 갤럭시 AI 개발 여타 팀들과는 다른 방식으로 프로젝트에 접근했다. 모함마드 함단 아랍어 언어 개발 프로젝트 총 책임자는 “다른 언어와는 다르게 아랍어는 문장 내 주어와 동사에 따라 목적어의 발음이 달라진다”며 “이 모든 방언을 이해하면서 표준 아랍어로 대답할 수 있는 모델을 개발하는 것이 우리의 목표”라고 말했다.

해당 작업에서 특히 어려웠던 부분은 텍스트 음성 변환(TTS) 작업이었다고 한다. 이는 음성을 텍스트로 번역한 뒤 이를 다시 음성으로 재생해 다른 언어를 사용하는 상대방과 소통이 가능하도록 갤럭시 AI의 실시간 통역 기능 구현에 필수 과정이었다.

해당 과정에서 삼성리서치 요르단 연구소에는 아랍어의 독특한 특성을 AI 학습 모델에 반영해야만 하는 도전 과제가 주어졌다.

아랍어는 글자의 위나 아래에 찍어 기존의 철자와는 다른 발음이나 의미를 부여할 때 쓰는 ‘발음 구별 기호’를 사용해 단어의 발음을 표기하는데 이는 종교 문헌이나 시, 어학 학습서 등에서 쓰인다.

아랍어가 모국어인 사용자의 경우 ‘발음 구별 기호’에 대한 이해는 당연하지만 일상 생활에서는 이를 사용하지 않기 때문에 컴퓨터가 아랍어 원문을 음성의 기본단위인 음소로 바꾸는 것은 어려운 작업이다.

모함마드 하윌레 팀장은 “발음 구별 기호가 사용되는 방식을 정확하고 올바르게 표현하는 양질의 언어 데이터가 부족한 상황”이라며 “이를 보완하기 위해 누락된 발음 구별 기호를 높은 정확도로 예측하고 복원할 수 있는 ‘신경망 모델(neural model)’을 설계했다”고 말했다.

신경망은 사람의 두뇌 동작 방식을 흉내 낸다. 발음 구별 기호를 예측하기 위해 대량의 아랍어 텍스트를 분석하고 언어 규칙과 패턴을 학습한 후 문맥과 구문을 바탕으로 이런 이해를 적용해야 한다. 일례로 단어의 발음은 명사의 성별과 사용된 동사에 따라 크게 달라질 수 있다. 아랍어 TTS 모델이 정확도를 달성하기까지 엄청난 양의 훈련이 필요했던 까닭이다.

언어 AI 이해의 고도화

요르단 연구소는 다양한 출처에서 각기 다른 방언의 음성 녹음 데이터를 모으고 고유한 소리, 단어, 문장에 주목해 텍스트로 변환했다.

데이터베이스 구축을 맡은 아야 하산은 “여러 방언의 미묘한 차이와 변형을 정확히 이해할 수 있는 원어민들로 팀을 구성했다”며 “이들은 녹음된 내용을 듣고 그것을 일일이 글과 문장으로 바꾸는 수작업을 진행했다”고 설명했다.

아울러 사우디아라비아와 아랍에미리트에서 사용되는 고유 명사의 문서와 녹음 샘플을 수집하고 기계 번역 처리 과정을 진행하기 위해 속어, 관용 표현, 방언별 특성 등 참조 텍스트도 확보했다.

해당 프로젝트의 자동 음성 인식(ASR) 책임자인 모함마드 함단은 “하나의 언어 모델에서 다수의 방언을 지원하는 ASR 시스템을 만드는 것은 대단히 어려운 일”이라며 “언어의 복잡성에 대한 깊은 이해, 신중한 데이터 선별, 고급 모델링 기술을 필요로 한다”고 말했다.

요르단 연구소 모든 구성원이 끊임없이 노력한 결과 갤럭시 AI에 아랍어 옵션이 추가돼 출시됐다.

◇갤럭시 AI 글로벌 연구소 : 베트남(SRV)

베트남 연구소에서 NMT 모델 개발을 리드한 응오 홍 타이는 갤럭시 AI의 16개 언어 중에서, 베트남어의 난이도가 특히 높아 개발자로서 매우 도전적인 과제였다고 말했다. 사진=삼성전자

베트남어는 베트남을 포함해 전 세계 약 9700여 만명이 사용하는 언어로 중국어, 태국어 등 인근 지역 언어와 비슷한 성조 체계를 지니고 있다. 예를 들어 베트남어 단어 ‘Ma’는 성조에 따라 무덤(Ma), 귀신(Mả) 엄마(Má) 등 전혀 다른 의미를 갖는다.

이러한 언어적 특징은 문맥이나 발화자의 의도, 감정을 직접 인지하지 못하는 AI 모델이 언어를 학습하는 게 매우 어려울 수 있음을 시사한다.

삼성전자 베트남 연구소(SRV)는 이를 극복하기 위해 AI 모델을 학습시킬 때 언어의 미세한 차이를 인식할 수 있도록 매우 정교하게 다듬은 데이터를 활용했다. 이때 활용된 데이터는 자동 음성 인식(ASR), 신경망 기계 번역(NMT), 텍스트 음성 변환(TTS) 등 AI 모델의 결과물과 정확도에 직접적 영향을 미친다.

고품질 데이터를 활용한 갤럭시 AI는 실시간 번역, 통역, 챗 어시스트, 노트 어시스트 등 실생활에 자주 활용되는 경험을 제공해 사용자의 언어 장벽을 크게 낮출 수 있었다.

6개 성조에 따라 달라지는 단어의 의미

“베트남어는 음성 구조가 복잡하고 표현도 풍부해 개발자들에게 매우 도전적인 과제였습니다.”

베트남 연구소에서 NMT 모델 개발을 리드한 응오 홍 타이는 갤럭시 AI의 16개 언어 중에서, 베트남어의 난이도가 특히 높아 개발자로서 매우 도전적인 과제였다고 말했다. 그는 “제게는 이번 개발 과정이 악명 높은 베트남의 태풍보다 더 무서웠다”며 베트남어 AI 언어를 개발하는 과정에서 팀이 직면하고 극복해야 했던 장애물과 어려움에 대해 설명했다.

베트남어는 여섯 가지 성조를 가진 음조 언어다. 발성의 작은 차이가 단어의 의미를 크게 바꿀 수 있기에 더욱 세밀한 접근이 필요했다고 한다.

삼성전자 베트남 연구소에서 ASR 개발을 리드하고 있는 부이 응옥 뚱은 “서로 비슷하게 들리는 단어도 매우 짧은 세그먼트로 나누면 한 단어당 여러 프레임 세트씩 구성된다”며 “AI 모델은 0.02초 전후의 짧은 프레임을 구분해 연속된 프레임 세트에 해당하는 단어가 무엇인지 인식하기 때문에 초기 AI 학습 과정에 심혈을 기울여야 한다”고 설명했다.

개발자들은 또 발음은 같지만 의미가 다른 동음이의어와 철자가 같지만 의미가 다른 동형이의어에 대해 연구했다.

사람끼리 대화할 때는 유사한 소리나 문자를 분위기나 발화자의 비언어적 요소에 따라 구분해 알아들을 수 있지만 AI 모델은 그렇지 않다. 따라서 AI 모델이 성조와 유사한 단어를 정확히 구분하도록 트레이닝시키는 것이 필수적이다.

응오 홍 타이는 “AI 모델을 학습시킬 때 사용되는 데이터의 양뿐 아니라 데이터의 정확성도 매우 중요하다”며 “그래야만 베트남어에 존재하는 미묘한 차이를 AI 모델이 인지할 수 있다”고 말했다.

엄격한 데이터 정제 과정

데이터 정제 과정은 크게 세 단계로 구성된다. 먼저 트레이닝에 사용될 오디오와 텍스트 데이터를 검토하고 이를 수정한다. 이후 데이터 세트의 전반적인 품질을 한 차례 더 확인하기 위해 무작위 검사를 수행한다. 마지막으로 트레이닝이 시작되기 전 데이터 세트를 최종 정리한다.

데이터베이스 생성을 총괄하고 TTS 모델 개발을 담당한 응우웬 마인 쥬이는 “데이터 세트의 정확도를 확인하기 위해 정제 활동을 철저히 수행했다”며 “녹음 중 스크립트 속의 오타를 발견하거나 소음이 유입되거나 발음이 부정확해지는 등 예상치 못한 많은 문제가 발생했고 그런 만큼 정제 과정에 많은 시간을 쏟아 트레이닝 데이터를 개선했다”고 말했다.

갤럭시 AI 베트남어 개발에 있어 또 다른 어려움으로 데이터 소스가 제한적이라는 점도 있었다. 응우웬은 “이는 데이터 정제 단계가 매우 중요한 또 다른 이유”라며 “사용할 수 있는 외부 소스가 제한적이기 때문에 우리가 갖고 있던 데이터의 신뢰도를 높여야 했다. 데이터에 오류가 발견되면 ‘실패’라는 마음가짐으로 임했다”고 말했다.

베트남어 AI 모델은 언어의 지역적 차이도 극복해야 했다. 이를 위해 개발팀은 베트남 북부, 중부와 남부 악센트에 대한 대량의 데이터를 수집했고 방대한 양의 데이터를 정제하고 검증하기 위해 전 팀원들이 노력했다고 한다.

끝이 아니라 시작

삼성전자 베트남 연구소 담당자들은 각고의 노력 끝에 개발을 완료했다. 쩐 뚜언 밍 SRV AI 언어 개발 프로젝트 팀장은 “갤럭시 AI에서 단어와 구절의 관련성에 대한 사용자의 피드백을 받으며 AI 모델은 지속적으로 진화하고 있다”며 “앞으로도 더 나은 사용 경험을 소비자들에게 제공하도록 노력할 것”이라고 말했다.

◇갤럭시 AI 글로벌 연구소 : 중국(SRC)

중국과 홍콩의 갤럭시 AI 개발 스토리는 현지 파트너사와의 협업이 얼마나 중요한지를 잘 보여준다. 홍콩에서 광둥어는 현지인들에게 있어 문화적 정체성의 핵심이다. 따라서 정확한 AI 언어 모델의 개발이 매우 중요했다고 한다. 사진=삼성전자

전 세계에서 거대언어모델(LLM)을 활용한 AI 툴이 쏟아져 나오는 가운데, 중국에서도 바이두의 ‘어니봇’, 메이투의 ‘미라클 비전’ 등이 인기를 끌고 있다. 중국 시장에서는 바이두와 메이투가 업계 선두를 달리고 있어 SRC는 갤럭시 AI 기능 구현을 위한 현지 LLM 공급자로 이들을 선정했다.

중국연구소의 광저우와 베이징 연구팀은 중국 사용자들이 갤럭시 AI를 경험할 수 있도록 엄격한 개발 일정을 수립해 나갔다고 한다. 이로써 바이두와 메이투의 중국어 방언 리소스를 활용해 중국어에 특화된 갤럭시 AI 설루션을 구축했다.

장 헤이롱 SRC 광저우 소프트웨어 혁신 그룹 리더는 “광저우 연구팀은 글로벌 선진 경험을 중국 현지 상황에 맞게 적용할 뿐 아니라 중국 소비자와 끊임없는 소통을 통해 신규 기능을 개발하고 지속적으로 서비스를 개선하고 있다”며 “갤럭시 S24를 통한 풍부한 개발 경험을 바탕으로 바이두, 메이투 등 중국 현지 AI 기업과 협력해 중국 시장에 큰 반향을 일으킬 수 있었다”고 말했다.

초기에는 LLM 공급자와 업무 방식을 조율하고 원활하게 정보를 주고받는 데 어려움을 겪었다고 한다. 장 다이준 베이징 R&D 센터장은 삼성의 제품 수명 주기와 맞지 않는 개발 일정 등의 문제를 해결하기 위해 TF팀을 구성하고 프로젝트를 이끌었다.

마침내 베이징 연구팀의 개발 경험과 LLM 공급자와 협업으로 중국에서 갤럭시 AI의 모든 기능을 구현하는 데 성공했다. ‘터치 투 서치(Touch to Search)’ 등 중국 시장에 특화된 기능이 탄생했다.

중국 방언까지 아우르는 갤럭시 AI

지난 1월 갤럭시 S24 출시와 함께 갤럭시 AI에 중국어가 탑재됐다. 삼성전자 중국 연구소(SRC)는 광둥어 AI 모델 개발에도 돌입했다. 기본적으로 표준 중국어 모델을 기반으로 했지만 완전히 다른 형태의 언어 기능 분석이 필요했다고 한다.

연구팀은 광둥어 서비스를 개발하기 위해 여러 가지 문화적인 요소를 고려했다고 한다. 문어체와 구어체가 다르기 때문이다. 홍콩 현지인들은 글을 쓸 때 표준 중국어와 비슷한 문법과 표현을 사용하지만 일상적인 의사소통에서는 완전히 다른 구어체 문법을 사용한다고 한다. 또한 표준 중국어에는 4가지 성조가 있지만 광둥어는 9가지 성조로 구성됐다.

여기에 광둥어는 시대에 따라 변화했도고 영어를 섞어 쓰는 경우가 많아 테스트 사례 생성과 언어 팩 검증이 복잡했다고 한다.

광둥어 AI 솔루션 테스트를 리드한 징 리는 “광둥어는 사용 지역에 따라 달라지는 매우 독특한 방언”이라며 “속어, 문구, 어휘, 심지어 성조도 상황에 따라 달라지는 경우가 많다”고 말했다. 이어 “홍콩 지역에 국한된 데이터를 검증하고 수만 건의 관련 테스트 사례를 검수하는 데 많은 노력을 기울였다”고 설명했다.

베이징과 광저우 연구팀은 광둥어의 이러한 언어적 복잡성을 인지하면서 음성 인식에서 광둥어와 영어를 혼합해 사용하는 ‘심층코드믹스(deep code mix)’ 현상을 지원했다. 또 기계번역에서 문어와 음성 표현을 동시에 지원하고 음성 합성에서는 현재 시점의 발음을 반영한다는 목표로 협업을 진행했다.

커뮤니케이션의 문화적 영향

중국과 홍콩의 갤럭시 AI 개발 스토리는 현지 파트너사와의 협업이 얼마나 중요한지를 잘 보여준다. 홍콩에서 광둥어는 현지인들에게 있어 문화적 정체성의 핵심이다. 따라서 정확한 AI 언어 모델의 개발이 매우 중요했다고 한다.

헨리 와트 SRC 홍콩 엔지니어링 그룹 리더는 “언어와 의사소통은 지역과 계층을 막론하고 매우 중요하다”며 “어떤 언어든 사람들이 의사 소통할 수 있는 도구는 모두 유용하기 때문에 우리의 연구는 의미 있는 일”이라고 강조했다.

◇갤럭시 AI 글로벌 연구소 : 브라질(SRBR)

남미 최대 국가인 브라질은 라틴아메리카에서 유일하게 포르투갈어를 사용하고 있다. 아르헨티나, 볼리비아 등 지리적으로 가까운 22개국의 공식 언어는 스페인어다

브라질의 포르투갈어와 주변 국가들의 스페인어는 모두 다양하게 변형되기 때문에 갤럭시 AI가 지역적 차이를 구별하도록 학습시키는 일은 복잡한 문제였다고 한다. 이 때문에 삼성 브라질 연구소(SRBR)는 SiDi와 Sidia 등 현지 연구기관들은 물론 스페인어권인 멕시코의 삼성 연구진과 함께 전문가 팀을 구성했다.

장벽은 낮추고 이해는 높이고

연구팀은 수천 개의 언어 소스와 머신러닝을 활용해 포르투갈어와 스페인어 등 중남미 언어의 지역별 음성과 텍스트 변이 데이터를 AI 모델에 학습시켰다. 스포츠 선수, 연예인 등 유명 인사의 이름과 현지 전문 용어 등도 같은 언어권이라고 해도 지역마다 매우 다르게 쓰인다.

예를 들어 같은 스페인어라고 해도 멕시코에서는 수영장을 ‘알베르카(alberca)’라고 말하지만 아르헨티나, 파라과이, 우루과이에서는 ‘필레타(pileta)’라고 부른다. 하지만 콜롬비아, 볼리비아, 베네수엘라에서는 브라질(piscina)이 쓰는 포르투갈어와 비슷하지만 약간의 발음 차이가 있는 ‘피시나(piscina)’라고 한다. 콜롬비아 사람들은 멋진 것을 가리킬 때 ‘체베레(chévere)’라고 하지만, 멕시코 사람들은 ‘파드레(padre)’라고 한다.

AI 언어 모델이 원활하게 번역을 수행하려면 이러한 현지 데이터가 필요하기 때문에 지역적 언어 차이는 큰 걸림돌이었다. 하지만 연구팀은 국경과 시차를 넘어선 협업으로 언어 모델과 프로세스 툴을 개선해 나갔다.

마테우스 페드로소 브라질 연구소 소프트웨어품질랩장은 “개발팀과 QA(품질검증)팀의 긴밀한 협업으로 현지어와 다양한 표현법을 반영한 모델을 개발하고 테스트를 진행했다”고 말했다.

이어 “브라질은 멕시코보다 3시간 빠르고 한국 본사보다 12시간 늦기에 새로운 커뮤니케이션 방식과 프로세스를 구축해 결과를 조율하고 진행 상황을 공유 해야했다”며 “문화를 넘어선 협업으로 갤럭시 AI에 관한 아이디어와 솔루션이 쏟아져 나왔다”고 덧붙였다.

성공적인 커뮤니케이션

삼성전자의 개방형 협업 철학과 앞선 기술력을 바탕으로 연구팀은 지치지 않고 꾸준히 개발 과정을 이어갔다. 언어와 문화적 장벽을 극복하기 위해 오디오와 텍스트 소스를 중심으로 방대한 양의 데이터를 수집, 관리, 정제하고 지속적으로 개선했다.

연구팀은 삼성 중남미 법인 모두가 축적된 기술을 활용할 수 있도록 업무 프로세스를 수립했다. 브라질 연구소의 개발팀이 프로젝트의 중심이 되어 삼성 본사 지침에 따른 AI 모델 신규 업데이트 개발과 다양한 사용 사례에 대한 테스트를 수행했다.

파트너 기관 SiDi에서 소프트웨어 개발 책임을 맡은 레안드로 플로레스 데 모우라는 “테스트 단계에서 QA팀과의 끊임없는 소통과 협업으로 사용자 경험을 개선했고 업무별로 추가적인 테스트와 연구를 진행했다”고 말했다. SiDi QA팀의 네이선 카스트로는 “갤럭시 AI의 언어 능력은 기술력 뿐 아니라 소통과 협업을 기반으로 한다”고 했다.

문화로 이끄는 길

연구팀에게 해당 프로젝트는 단순히 통번역이 아니라, 민족의 유산과 정체성을 보여주는 문화 안내서로서의 언어를 연구한다는 점에서 흥미로웠다고 한다. SiDi QA팀의 에스테파니아 카스트로 수아레즈는 “우리는 다양한 문화를 하나로 엮어 서로 다른 언어로 소통하는 어려움을 극복해 세상을 변화시킬 수 있다는 기대와 자부심을 갖고 주도적으로 업무에 임했다”고 했다.

페드로소 랩장은 “서로 다른 언어를 사용하더라도 자유롭게 소통하고, 공유하고, 상호 작용해 세상을 하나로 만들겠다는 갤럭시 AI의 목표를 브라질 연구소 연구팀이 협업 과정에서 잘 보여줬다”며 “앞으로 갤럭시 AI의 지원 언어가 확대될수록 다가올 미래의 모습”이라고 덧붙였다.

◇갤럭시 AI 글로벌 연구소 : 인도 벵갈루루(SRI-B)

세계에서 가장 많은 인구가 살고 있는 나라 중 하나인 인도는 사람 수 만큼이나 언어도 다양하다. 힌디어는 인도인의 약 40%가 사용하는 대표 언어로 약 6억명이 사용하는 걸로 알려져 있다. 이는 중국어, 스페인어, 영어에 이어 세계에서 네 번째에 해당한다.

특히 지역별로 다양한 방언을 쓰고 일상생활에서 영어를 많이 혼용하고 존댓말과 단어의 성별 구분 등 언어 특성도 뚜렷하기 때문에 외국인들이 배우기 쉽지 않은 언어로 알려져 있다.

삼성전자의 인도 벵갈루루 연구소는 이런 특성을 가진 힌디어를 갤럭시 AI에 접목하기 위해 현지 대학들과의 네트워크를 적극 활용했다고 한다.

인도는 우수한 공과대학이 많은 것으로 유명하다. 삼성전자는 인도 대학들과 산학 협력을 강화하고 우수 인재를 양성하고 있는데 벵갈루루 연구소는 갤럭시 AI 연구팀을 벨로르 공과대학(이하 VIT)과 함께 구성했다.

복잡한 힌디어를 갤럭시 AI에 도입하기까지

힌디어 AI 모델을 개발하는 과정은 쉽지 않았다고 한다. 연구팀은 20개가 넘는 지역 방언, 성조, 구두점, 구어체를 모두 반영해야 했다. 또한 인도의 공용어가 힌디어와 영어인 만큼 힌디어 사용자들은 대화 중에 영어 단어를 섞어서 사용하는 것이 일반적인데, 이에 번역된 데이터와 음역된 데이터를 조합해 수차례에 걸쳐 AI 모델 학습을 수행해야 했다고 한다.

기리다르 자키 삼성전자 벵갈루루 연구소 언어 AI 팀장은 “힌디어는 다른 언어에는 드문 권설음(혀를 입안에서 뒤로 말아서 내는 소리) 등 복잡한 음성 구조를 가지고 있다”며 “AI 솔루션의 음성 합성을 위해 원어민 언어학자의 도움을 받아 데이터를 면밀히 검토했다”고 말했다. 그러면서 “힌디어의 모든 고유한 소리(음소)를 분석하고, 방언을 지원하기 위해 개별 데이터 세트를 만들었다”고 덧붙였다.

서로 윈-윈(Win-Win)이 되는 산학 협업

삼성전자와 학계의 협력은 특히 인도의 문화적 뉘앙스를 반영한 AI 언어 모델을 개발하는 데 중요한 역할을 했다고 한다.

갤럭시 AI개발에서 데이터는 매우 중요한 요소인데 VIT는 대화 음성, 단어, 명령어 등 100만 줄에 달하는 오디오 데이터를 수집하는 데 도움을 줬다고 한다. VIT에는 인도 벵갈루루 연구소와 함께 미래형 오디오 연구실이 구축됐다.

인도 최초의 첨단 흡음 시스템, 상반신 로봇 시뮬레이터, 스테레오 마이크, 스피커 등이 갖춰져 있어 언뜻 하이엔드 hi-fi 오디오를 개발하는 것처럼 보인다. 하지만 바로 이곳에서 삼성 갤럭시 AI 언어 모델 개발에 필요한 데이터와 인사이트를 제공하고 있다.

지난 2021년 ‘삼성 SEED랩’을 시작으로 VIT뿐만 아니라 다수의 인도 주요대학들의 교직원, 학생, 인턴 등이 삼성 관련 프로젝트에 참여해 왔다.

기리다르 팀장은 “우리의 협업은 동반 성장과 지역 사회의 이익을 모두 얻을 수 있는 윈윈 방식”이라며 “이러한 파트너십을 통해 지역 발전을 촉진하고 공익을 실현하며 대학과의 협력을 통해 전문 지식과 맞춤형 데이터를 확보하면서도 대학에는 각 분야 전문가의 멘토링을 제공할 수 있다”고 말했다.

글로벌 개방형 협업으로 이룬 AI 혁신과 성과 확산

벵갈루루 연구소는 힌디어 도입 뿐 아니라 전 세계에 있는 갤럭시 AI 연구소와 협력해 영국, 인도, 호주 영어와 태국어, 베트남어, 인도네시아어 등의 AI 언어 모델을 개발하는 데도 큰 역할을 했다. 특히 타 지역 갤럭시 AI 연구팀이 인도에 직접 방문해 개발 자문을 구하기도 했다.

기리다르 팀장은 “모든 언어가 개발에 어려움이 있을 것이다. 우리 역시 힌디어 사용자들이 다른 언어를 사용하는 사람들과 하루 빨리 소통할 수 있도록 하는 것이 최종 목표였다”고 말했다. 그러면서 “혼자가 아닌 함께 만들어가는 AI 혁신은 앞으로도 우리가 해야 할 일이며 보다 많은 사람들이 갤럭시 AI를 만족해하며 이용할 수 있도록 계속해서 노력할 것”이라고 덧붙였다.

◇갤럭시 AI 글로벌 연구소 : 폴란드(SRPOL)

언어는 살아 숨쉬고 있으며 지역 문화를 기반으로 변화해 AI 언어 모델을 개발하는 데는 기술적인 문제 외에도 또 다른 어려움이 따랐다고 한다. 아담 로스 인공지능 리더는 “각각의 언어와 그 언어가 속한 문화마다 특정 상황에 대한 인식이 제각각”이라고 말했다. 실제로 이러한 특성 때문에 타 언어로 통역이 불가능하거나 완전히 일치하는 대응 표현이 없는 경우가 종종 발생한다고 한다. 사진=삼성전자

‘삼성전자 폴란드 연구소(SRPOL)의 하루는 96시간’이라는 말이 있다. 유럽에 속한 나라들은 4개의 시간대를 사용하고 있는데 해당 연구소에서 유럽을 넘어 글로벌 시장을 아우르며 30개가 넘는 언어로 서비스를 개발해 이런 말이 나왔다고 한다.

폴란드 연구소는 독일, 프랑스, 이탈리아, 스페인, 영국 등 유럽 전역에 지사를 두고 있다. 과거에는 현지 지사에서 모바일 제품 품질과 상호 운용성을 보장하는 업무를 주로 했지만 갤럭시에 빅스비가 탑재되면서 업무의 범위가 확장됐다고 한다. 언어 검증의 필요성이 대두되면서 갤럭시 AI 개발을 위한 대륙 간 새로운 협업이 시작된 것이다.

코넬 얀코프스키 폴란드 연구소 음성 디코딩 리더는 “수년간 여러 국가와 원격으로 협업하면서 다양하고 효과적인 커뮤니케이션 채널을 구축해왔다”며 “갤럭시 AI가 전 세계 사람들의 언어 장벽을 낮추는 데 일조할 것”이라고 말했다.

피오트르 안드루스키에비츠 자연어처리 리더는 “대륙을 넘나드는 협업을 위해 끊임없이 데이터를 수집하고 연구해야 하지만 다행히 모든 팀원이 이 과정을 즐기고 있다”며 “우리 연구팀은 수많은 언어를 다뤄왔기 때문에 언어에 구애받지 않는 보편적인 기술을 개발했다”고 했다. 이어 “새로운 언어 개발을 지원한다는 건 또 다른 언어를 배울 수 있는 기회를 뜻하기에 무척 기대가 된다”고 덧붙였다.

유럽 AI 언어 개발의 중심축, 폴란드 연구소

언어는 살아 숨쉬고 있으며 지역 문화를 기반으로 변화해 AI 언어 모델을 개발하는 데는 기술적인 문제 외에도 또 다른 어려움이 따랐다고 한다.

아담 로스 인공지능 리더는 “각각의 언어와 그 언어가 속한 문화마다 특정 상황에 대한 인식이 제각각”이라고 말했다. 실제로 이러한 특성 때문에 타 언어로 통역이 불가능하거나 완전히 일치하는 대응 표현이 없는 경우가 종종 발생한다고 한다.

연구진은 이러한 문제들이 오히려 폴란드 연구소가 유럽의 AI 언어 개발에서 중추적인 역할을 할 수 있는 기회라고 판단했고, 이를 위해 여러 부서 간의 커뮤니케이션 효율성을 높이면서도 특히 의사 결정 단계를 줄이는 데 주력했다고 한다.

하지만 AI 언어 모델 개발의 어려움을 모두 극복한 것은 아니었다고 한다.

아담 로스 인공지능 리더는 “우리 연구진은 새로운 단어나 주제를 다룰 때 단 하나의 예시만으로 단편적으로 판단하지 않는다. 일부 유럽 언어는 다른 언어보다 AI 개발이 더 어렵다”며 “스페인에 가본 적이 있다면 사람들이 대개 말을 굉장히 빨리 하는데 이런 경우엔 AI 언어 모델 훈련을 타 언어보다 더 많이 해야 한다”고 설명했다.

원어민은 이러한 언어와 문화의 미묘한 차이를 단번에 알아차릴 수 있기 때문에 폴란드 연구진은 이러한 점을 매우 중요하게 다뤘다고 한다.

아가타 마리아 로지카 음성지능연구 리더는 “다른 문화권에서는 유럽 문화권이 서로 비슷해 보이겠지만 미묘한 차이만 있어도 원어민들은 부자연스럽다고 느끼게 된다. 예를 들어 어떤 나라는 가격을 표시할 때 유로 기호를 선호하지만 어떤 나라는 ‘euros’로 철자를 쓰는 것을 선호한다”며 “인터페이스에 구현된 수많은 사용자 정보 중 극히 일부의 예”라고 말했다.

다양한 언어와 문화를 잇는 기술

다양한 언어와 문화를 잇는다는 건 어려운 작업이지만 문화적 정보를 이해하고 개발하는 것은 어려운 작업이다.

마르신 무루갈라 모바일품질보증 리더는 “다양한 팀 간의 커뮤니케이션은 상호 이해와 지지를 기반으로 한다”며 “다양한 문화적 배경을 가진 환경에서 서로 다른 관점을 갖고 있더라도 폴란드 연구진 모두가 하나의 목표를 향해 나아가고 있고 갤럭시 AI가 문화를 통합할 수 있다고 믿는다”고 말했다. 자료=삼성전자 뉴스룸 [김성태 마켓뉴스 기자]

김성태 기자 다른기사 보기