세종대학교(총장 배덕효)는 김수연 영어영문학과 교수가 국내 최초로 80개국 외국인의 한국어 음성 데이터를 구축하는 데 성공했다고 16일 밝혔다.
김 교수의 한국어 음성 데이터 구축은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 ‘AI 학습용 데이터’ 구축사업의 일환으로 진행됐다. 사업은 음성인식 인공지능을 학습시키는 데이터 수집을 목적으로 수행됐다. 학습된 인공지능은 외국인의 어눌한 한국어 발음까지 정확히 알아들을 수 있다.
김 교수는 세종대, 이화여대와 민간기업 4곳(cslee, 드림비트, 디그랩, 액션파워)으로 구성된 산학협력단에서 이번 사업을 기획하고 주도했다.
김 교수의 언어인지 연구실 연구팀은 인공지능의 한국말 인식 정확도를 향상하기 위해 한국전자통신연구원(ETRI)의 인공지능 연구실과 협력했다. 연구 협력을 통해 학습용 데이터에 대한 기초연구를 수행한 후 구축사업을 진행했다.
지난해 4월부터 12월까지 8개월에 걸쳐 총 4천 3백 시간 분량의 인공지능 학습용 데이터를 구축했다. 외국인 2천 명을 대상으로 언어별 오류를 극대화한 한국어 대본을 읽게 했다. 참여국 80곳, 모국어 수 65개의 음성 데이터를 수집하고 가공했다.
AI 학습용 데이터는 누구나 사용할 수 있도록 개방될 예정이다. 인천국제공항에서 볼 수 있는 외국인 전용 키오스크의 음성인식기에 적용될 예정이다. 또한 한국전자통신연구원(ETRI)의 한국어 학습용 인공지능 모델 개발에도 활용된다. 민간기업도 ‘AI 허브’ 포털에서 데이터를 무료로 내려받을 수 있다.