나랏말싸미
납득 가능한 우리말 순화 인공지능

Introduce.
인공지능을 기반으로 문장 속 외래어를 감지하고 이를 문맥, 사용자 선호도, 사용빈도를 고려하여 순화해주는 서비스
→ 최근 공문서와 방송 매체에서의 외래어 사용이 증가하고 있습니다. 국민들의 정보 이해도 향상을 위해 글을 적는 과정에서 외래어가 사용된다면 이를 감지하고, 자연스럽게 순화해주는 기능을 제공합니다.
Develop.
LSTM 기반 문장 속 외래어 감지 모델
기존의 외래어 순화 서비스는 사전에 등록되어 있는 외래어만 감지 → 신조 외래어, 외래어 표기법을 준수하지 않은 경우 감지 불가능
외국어가 외래어로 차용될 때의 특징 분석
[아이데이션]
https://www.korean.go.kr/nkview/nklife/1998_2/1998_0201.pdf (국립국어원 학예연구관)에 따르면 외국어가 외래어로 차용될 때는 주로 원어의 발음에 가깝게 한글로 표기한다는 것을 알 수 있다.
문장 속 단어를 음절 단위로 분리하였을 때, 외래어의 특징을 가지고 있다면, 외래어일 가능성이 높다.
[개발]
국립국어원 우리말샘에서 한국어 데이터 50만개, 외래어 데이터 30만개 수집
데이터를 음절 단위로 분리 후 전처리, 토큰화 진행
LSTM 모델 학습
[개선] 문장 속 외래어를 감지하기 위해서 API 요청을 계속 보내는 문제가 생김 → 외래어가 존재하는 경우, 순화를 원할 때만 API 요청을 하는 것이 효율적이라 판단 Tensorflow.js 를 도입하여, Client에서 LSTM 모델이 외래어를 찾을 수 있도록 구현 → 테스트 결과 85%의 서버 부하 절감
RAG LLM 기반 문맥에 맞는 납득 가능한 순화어 추천 모델
국립국어원의 다듬은 말 대부분은 국민의 선호도와 사용 빈도를 반영하지 않음 + 외래어에 대한 모든 순화어를 추천 → 국민의 선호도 및 사용 빈도 데이터를 반영하여 문맥에 맞는 자연스러운 순화 가능
[아이데이션]
국립국어원 다듬은 말 데이터 + 국민의 선호도 데이터 + 사용량 데이터를 벡터화 시킨 뒤 RAG 구축
국민 선호도 데이터 : 자체 개발한 5점 리커트 척도 설문조사 서비스를 통해 수집
국민 사용량 데이터 : Google Trends 데이터를 통해 수집
[개발]
국립국어원 다듬은 말 데이터 1만 5천개 수집
국립국어원 다듬은 말 데이터 + 국민 선호도 데이터 + 사용량 데이터를 (KR-SBERT)를 통해 임베딩 후 벡터 DB 구축
KR-SBERT 기반 순화어 재사용 모델
RAG LLM을 사용할 경우 시간, 자원 등의 비용이 많이 발생 + 이미 만들어진 순화어를 재사용 불가 → 미리 만들어진 순화어를 문맥에 맞게 사용 가능
[아이데이션]
외래어와 RAG LLM을 통해 만들어진 순화어를 Key : Value 형태로 저장
새로운 문장 속 만들어진 순화어가 존재하는 외래어가 있다면 외래어가 있는 문장을 임베딩
만들어진 순화어를 새로운 문장 속 외래어 위치에 넣은 뒤 임베딩
코사인 유사도를 통해 미리 만들어진 순화어가 사용될 수 있다면 캐시 히트 (반환)
[개발]
MySQL을 통해 외래어와 만들어진 순화어를 Key : Value 형태로 저장
KR-SBERT 모델을 통해 임베딩 후 코사인 유사도 비교
[개선]
순화어 재사용 모델 도입 후 외래어 순화 시간 단축 (2.4초 → 0.8초)
설문조사 결과 RAG LLM을 사용했을 때와 사용자들의 선호도는 변하지 않음 (납득 가능한 순화 가능)

