Logo
부산소프트웨어마이스터고 프로젝트의장
프로필 사진

나랏말싸미

납득 가능한 우리말 순화 인공지능

null

Introduce.

인공지능을 기반으로 문장 속 외래어를 감지하고 이를 문맥, 사용자 선호도, 사용빈도를 고려하여 순화해주는 서비스

최근 공문서와 방송 매체에서의 외래어 사용이 증가하고 있습니다. 국민들의 정보 이해도 향상을 위해 글을 적는 과정에서 외래어가 사용된다면 이를 감지하고, 자연스럽게 순화해주는 기능을 제공합니다.

Develop.

LSTM 기반 문장 속 외래어 감지 모델


기존의 외래어 순화 서비스는 사전에 등록되어 있는 외래어만 감지 → 신조 외래어, 외래어 표기법을 준수하지 않은 경우 감지 불가능


외국어가 외래어로 차용될 때의 특징 분석

[아이데이션]

  1. https://www.korean.go.kr/nkview/nklife/1998_2/1998_0201.pdf (국립국어원 학예연구관)에 따르면 외국어가 외래어로 차용될 때는 주로 원어의 발음에 가깝게 한글로 표기한다는 것을 알 수 있다.

  2. 문장 속 단어를 음절 단위로 분리하였을 때, 외래어의 특징을 가지고 있다면, 외래어일 가능성이 높다.

[개발]

  1. 국립국어원 우리말샘에서 한국어 데이터 50만개, 외래어 데이터 30만개 수집

  2. 데이터를 음절 단위로 분리 후 전처리, 토큰화 진행

  3. LSTM 모델 학습

[개선] 문장 속 외래어를 감지하기 위해서 API 요청을 계속 보내는 문제가 생김 → 외래어가 존재하는 경우, 순화를 원할 때만 API 요청을 하는 것이 효율적이라 판단 Tensorflow.js 를 도입하여, Client에서 LSTM 모델이 외래어를 찾을 수 있도록 구현 → 테스트 결과 85%의 서버 부하 절감

RAG LLM 기반 문맥에 맞는 납득 가능한 순화어 추천 모델

국립국어원의 다듬은 말 대부분은 국민의 선호도와 사용 빈도를 반영하지 않음 + 외래어에 대한 모든 순화어를 추천 → 국민의 선호도 및 사용 빈도 데이터를 반영하여 문맥에 맞는 자연스러운 순화 가능


[아이데이션]

  1. 국립국어원 다듬은 말 데이터 + 국민의 선호도 데이터 + 사용량 데이터를 벡터화 시킨 뒤 RAG 구축

  2. 국민 선호도 데이터 : 자체 개발한 5점 리커트 척도 설문조사 서비스를 통해 수집

  3. 국민 사용량 데이터 : Google Trends 데이터를 통해 수집

[개발]

  1. 국립국어원 다듬은 말 데이터 1만 5천개 수집

  2. 국립국어원 다듬은 말 데이터 + 국민 선호도 데이터 + 사용량 데이터를 (KR-SBERT)를 통해 임베딩 후 벡터 DB 구축

KR-SBERT 기반 순화어 재사용 모델

RAG LLM을 사용할 경우 시간, 자원 등의 비용이 많이 발생 + 이미 만들어진 순화어를 재사용 불가 → 미리 만들어진 순화어를 문맥에 맞게 사용 가능


[아이데이션]

  1. 외래어와 RAG LLM을 통해 만들어진 순화어를 Key : Value 형태로 저장

  2. 새로운 문장 속 만들어진 순화어가 존재하는 외래어가 있다면 외래어가 있는 문장을 임베딩

  3. 만들어진 순화어를 새로운 문장 속 외래어 위치에 넣은 뒤 임베딩

  4. 코사인 유사도를 통해 미리 만들어진 순화어가 사용될 수 있다면 캐시 히트 (반환)

[개발]

  1. MySQL을 통해 외래어와 만들어진 순화어를 Key : Value 형태로 저장

  2. KR-SBERT 모델을 통해 임베딩 후 코사인 유사도 비교

[개선]

  1. 순화어 재사용 모델 도입 후 외래어 순화 시간 단축 (2.4초 → 0.8초)

  2. 설문조사 결과 RAG LLM을 사용했을 때와 사용자들의 선호도는 변하지 않음 (납득 가능한 순화 가능)

bottom
최근 본 포트폴리오가 없습니다

최근 본 포트폴리오 목록

top