초록
최근 딥러닝을 다양한 주제에 적용되어 주목할 만한 결과를 얻고 있다. 그렇지만 딥러닝은 학습에 많은 데이터를 필요로 한다. 하지만 학습에 필요한 데이터가 없어 적용할 수 없는 주제가 많다. 본 논문은 다양한 주제에서 사람이 레이블링한 데이터의 노이즈를 자동으로 수정하는 방법을 고도화한다. 우리는 사용자가 작성한 레이블 데이터를 분석하여 오류를 발견하고 이를 RDR을 사용하여 수정하는 방법으로 노이즈를 제거하는 규칙을 생성한다. 이렇게 생성한 규칙을 바탕으로 다시 레이블을 반복 수행함으로써 레이블 데이터의 노이즈를 감소시킨다. 다양한 분야에 적용한 결과 노이 감소를 확인할 수 있었다. 이 방법은 코퍼스 뿐만 아니라 이미지, 음성, 지식구축 분야의 확장에도 사용할 수 있다.
1. 서론
최근 심층신경망을 이용한 다양한 형태의 예측/분류 모델 개발의 연구가 활발히 진행되고 있다. 기존에 기계 학습이 사용되던 전반적인 분야에 심층신경망의 적용이 긍정적인 결과를 보여주고 있으며, 자연어 처리 분야에서도 다양하게 적용되고 있다. 심층신경망을 이용하여 모델을 생성할 경우 일반적으로 지도 학습(supervised learning) 방식으로 학습하게 된다. 이러한 지도 학습의 경우 학습에 사용되는 말뭉치의 양과 질이 모델의 성능에 크게 영향을 미친다. 특히 심층신경망의 경우 많은 양의 학습 데이터를 요구하는데 학습 데이터가 많이 있어도 그 질이 낮거나 연구가 부족한 분야에서는 학습 데이터가 적은 문제가 빈번하게 발생한다. 따라서 자연어 처리 분야에서도 학습 방식에 대한 연구 외에도 학습 데이터 생성과 관리에 대한 연구가 꾸준히 진행되었다. 하지만 학습 데이터의 생성과 정제에 대한 연구보다 학습 방법에 대한 연구가 더 집중적으로 이루어지고 있다.
본 논문은 자동으로 레이블이 부착된 코퍼스에서 오류를 수정하는 방법에 대해서 기술한다. 우리가 제안한 방법을 평가하기 위해서 품사태깅, 개체명 인식 그리고 구문정보 부착에 적용한다. 이 작업들은 모두 NLP 응용에 기본 처리과정이다. 하지만 본 논문에서 제안하는 방법은 일반적인 방법으로써 다른 분야에도 적용이 가능하다.
본 논문에서는 noise를 수정하기 위해서 RDR[]을 사용한다. 이 방법은 정답과 noise가 섞인 문서를 비교하여 수정하는 규칙을 자동으로 생성한다. 초기 noise가 섞인 문서는 자동으로 레이블을 붙인 문서이다. 연구실에서 개발한 ESPRESSO[] 시스템의 결과를 사용하였다. 이 시스템은 한국어 형태소 분석/픔사 태깅, 개체명 인식, 구문분석, SRL, 상호참조를 수행할 수 있다. 우리는 먼저 ESPRESSO 시스템의 결과에 []에서 제안된 오류 검출 방법을 적용하여 오류를 발견한다. 발견된 오류를 사람 손으로 수정한 후에 수정된 정답과 오류를 이용하여 학습을 진행한다.
본 논문의 기여점은 다음과 같다. 우리는 자동으로 레이블이 부착된 데이터에서 높은 재현율과 높은 정확률로 오류를 수정하는 방법을 제안한다. 제안된 방법은 사람이 수정할 수 있는 규칙으로 만들 수 있고 수정된 규칙은 성능을 올리는데 도움이 된다.
2. 관련 연구
2.1. RDR
RDR(Ripple-Down Rules)은 1993년 Edwards 와 Compton이 화학 병리학 보고서에 대한 병리학 유지 보수 시스템[10]에 처음 도입하였다. 이후 환자 관리에 도움을 주고자 RDR을 사용하여 화학 보고서에 주석을 작성하는 작업을 수행하였다[11]. 이 과정에서 RDR은 지식 기반 시스템을 구축하도록 수정되며 SCRDR(Single Classification Ripple Down Rules)과 MCRDR(Multiple Classification Ripple Down Rules), NRDR(Nested Ripple Down Rules) 등 다양한 형태의 RDR이 만들어졌다[12]. SCRDR은 입력된 값으로부터 하나의 결과를 출력하며, MCRDR은 한 개 이상의 결과를 출력한다. NRDR은 사용자가 정의한 임의의 조건에 따라 결과를 출력한다. 형태소 품사 태그 또는 개체명 태그 오류를 수정하는 작업을 수행하기 위해서는 입력된 오류 태그를 올바른 하나의 정답으로 수정할 수 있는 SCRDR이 적합하다. 따라서 본 실험에서는 SCRDR을 이용한 시스템을 구축하였다.