4.2.형태소/품사태깅 노이즈 수정

 한국어 형태소 품사 태깅은 영어와 다르게 하나의 어절이 1개 이상의 형태소로 분석될 수 있다. 따라서 기존의 RDR 학습 방법을 그대로 적용할 경우, 오류 문장과 정답 문장 간에 형태소 수가 달라지는 문제가 발생한다. 예를 들어 “닌텐도”라는 명사가 “닌텐”과 “도”로 분리되어 분석된 오류가 나타날 경우, 해당 어절의 형태소들을 하나의 어절로 묶어 “닌텐/NNG+도/JX”로 학습할 수 있도록 시스템이 변형하여 정보를 분석한다. 또한 학습을 통해 생성된 규칙이 단어는 다르지만 같은 유형의 오류에 적용될 수 있도록 의미형태소를 삭제하고 품사 태그만을 이용하는 방법을 사용하였다. 실험에 사용한 형태소 말뭉치는 학습에 50,000문장을 사용하고, 평가에 10,000문장을 사용하였다. 평가에 사용한 10,000문장의 형태소 말뭉치는 총 260,561 형태소가 있으며, 정답 말뭉치와 비교하였을 때  오류가 7,503개가 포함되어 97.12%의 정확도를 보인다.