----
그림3과 같이 N, M이 주어졌을 때, `교사가`에서 `가`의 품사가 노이즈가 된다. 이 경우에는 ((교사/NNG+가/JKS, 교사/NNG+가/JKC, 5), ((-3, 0, 철수,1),(-3,1,NNP, 1),(-2,0,가,1),(-2,1,JKS,1),  (-1,0,교사,1),(-1,1,NNG,1), (0,0,가,1), (0,1,JKS,1), (1,0,되,4),(1,1,VV, 4), (2,0,었,1),(2,1,EP, 1), (3,0,다,1),(3,1,EF,1), (-1,0, 철수/NNP,1),  (-1,1,가/JKS,1), (1,0,되/VV,3), (1,1,다/EF,1)))와 같은 (key, value) 쌍을 만들 수 있다.
여기서 (교사/NNG+가/JKS, 교사/NNG+가/JKC, 5)는 key에 해당되는 것으로 `교사/NNG+가/JKS`가 `교사/NNG+가/JKC`로 변경되는 횟수가 5번 발생했다는 것을 표시한다. 이 빈도수를 improve frequency라고 한다.
또한 ((-3, 0, 철수,1),(-3,1,NNP, 1),(-2,0,가,1),(-2,1,JKS,1),  (-1,0,교사,1),(-1,1,NNG,1), (0,0,가,1), (0,1,JKS,1), (1,0,되,4),(1,1,VV, 4), (2,0,었,1),(2,1,EP, 1), (3,0,다,1),(3,1,EF,1), (-1,0, 철수/NNP,1),  (-1,1,가/JKS,1), (1,0,되/VV,3), (1,1,다/EF,1))는 value에 해당되는 것으로 모든 자질들을 표시한다. 예를 들어 (-3, 0, 철수,1)는 이전 3 형태소 앞 위치의 형태소(0)인 `철수`가 1번 발생했음을 표시한다. 이 빈도수를  match frequency라고 한다. 
빈도수를 측정하여 다음 조건을 만족하면 규칙을 생성한다.
(Improve frequency >= Improve threshold) and (Match frequency >= Match threshold)
그림 4는 품사 태깅을 위해서 생성된 규칙을 보여준다. RDR은 가장 일반적인 규칙이 최상단에 나타나고 특수한 조건이 추가되면 규칙을 추가하게 되는 구조를 가지고 있다.  따라서 그림 4에서 첫번째 규칙은 아무런 조건이 없으면 변경하지 말라는 규칙이다. 그 다음에 다음 형태소가 '되'이고 그 품사가 'VV'이면 '가/JKC'로 변경하라는 의미이다.
object.tag == "가/JKS" : object.conclusion = "가/JKS"       
        object[1][1] == "되" and object[1][2] == "VV" : object.conclusion = "가/JKC"
그림 []는 개체명 코퍼스에서 사용하는 규칙이다. 이 규칙은 TM(terminology)를 위한 규칙이다. 첫 번째 규칙은 아무런 조건이 없으면 변경하지 말라는 규칙이다. 두번째 규칙은 현재의 단어가 'USB'이면 TR_B(theory 시작)에서 TM_B로 변경하라는 것이다. 두번째 규칙은 첫번째 규칙에 추가하여 현재 단어가 'USB'이고 그 품사가 'SL'이며 개체명의 시작일 때, 다음 단어가 '단자'이고 그 품사가 'NNG'이면 개체명이 아니므로 범주를 지우라는 것이다. 
object.tag == "TR_B" : object.conclusion = "TR_B"
        object[0][1] == "USB" : object.conclusion = "TM_B"
            object[0][2] == "SL" and object[0][13] == "B" and object[0][9] == "단자" and object[0][10] == "NNG" : object.conclusion = "Null"
그림[]에서 두번째 규칙은 현재 단어가 '그래'이고 현재 단어의 품사가 'IC'이면 현재 구문 태그를 'NP'에서 'IP'로 수정한다.
object.tag == "NP" : object.conclusion = "NP"   
    object[0][1] == "그래" and object[0][2] == "IC" : object.conclusion = "IP"

4. 실험

4.1 데이터 준비
제안한 방법을 증명하기 위해서 3개의 실험을 진행하였다. 먼저 품사 태깅에서는 세종계획21에서 구축된 코퍼스를  사용하였다. 두번째 실험에서는 본 연구실에서 구축한 개체명인식용 코퍼스를 사용하였다. 이 코퍼스는 에트리에서 정의한 범주에서 최상의 계층인 15개중 2개의 합하여 14개를 사용한다. 세번째 실험에서는 세종계획21에서 구축된 구문 코퍼스를 사용하였다. 
4.2 평가 측도
본 논문에서 제안하는 방법의 유용성을 평가하기 위해서 다양한 측도로 평가하였다. 우선 자동태깅한 태깅 시스템의 성능을 표시하였다. 이것은 수정을 하기 전의 코퍼스의 정확도를 나타낸다. 이것이 baseline 성능이 된다.  레이블 성능(label accuracy)은 수정 후 코퍼스의 정확도를 나타낸다. 실제 노이즈 수는 실제 수정해야 하는 수를 나타낸다. 정확율(precision)은 실제 노이즈 수를 시스템이 노이즈라고 출력한 수로 나눈값을 나타낸다. 재현율(recall)은 코퍼스에 있는 모든 노이즈에 대한 실제 노이즈 수 비율을 나타낸다.