2.2. 에러 분석 Rough set(Noise Detection)

 학습 데이터에 포함된 오류를 분석하기 위한 다양한 방법 중 Rough set을 이용하여 언어 정보 부착 말뭉치의 무결정 정도를 정량화 할 수 있는 방법을 제시한 연구가 있다[]. []는 오류를 분석하기 위하여 커널을 이용하여 말뭉치의 오류를 정량화하여 표현하였다. 커널을 통해 동일한 정보를 지니면서 다른 레이블이 부착된 경우를 오류 유형과 함께 정량화하여 나타냈다.

2.3. Deep Dive

 

3. 제안 방법

그림 1은 노이즈 수정이 이루어지는 과정을 나타낸다. 
[그림 1] 노이즈 수정 과정
그림에서 자동 태깅된 문서에서 태깅 노이즈를 자동으로 찾은 후에 찾은 노이즈를 사람이 손으로 수정한다. 이렇게 수정된 정답과 노이즈를 이용하여 수정 규칙을 학습한다. 학습을 위해서 문서는 자질들로 표시한다. 품사태깅을 위해 만들어진 자질들의 예를 그림 2에 표시하고 있다. 
[그림2] 품사태깅을 위한 자질
우리는 이 자질들을 사용하는 RDR을 이용하여 노이즈를 수정하는 규칙을 생성한다. 노이즈 말뭉치를 N이라고 하고 이를 수정한 말뭉치를 M이라고 하자. 우리는 N과 M을 읽어서 토큰 하나씩을 비교하여 수정된 부분을 다음과 같이 (key, value) 형태로 저장한다. 
[그림3]
N------
철수가   철수/NNP+가/JKS
교사가    교사/NNG+가/JKS 
되었다    되/VV+었/EP+다/EF
M-----
철수가   철수/NNP+가/JKS