- Score 1 : 관련 없음.
- Score 2 : 출력된 문장의 Entity(Subject/Object), Property(용언) 중 하나가 관련이 있음.
- Score 3 : 출력된 문장의 Entity(Subject/Object), Property(용언) 이 모두 관련 있음.
- Score 4 : 출력된 문장의 Entity/Property가 질의의 그것과 같음.
[표 4]는 평가자 A, B의 평가 결과에 대한 Cohen's kappa 계수 분석 결과이다. Score 1,2는 False로, Score 3,4는 True로 계산하였다.
[표 3 : Likert scale result of proposed system]
[표 4 : 평가 결과 통계]
[표 5]
[표 5]는 시스템 결과의 예이다. 정답은 굵게 표시하였고, 괄호 내의 숫자는 cosine 유사도이다.
[표 5]에서 첫번째 예의 첫번째 출력 문장은 유엔의 첫번째 정기총회가 1946년에 수행되었음을 이야기하고 있으며, 실제 입력된 질의에 정답으로 바로 사용할 수 있는 예제이다.
두번째 예는 정답이 4등에 랭크되었고, 1번과 2번은 스포츠라는 같은 카테고리의 문장이 랭크되었음을 알 수 있다. 또한 3번과 5번은 '사단법인이다.'라는 어휘를 그대로 가져 높은 유사도를 보이는 것이라 생각할 수 있다.   
세번째 예는 조선시대 인물인 '논개'에 대한 설명 중 일부인데, 질의의 처음에 임진왜란이 나타났고 지식들은 임진왜란과 선조에 대한 설명이 나타났다. 정답 지식과 입력 질의에 같은 어휘가 연속으로 나타남에도 틀린 결과를 낸 것은 특정 개체명 또는 명사의 유사에 많은 영향을 받도록 학습된 것이라 예상할 수 있다. 표에서 출력 문장의 마지막 'G'는 정답 문장이다.
다음은 Best1/5 모델의 성능이다. 25만 트리플과 47만여 트리플에 대해서 각각 실험하였다. 아래 표의 성능은 4.1.에서 설명하였던 NLQ400의 트리플 문장당 각 하나가 Best1/5에 진입하는 경우에만 True, 나머지는 False로 설정하였다. 
[표 6]
conclusion
본 논문은 자연언어 질의를 skip-thought encoder를 이용하여 인코딩하고, 인코딩된 벡터를 지식베이스에 검색하는 방식으로 QA 시스템을 구현하였고 그 성능을 측정하였다.
기존 지식베이스 기반 질의응답 시스템이 지식베이스에 적합한 쿼리를 생성하는 등 여러 단계를 거쳐야 하며, 따라서 목표 지식베이스에 크게 의존하는 경향이 있었다. 본 시스템은 자연어 문장을 그대로 인코딩하여 지식베이스의 자연어 문장과 비교를 수행하므로 그러한 프로세스가 간략화 되며, 그럼에도 불구하고 강건한 성능을 보였다.
←All Active Threads
▢ Mark As Resolved