1. 서론2. 관련연구
시계열모형을 이용한 굴 생산량 예측 가능성에 관한 연구(2012.6 남종오, 노승국)
실시간 수위 예측을 위한 다중선형회귀 모형의 비교(2012.1 최승용, 한건연, 김병현)
SFA를 이용한 전복 양식업의 지역별 효율성분석에 관한 연구(2012.9 김혜성, 송정헌)
실시간 자료를 받아와 하루 내의 생산량을 예측하는 연구는 진행되지 않음.
3. 자료분석
본 논문에 사용된 굴 생산량과 작업 인원수 관측치는 116개로 2016년 11월부터 2017년 3월까지 직접 관측한 일별 자료
[1]를 이용하였다. 또한 작업 환경에 영향을 미칠 수 있는 요소로 기온과 수온, 풍속을 고려하였고 이들 자료는 굴 생산량 자료의 관측지인 통영지역을 기준으로 하여 기상청의 자료를 이용하였다.
표 x은 우리나라 천해양식 굴(생굴 기준)의 요약통계량을 나타낸 것이다.
총 생산량은 16시까지 계근 무게의 총 합이며 평균 3620.28kg, 표준편차 940.62kg으로 1779.60kg에서 6452.50kg까지 분포하고 있다. 오전 생산량은 12시까지 계근 무게의 총 합이며 평균 2237.44kg, 표준편차 573.04kg으로 1115.90kg에서 3956.20kg까지 분포하고 있다. 오전 작업 인원수는 12시까지 계근 데이터에 기록된 작업자 인원을 구한 것으로 평균 107명, 표준편차 573.04명으로 53명에서 130명까지 분포하고 있다. 오후 작업 인원수는 12시에서 16시까지 계근 데이터에 기록된 작업자 수를 구한 것으로 평균 102명, 표준편차 17.53명, 최소 13명에서 최대 130까지 분포하고 있다. 기온은 최소 -0.67℃, 최대 16.66℃까지 분포하고 있고, 습도는 최소 26.67%에서 최대 98%까지, 풍속은 최소 1.15㎧, 최대 6.38㎧까지 분포하고 있다.
각 모델 간의 비교를 원활하게 하기 위해 각 자료를 표준정규화하여 변환하였다. 또한 오후 작업 인원수가 0인 경우 오전 생산량을 가지고 당일 총 생산량을 예측하는 것이 무의미하기 때문에 오후 작업 인원수가 0인 자료는 제외한다.
4. 연구방법
본 연구는 굴 생산량과 관련이 있다고 판단되는 요소를 분석하여 최적의 당일 굴 생산량을 예측하는 모형을 구축하는 것을 목표로 한다.
효율적인 다중선형회귀 모형을 구축하기 위해서는 적절한 설명변수를 선택하고 각 변수에 대한 최적의 회귀계수를 산정하는 것이 중요하다.
본 연구에서는 모형을 구축하는데 사용되는 자료의 범위를 결정하기 위해 이전 1달에서 4달까지의 자료를 이용하여 모형을 구축하고 비교, 분석하여 효율적인 자료의 범위를 정한다. (그리고 적절한 설명 변수를 선택하기 위해 오전 생산량에 대하여 오전 생산량과 시간별 생산량을 나누어 각각의 모형을 구축하고 비교, 검토해본다.) 마지막으로 효율적인 굴 생산량 예측 모형 구축을 위해 최소자승법과 단계별 선택법을 사용하여 회귀 계수를 산정한다.
4.1 자료 선정(삭제)
(이전 몇 달의 자료를 사용할 것인지 비교) -> 회귀계수 산정 방법과 같은 표에.
모형 구축에 있어 효율적인 training 자료의 규모를 결정하기 위해 이전 1달에서 4달까지의 자료를 사용하여 모델을 구축한 뒤 비교·검정하였다. 자료의 규모가 모형에 어떤 영향을 미치는지 알아보기 위해 회귀 계수는 최소자승법을 이용하여 산정하였다.
표에서 보는 바와 같이 training 자료의 규모가 커질 수록 오차율이 줄어드는 것을 확인할 수 있었다. 또한 규모가 커질 수록 예측 정확도도 높아지는 경향을 보이고 있음을 알 수 있었다.
그러나 test를 위한 자료로 2월의 자료를 사용하고, training 자료로 나머지를 사용하였을 때 이전 1달내의 자료를 사용하였을 때 가장 높은 예측 정확도를 보였고, 이전 4달내의 자료를 사용하였을 때 가장 낮은 오차율을 보였다. 이때 2월 자료는 약 1,500kg에서 5,000kg까지 분포하고 있는 다른 기간의 총 생산량과 달리 최소 395.9kg에서 최대 6452.5kg까지 분포 범위가 넓게 나타났다. ------
4.2 회귀 계수 산정
(최소자승법과 단계별 선택법 비교)
4.2.1 최소자승법
당일 굴 생산량을 예측하기 위해 설명 변수로 오전 굴 생산량과 오전, 오후 작업 인원수를 포함해 작업자의 효율성에 영향을 줄 것이라 판단되는 기온, 습도, 풍속을 고려하였고, 테스트 자료의 범위를 제외한 모든 자료를 사용하였다. 각 독립변수의 최적의 계수를 산정하기 위해 최소자승법을 이용하였고, 종속 변수인 굴 생산량에 대한 영향력을 판단하기위한 검토에는 t-검정 값을 이용하였다. t-검정 값이 높은 변수일수록 영향력이 높다고 판단하며 식 x와 같이 계산한다.
t-검정값 = 개별회귀계수 값/계수의 표준오차
테스트 자료를 제외한 모든 자료를 사용하여 굴 생산량에 대해 모형을 구축한 결과는 표 x와 같다.
t-검정값을 살펴볼 때 굴의 총 생산량 예측 모형에 가장 큰 영향을 미치는 독립변수는 오전 생산량임을 알 수 있었다. 다른 조건이 일정할 때, 오전 생산량이 1% 증가할 때, 굴 생산량의 증감율은 평균 0.85% 증가하는 것으로 나타났다.
4.2.2 단계별 선택법
최소자승법과 같은 조건으로 계수를 산정하였고 그 결과는 표 x와 같이 나타난다.
5. 결과 및 성능 비교
다중회귀분석모형에 사용된 모든 변수 간 다중공선성 유무를 점검해 본 결과, 변수와상수의 VIF가 모두 10이하로 다중공성선 문제는 발생하지 않았다. 구축된 모형을 이용하여 테스트 자료에 대한 예측을 수행하였고, 각각의 모형을 비교, 분석하기 위해 수정 결정계수와 평균 제곱근 오차, 평균 절대오차, Nash-Sutcliffe 효율계수를 이용하였다. 표 x는 통계지표에 대한 설명을 나타낸다.
5.1 회귀 계수 산정
5.1.1 최소자승법
표 x는 test month를 기준으로 이전 1달에서 4달까지의 자료를 기반으로 최소자승법을 이용하여 회귀 계수를 산정한 모델의 통계지표를 나타낸다.
표에서 나타나는 것과 같이 모델을 구축하는데 이전 자료를 많이 사용할 수록 예측 정확도가 높아짐을 알수 있다. 하지만 test month가 2일 때, 자료의 범위를 2로 둔 모형이 평균 제곱근 오차는 429.4, Nash-Sutcliffe 효율계수는 0.924로 성능이 가장 좋게 평가되었다. 이는 2월의 생산량이 최소 395.9kg, 최대 6,452.5로 약 2,000에서 3,000kg밖에 차이 나지 않는 다른 달의 생산량 자료에 비해 변동이 심하기 때문이라고 판단된다.
5.1.2 단계별 선택법
최소자승법과 동일한 방식으로 모델을 구축하고, 단계별 선택법을 통해 종속변수 예측에 기여하는 정도를 판단하여 유의한 독립변수를 추가, 제거하여 회귀 계수를 산정하였다.
표 x는 단계별 선택법을 이용하여 회귀 계수를 산정한 모델의 통계지표를 나타낸다.
표에서 나타는 것과 같이 단계별 선택법을 통해 독립변수를 선별, 적용하여도 이전 자료의 양과 예측 정확도는 비례하였다. 수정 결정계수로 나타나는 모델 설명력은 단계별 선택법을 사용하여 모델을 구축하였을 때 0.01정도 증가하였지만 예측 정확도에 있어서는 test month에 따라 최소자승법을 사용하여 구축한 모델보다 낮게 나오는 경우도 확인되었다.
6. 결론