타자의 이전 연도의 WAR 성적을 기반으로, 다음 연도의 WAR를 예측할 수 있을까? 그렇다면 그 정확성은 얼만큼일까? 현재 플레이어 랭킹을 산출할 때, 이전 연도 WAR에 대해서 최근 순서로 각각 6, 3, 1의 가중치를 부여하여 평균값을 계산했다. 이는 실제 선수의 성적과 가장 근접한, 즉 다음 해의 WAR를 설명하기 가장 적합한 가중치라 하였는데, 정말 그런지 확인해보자.
1920년부터 2018년까지 2~6년 연속으로 최소 10타석 이상을 기록한 선수의 시즌 데이터를 기반으로, 이전 연도의 성적을 기반으로 다변량 선형회귀(multivariate linear regression)시켜 다음 연도의 성적을 예측했을 때 결과를 확인해보자. 관측한 연도의 수를 늘려가면서 예측 성적의 결정계수(R^2)를 확인했다.
- 1년: .554
- 2년: .617
- 3년: .646
- 4년: .663
- 5년: .674
이전 연도를 많이 관찰하면 관찰할수록 다음 연도 WAR 예측 성능이 더 좋다. 특히 최근 1~2년 성적이 매우 중요한 정보이며, 3년 이전의 성적은 예측력을 크게 더 높이지는 못한다. 다음 연도 성적을 예측할 때 이전 3년의 성적이면 대략 충분해 보인다. 이 때 결정계수(R^2)는 .646, 평균제곱근오차(RMSE)는 1.33이었다. 대략적인 추정은 가능하나, 오차가 큰 편이어서 정교한 예측은 어렵다고 봐야겠다.
이전 3년의 성적을 바탕으로 예측할 때, 각 연도 성적에 대한 얼만큼의 가중치를 부여해야 할까? 그 가중치는 다음과 같다.
- y(t-3): .114
- y(t-2): .230
- y(t-1): .478
이 세 가중치의 합은 .822이다. 1보다 작다는 것은 이전 3년의 성적보다 이후 1년의 성적이 평균적으로 더 떨어진다는 뜻이다. 이는 평균회귀로 현상으로 쉽게 설명 가능하다. 4년 연속 최소 10타석 이상을 기록한 타자는 상대적으로 앞 시즌에 잘했을 가능성이 높으며, 여기엔 행운의 요소가 포함되어 있다. 따라서 다음 연도에는 이전의 82% 수준으로 성적이 감소하는 것이다.
평균회귀 현상을 배제하고, 가중치의 합을 1로 조정해보자. 이 때 연도별 가중치는 다음과 같다.
- y(t-3): .138
- y(t-2): .280
- y(t-1): .582
이는 다음 연도 WAR를 예측할 때, 평균회귀 현상을 고려하기 이전 각 연도에 대한 가중치이다. 이를 정수배로 간단히 나타내면 약 1, 3, 6이다. 즉, 선수의 실력을 WAR만으로 판단한다면 이전 3년 성적에 대해 약 6:3:1의 가중치로 고려하면 된다.
마지막으로 2018, 2017, 2016년의 성적에 6, 3, 1의 비율로 가중평균한 WAR(wWAR) 상위 20인의 목록은 다음과 같다.
Rank | Name | wWAR |
1 | Mike Trout | 8.91 |
2 | Mookie Betts | 8.65 |
3 | Jose Ramiresz | 7.24 |
4 | Francisco Lindor | 6.84 |
5 | Christian Yelich | 6.48 |
6 | Anthony Rendon | 6.22 |
7 | Jose Altuve | 5.90 |
8 | Alex Bregman | 5.71 |
9 | Nolan Arenado | 5.61 |
10 | Aaron Judge | 5.44 |
11 | Manny Machado | 5.13 |
12 | Paul Goldschmidt | 5.12 |
13 | Andrelton Simmons | 5.09 |
14 | Freddie Freeman | 5.06 |
15 | Giancarlo Stanton | 4.93 |
16 | Lorenzo Cain | 4.93 |
17 | J.D. Martinez | 4.90 |
18 | Justin Turner | 4.64 |
19 | Joey Votto | 4.57 |
20 | J.T. Realmuto | 4.39 |
포스트에서 나온 메이저리그의 전년 대비 성적의 100년간의 다변량 선형회귀(multivariate linear regression 그래프는 어디서 확인할 수 있는지 구체적으로 알 수 있을까요? 세이버매트릭스를 직접 분석하는데, 지표를 확인하기가 어려워서요… 정말 죄송합니다 ㅠㅠ
고등학생 신분이라, 이를 활용하여 보고서를 만들어보고 싶은데, 구체적인 조사자료를 구하는 것이 조금 힘들어서 참고를 할 수 있는 부분은 최대한 참고를 하여 이를 활용하고 싶습니다.
그래프는 없습니다. ㅎㅎ 그냥 계산만 했었네요.