이전 연도 WAR 성적으로 다음 연도 WAR 성적을 예측할 수 있을까?

 

타자의 이전 연도의 WAR 성적을 기반으로, 다음 연도의 WAR를 예측할 수 있을까? 그렇다면 그 정확성은 얼만큼일까? 현재 플레이어 랭킹을 산출할 때, 이전 연도 WAR에 대해서 최근 순서로 각각 6, 3, 1의 가중치를 부여하여 평균값을 계산했다. 이는 실제 선수의 성적과 가장 근접한, 즉 다음 해의 WAR를 설명하기 가장 적합한 가중치라 하였는데, 정말 그런지 확인해보자.

1920년부터 2018년까지 2~6년 연속으로 최소 10타석 이상을 기록한 선수의 시즌 데이터를 기반으로, 이전 연도의 성적을 기반으로 다변량 선형회귀(multivariate linear regression)시켜 다음 연도의 성적을 예측했을 때 결과를 확인해보자. 관측한 연도의 수를 늘려가면서 예측 성적의 결정계수(R^2)를 확인했다.

  • 1년: .554
  • 2년: .617
  • 3년: .646
  • 4년: .663
  • 5년: .674

이전 연도를 많이 관찰하면 관찰할수록 다음 연도 WAR 예측 성능이 더 좋다. 특히 최근 1~2년 성적이 매우 중요한 정보이며, 3년 이전의 성적은 예측력을 크게 더 높이지는 못한다. 다음 연도 성적을 예측할 때 이전 3년의 성적이면 대략 충분해 보인다. 이 때 결정계수(R^2)는 .646, 평균제곱근오차(RMSE)는 1.33이었다. 대략적인 추정은 가능하나, 오차가 큰 편이어서 정교한 예측은 어렵다고 봐야겠다.

이전 3년의 성적을 바탕으로 예측할 때, 각 연도 성적에 대한 얼만큼의 가중치를 부여해야 할까? 그 가중치는 다음과 같다.

  • y(t-3): .114
  • y(t-2): .230
  • y(t-1): .478

이 세 가중치의 합은 .822이다. 1보다 작다는 것은 이전 3년의 성적보다 이후 1년의 성적이 평균적으로 더 떨어진다는 뜻이다. 이는 평균회귀로 현상으로 쉽게 설명 가능하다. 4년 연속 최소 10타석 이상을 기록한 타자는 상대적으로 앞 시즌에 잘했을 가능성이 높으며, 여기엔 행운의 요소가 포함되어 있다. 따라서 다음 연도에는 이전의 82% 수준으로 성적이 감소하는 것이다.

평균회귀 현상을 배제하고, 가중치의 합을 1로 조정해보자. 이 때 연도별 가중치는 다음과 같다.

  • y(t-3): .138
  • y(t-2): .280
  • y(t-1): .582

이는 다음 연도 WAR를 예측할 때, 평균회귀 현상을 고려하기 이전 각 연도에 대한 가중치이다. 이를 정수배로 간단히 나타내면 약 1, 3, 6이다. 즉, 선수의 실력을 WAR만으로 판단한다면 이전 3년 성적에 대해 약 6:3:1의 가중치로 고려하면 된다.

마지막으로 2018, 2017, 2016년의 성적에 6, 3, 1의 비율로 가중평균한 WAR(wWAR) 상위 20인의 목록은 다음과 같다.

Rank Name wWAR
1 Mike Trout 8.91
2 Mookie Betts 8.65
3 Jose Ramiresz 7.24
4 Francisco Lindor 6.84
5 Christian Yelich 6.48
6 Anthony Rendon 6.22
7 Jose Altuve 5.90
8 Alex Bregman 5.71
9 Nolan Arenado 5.61
10 Aaron Judge 5.44
11 Manny Machado 5.13
12 Paul Goldschmidt 5.12
13 Andrelton Simmons 5.09
14 Freddie Freeman 5.06
15 Giancarlo Stanton 4.93
16 Lorenzo Cain 4.93
17 J.D. Martinez 4.90
18 Justin Turner 4.64
19 Joey Votto 4.57
20 J.T. Realmuto 4.39

 

  • Share on Tumblr