이전 연도 WAR 성적으로 다음 연도 WAR 성적을 예측할 수 있을까?

타자의 이전 연도의 WAR 성적을 기반으로, 다음 연도의 WAR를 예측할 수 있을까? 그렇다면 그 정확성은 얼만큼일까? 현재 플레이어 랭킹을 산출할 때, 이전 연도 WAR에 대해서 최근 순서로 각각 6, 3, 1의 가중치를 부여하여 평균값을 계산했다. 이는 실제 선수의 성적과 가장 근접한, 즉 다음 해의 WAR를 설명하기 가장 적합한 가중치라 하였는데, 정말 그런지 확인해보자.

1920년부터 2018년까지 2~6년 연속으로 최소 10타석 이상을 기록한 선수의 시즌 데이터를 기반으로, 이전 연도의 성적을 기반으로 다변량 선형회귀(multivariate linear regression)시켜 다음 연도의 성적을 예측했을 때 결과를 확인해보자. 관측한 연도의 수를 늘려가면서 예측 성적의 결정계수(R^2)를 확인했다.

  • 1년: .554
  • 2년: .617
  • 3년: .646
  • 4년: .663
  • 5년: .674

이전 연도를 많이 관찰하면 관찰할수록 다음 연도 WAR 예측 성능이 더 좋다. 특히 최근 1~2년 성적이 매우 중요한 정보이며, 3년 이전의 성적은 예측력을 크게 더 높이지는 못한다. 다음 연도 성적을 예측할 때 이전 3년의 성적이면 대략 충분해 보인다. 이 때 결정계수(R^2)는 .646, 평균제곱근오차(RMSE)는 1.33이었다. 대략적인 추정은 가능하나, 오차가 큰 편이어서 정교한 예측은 어렵다고 봐야겠다.

이전 3년의 성적을 바탕으로 예측할 때, 각 연도 성적에 대한 얼만큼의 가중치를 부여해야 할까? 그 가중치는 다음과 같다.

  • y(t-3): .114
  • y(t-2): .230
  • y(t-1): .478

이 세 가중치의 합은 .822이다. 1보다 작다는 것은 이전 3년의 성적보다 이후 1년의 성적이 평균적으로 더 떨어진다는 뜻이다. 이는 평균회귀로 현상으로 쉽게 설명 가능하다. 4년 연속 최소 10타석 이상을 기록한 타자는 상대적으로 앞 시즌에 잘했을 가능성이 높으며, 여기엔 행운의 요소가 포함되어 있다. 따라서 다음 연도에는 이전의 82% 수준으로 성적이 감소하는 것이다.

평균회귀 현상을 배제하고, 가중치의 합을 1로 조정해보자. 이 때 연도별 가중치는 다음과 같다.

  • y(t-3): .138
  • y(t-2): .280
  • y(t-1): .582

이는 다음 연도 WAR를 예측할 때, 평균회귀 현상을 고려하기 이전 각 연도에 대한 가중치이다. 이를 정수배로 간단히 나타내면 약 1, 3, 6이다. 즉, 선수의 실력을 WAR만으로 판단한다면 이전 3년 성적에 대해 약 6:3:1의 가중치로 고려하면 된다.

마지막으로 2018, 2017, 2016년의 성적에 6, 3, 1의 비율로 가중평균한 WAR(wWAR) 상위 20인의 목록은 다음과 같다.

RankNamewWAR
1Mike Trout8.91
2Mookie Betts8.65
3Jose Ramiresz7.24
4Francisco Lindor6.84
5Christian Yelich6.48
6Anthony Rendon6.22
7Jose Altuve5.90
8Alex Bregman5.71
9Nolan Arenado5.61
10Aaron Judge5.44
11Manny Machado5.13
12Paul Goldschmidt5.12
13Andrelton Simmons5.09
14Freddie Freeman5.06
15Giancarlo Stanton4.93
16Lorenzo Cain4.93
17J.D. Martinez4.90
18Justin Turner4.64
19Joey Votto4.57
20J.T. Realmuto4.39

3 thoughts on “이전 연도 WAR 성적으로 다음 연도 WAR 성적을 예측할 수 있을까?

  1. 포스트에서 나온 메이저리그의 전년 대비 성적의 100년간의 다변량 선형회귀(multivariate linear regression 그래프는 어디서 확인할 수 있는지 구체적으로 알 수 있을까요? 세이버매트릭스를 직접 분석하는데, 지표를 확인하기가 어려워서요… 정말 죄송합니다 ㅠㅠ

    • 고등학생 신분이라, 이를 활용하여 보고서를 만들어보고 싶은데, 구체적인 조사자료를 구하는 것이 조금 힘들어서 참고를 할 수 있는 부분은 최대한 참고를 하여 이를 활용하고 싶습니다.

Leave a Reply

Your email address will not be published. Required fields are marked *