마이크 트라웃의 2015년 성적은?

이전에 Marcel이라는 성적 예측 시스템을 소개한적이 있다. 이번에는 Marcel을 비롯하여 이와 유사한 다른 예측 시스템인 ZiPS, Oliver, PECOTA, Steamer 등을 소개하려고 한다. 이들은 모두 향후 선수의 성적을 예측하고자 한다는 점에서 궁극적으로 추구하는 바가 같다. 그러나 구체적으로 그 성적을 예측하는 방법에 있어 차이를 보인다. 그렇다면 이들은 어떤 방법을 활용하는 것이며, 예측력은 얼마나 될까?

우선 Marcel은 Tom Tango에 의해 고안된 것으로, 가장 단순하면서도 직관적인 예측 시스템이다. 최근 3년간의 성적을 기반으로 가중치를 부여하여 향후 시즌의 성적을 계산하고, 이를 선수의 나이 등으로 적절히 보상한다. 가장 단순하지만 그에 반해 수준급의 예측력을 보인다. 메이저리그에서의 경력이 어느정도 있는 선수에 대해서만 예측이 유효하다는 단점이 있다.

ZiPS(sZymborski Projection System)는 Dan Szymborski에 의해 고안된 것으로, Marcel과는 달리 최근 4년간의 데이터를 활용한다. 다만 선수의 성적을 평균값으로 회귀시키는데 있어 BABIP 성분을 고려한다. 즉, BABIP은 연도별 변동성이 크므로 내년 성적 예측에 있어 낮은 비율로 반영하는 것이다. 또한, Marcel와 달리 연령 곡선(Aging curve)을 적용하는 것이 아니라, 이전에 유사한 선수의 기량 변화를 비교 적용하여 반영한다. Marcel보다 계산 복잡도는 높지만, 그만큼 정밀한 예측이 가능하다.

Oliver는 Brain Cartwright에 의해 고안된 것으로, Marcel처럼 최근 3년간의 데이터를 이용한다. 마찬가지로 나이, 파크팩터 등을 고려하였으며, 연도별 데이터를 활용하여 매년 마이너리그/메이저리그 간 수준 차이를 좀 더 정확하게 보정한다.

PECOTA(Player Empirical Comparison and Optimization Test Algorithm)는 베이스볼 프로스펙터스의 Nate Silver가 고안한 것으로, 여타 시스템처럼 최근 연도의 성적을 가중 평균하여 예측하는 방식이 아니라, 해당 선수와 가장 유사했던 선수를 찾아서 성적을 비교/예측하는 방식이다. 가장 정밀하면서도 복잡한 시스템으로 알려져 있다.

Steamer는 Jared Cross, Dash Davidson, Peter Rosenbloom에 의해 고안된 시스템이다. Marcel과 유사하나 성분별로 신뢰도 계수를 각각 다르게 부여하여 예측력을 높인다. 개인적으로는 Marcel과 함께 가장 선호하는 예측 시스템이다. 참고로 팬그래프닷컴에서는 Steamer600 이라는 것도 제공하고 있는데, 이는 Steamer의 예측값을 정해진 타석 기회(600타석 또는 200이닝 등)로 조정한 것이다.

CHONE은 Sean Smith가 고안한 것으로, 역시 Marcel과 유사하다. 다만 최근 4년간의 데이터를 활용하며 타구별 데이터를 활용한다. 또한, 마이너리그 성적까지 고려하여 서로 다른 리그 수준을 함께 고려한다. 가장 정확도가 높은 시스템으로 알려져 있으나, 2011년 Sean Smith가 메이저리그 구단에 소속되면서 해당 시스템은 더 이상 유효하지 않게 되었다.

지금까지는 서로 다른 여러 예측 시스템을 간략하게 소개하였다. 그렇다면 위 시스템은 실제로 어느정도의 정확도를 보일까? 이와 관련하여서 Tom Tango는 이미 2011년에 정밀한 비교 분석을 수행했는데, 당시 CHONE이 가장 정확했고, 그 외 다른 시스템 간의 성능 차이는 크지 않았다. 선수들의 wOBA를 기준으로, 실제 성적과 예측된 값의 평균적인 오차(root mean square error)는 0.025~0.045 수준이었다.

한편, Dan Meyer는 얼마전 예측 시스템의 성능 비교 분석을 다시 진행하고, 그 결과를 더하드볼타임즈에 발표했다. Tom Tango와 유사하게 wOBA의 오차를 바탕으로 비교한 결과, ZiPS(.0274), Steamer(.0277), PECOTA(.0279), Oliver(.0280), Marcel(.0289) 순의 정확도를 보였다. 그러나 그 오차 수준이 0.0274~0.0289 이고, 샘플의 타입별로 결과가 크게 차이를 보였기 때문에, 사실상 성능에 큰 차이는 없다고 봐야겠다.

메이저리그 경험이 거의 없는 신인 선수 성적 예측에 있어서는 Steamer(.0282), ZiPS(.0290), Oliver(.0293), PECOTA(.0303), Marcel(.0346) 순으로 예측력을 보였다. Steamer가 가장 뛰어났으며 Marcel의 약점이 크게 두드러졌다. 한편 메이저리그 성적이 어느정도 있는(300~1800 타석) 선수의 경우는, PECOTA(0.0273), ZiPS(0.0278), Oliver(.0282), Steamer(.0285), Marcel(.0296) 순이었다. 마지막으로 메이저리그 풀타임을 3시즌 이상 치른 베테랑 선수에 대해서는 ZiPS(.0269), Steamer(.0271), Marcel(.0271), Oliver(.0276), PECOTA(.0278) 순으로 나타났으며 사실상 큰 성능 차이가 없었다.

결과적으로 대부분의 예측 시스템은 메이저리그 경력이 많은 선수에 대해서 높은 예측력을 보였다. wOBA 기준으로 평균적인 오차가 0.027 수준이었다. Marcel 시스템도 메이저리그 경력이 너무 적은 선수가 아니라면, 그 예측력은 다른 정교한 시스템과 유사한 수준임을 알 수 있었다.

그렇다면 이번에는 Marcel을 활용하여 2015년 마이크 트라웃의 성적을 예측해보자. Marcel은 2012년의 신인이었던 마이크 트라웃의 성적을 예측하는데 완전히 실패했지만, 지금은 이미 3년의 풀타임 시즌을 치뤘으므로 높은 수준의 성적 예측이 가능하다고 할 수 있다. 그의 3년간 타율/출루율/장타율/wOBA를 최근 연도 순으로 각각 5:4:3의 가중치를 부여하여 평균값을 구한다. 그러면 .309/.401/.560/.411이 얻어진다. 이 값을 그의 신뢰도 계수(.874)에 따라 리그 평균값으로 회귀시키면 .302/.390/.540/.399가 된다. 이 값은 어느정도 노이즈가 제거된 실제 마이크 트라웃 성적에 가까운 값일 것이다. 한편, 이 값을 다시 그의 연령을 고려하여 조정한다. 연령에 따른 성적 조정값은 다음과 같이 할 수 있다.

  • 29세 미만: ( 29 – Age ) x .006
  • 29세 이상: ( Age – 29 ) x .003

그는 내년에 23살이므로 조정값은 +3.6%가 된다. 이를 감안한 그의 성적은 .313/.404/.560/.413가 된다. 구장은 동일하므로 특별히 파크팩터 조정은 하지 않는다. 결국 최종 예측된 마이크 트라웃의 성적은 타율/출루율/장타율이 각각 .313/.404/.560이고 wOBA는 .413이다. 한편, Steamer는 그를 .297/.393/.537과 .403의 wOBA로 예측하고 있다. 둘의 큰 차이는 아무래도 반영하는 리그 수준에서 기인하고 있지 않을까 싶다. 위의 내 계산에서는 AL에 대한 최근 3년간의 연도별 가중치를 부여하여 내년 리그 평균값을 도출했는데, 만일 리그 내년 평균을 올 시즌 리그 평균으로 가정하거나 또는 AL/NL를 통합하여 평균값을 도출한다면 그의 성적은 좀 더 낮게 예측될 것이다. 어찌됐건 그의 내년 성적은 .400~.410의 wOBA로 예측된다. 과연 또 다른 MVP 시즌을 만들어낼 수 있을지 내년에 지켜봐야겠다.

  • Share on Tumblr