피칭봇(PitchingBot)과 스터프(Stuff) 지표는 투수의 미래 성적을 더 잘 예측할 수 있을까?

이전에 투수의 투구 퀄리티를 평가하는 피칭봇(PitchingBot)과 스터프(Stuff)+ 지표들을 소개했다. 이들은 투수와 타자의 정보(handness), 스트라이크 존 높이, 볼 카운트, 구속(velocity), 회전 수(spin rate), 무브먼트(movement), 릴리즈 포인트(release point), 익스텐션(extension), 로케이션(location) 등의 정보를 기준으로 피치의 퀄리티를 판정하는 것이었다.

매우 다양한 정보를 기반으로 머신러닝 모델을 이용해서 산출된 수치이므로, 실제 투수의 실력을 매우 잘 설명할 것이라 기대된다. 그렇다면 이 지표들은 미래의 투수 ERA를 더 잘 예측할 수 있을까?

2022년 여러 투수 지표와 2023년 실제 ERA와의 상관계수를 비교한 결과는 다음과 같다. 두 시즌에서 모두 100이닝 이상을 던진 투수만을 대상으로 했다.

  • xFIP: .490
  • K%: -.429
  • xERA: .425
  • Pitching+: .417
  • K-BB%: -.414
  • botERA: .399
  • Stuff+: .330
  • FIP: .329
  • ERA: .265
  • GB%: -.212
  • Location+: .077
  • BB%: .010

결과는 다소 의외이다. 피칭+ 또는 botERA와 같은 머신러닝 기반의 스탯들의 다음 연도 ERA와의 상관성이 단순 삼진 비율(K%)보다 높지 않다. 즉, 투수의 탈삼진 능력이 가장 뛰어난 예측력을 보인다. 또, 여기에 투수의 볼넷 비율(BB%)과 플라이볼 허용 비율(FB%) 등의 정보가 추가되면(xFIP), 성적 예측력이 더욱 올라간다.

물론, 이 모델들은 투구의 구위(스터프)와 로케이션 정보만을 이용했고, 그럼에도 결과물인 탈삼진 비율(K%)과 비슷한 예측력을 보였으므로, 나쁘지 않은 성능을 보였다고 생각할 수도 있다. 또, 어쨌든 적어도 ERA나 FIP보다는 더 나은 예측력을 보였다.

흥미로운 점은, 스터프+(.330)가 로케이션+(.077)보다 미래 성과 예측에 훨씬 더 중요하다는 점이다. 또, 탈삼진 능력(.429)이 볼넷 허용(.010)보다도 훨씬 더 중요하다. 즉, 투수의 미래 성과를 예측하는 데 있어, 로케이션보다는 구위가 더 중요하고, 볼넷을 허용하지 않는 것보다 삼진을 많이 잡는 능력이 훨씬 더 중요하다는 것이다.

물론, 이 모델들은 아직 아웃 오브 샘플(out-of-sample) 기간이 1년으로 짧고, 이 분석의 대상이 된 샘플 숫자가 적다는 점을 고려해야겠다.

Leave a Reply

Your email address will not be published. Required fields are marked *