타구의 포구 확률(catch probability)을 간단히 계산하는 방법

이전에 스탯캐스트의 새로운 스탯, 포구 확률(catch probability)을 소개했다. 타구를 잡기 위해 수비수가 이동해야 하는 거리와 타구의 체공 시간(hang time)을 고려하여, 통계적으로 타구의 포구 확률을 산출한 것이었다. 그러나 이 스탯은 산출 공식이 명확히 알려지지 않아서, 개별 타구에 대한 확률 계산이 어렵다. 그런데 지난 3월 쿠주 키드(The Kudzu Kid)는 팬그래프닷컴에 포구 확률을 간단히 계산하는 수식을 소개했다.

이 수식은 타구의 속도(exit velocity)와 각도(launch angle)만을 바탕으로, 포구 확률을 로지스틱 회귀(logistic regression) 함수로 모델링한 것이다. 로지스틱 회귀는 ‘포구 확률’처럼 종속변수가 이항(잡거나 놓치거나 둘 중 하나)인 사건의 발생 가능성을 예측하는데 적합하다. 일반적으로 로지스틱 함수는 1/(1 + exp( – (a * x + b)))와 같은 형태이며, x가 작을수록 함수값은 0에 가깝고 반대로 x가 클수록 함수값은 1에 가깝다. 포구 확률을 타구 속도와 각도라는 두 가지 변수로 로지스틱 회귀 모델링한 결과는 다음과 같다.

  • 포구 확률 = 1/(1 + exp( – ( – 10.152 + 0.057 x 타구 속도 + 0.218 x 타구 각도)))

수식은 단순하다. 타구의 속도가 빠를수록, 각도가 높을수록 포구 확률은 증가한다. 타구가 빠를수록 포구 확률이 높아진다는 것이 우리의 직관과 다를수 있다. 그러나 위 식에서 타구 속도의 영향력은 적으며, 홈런을 제외한 외야 수비수의 포구 확률만을 대상으로 했다는 점을 감안해야 한다. 쿠주 키드 분석에 의하면, 이 모델은 의외로 정확도(accuracy=.8385)와 정밀도(precision=.8338)가 높다. 정확도란 계산된 양이 실제값과 가까운 정도를 의미하며, 정밀도는 여러 번 측정하거나 계산하여 그 결과가 서로 가까운 정도를 의미한다.

아래 표는 타구 속도와 각도에 따른 포구 확률을 정리한 것이다. 배럴 타구 조건을 넘어서는 25~40도 범위에서 포구 확률이 급격히 증가한다는 것을 알 수 있다.

구분 20마일 40마일 60마일 80마일
5도 0.0% 0.1% 0.4% 1.1%
10도 0.1% 0.3% 1.0% 3.2%
15도 0.3% 1.0% 3.0% 8.9%
20도 0.9% 2.9% 8.5% 22.6%
25도 2.8% 8.2% 21.7% 46.5%
30도 7.8% 20.9% 45.2% 72.1%
35도 20.1% 44.0% 71.1% 88.5%
40도 42.8% 70.0% 88.0% 95.8%
45도 69.0% 87.4% 95.6% 98.5%
50도 86.9% 95.4% 98.5% 99.5%
55도 95.2% 98.4% 99.5% 99.8%
60도 98.3% 99.5% 99.8% 99.9%
65도 99.4% 99.8% 99.9% 100.0%
70도 99.8% 99.9% 100.0% 100.0%
75도 99.9% 100.0% 100.0% 100.0%
80도 100.0% 100.0% 100.0% 100.0%
85도 100.0% 100.0% 100.0% 100.0%
90도 100.0% 100.0% 100.0% 100.0%
  • Share on Tumblr