이전에 스탯캐스트의 새로운 스탯, 포구 확률(catch probability)을 소개했다. 타구를 잡기 위해 수비수가 이동해야 하는 거리와 타구의 체공 시간(hang time)을 고려하여, 통계적으로 타구의 포구 확률을 산출한 것이었다. 그러나 이 스탯은 산출 공식이 명확히 알려지지 않아서, 개별 타구에 대한 확률 계산이 어렵다. 그런데 지난 3월 쿠주 키드(The Kudzu Kid)는 팬그래프닷컴에 포구 확률을 간단히 계산하는 수식을 소개했다.
이 수식은 타구의 속도(exit velocity)와 각도(launch angle)만을 바탕으로, 포구 확률을 로지스틱 회귀(logistic regression) 함수로 모델링한 것이다. 로지스틱 회귀는 ‘포구 확률’처럼 종속변수가 이항(잡거나 놓치거나 둘 중 하나)인 사건의 발생 가능성을 예측하는데 적합하다. 일반적으로 로지스틱 함수는 1/(1 + exp( – (a * x + b)))와 같은 형태이며, x가 작을수록 함수값은 0에 가깝고 반대로 x가 클수록 함수값은 1에 가깝다. 포구 확률을 타구 속도와 각도라는 두 가지 변수로 로지스틱 회귀 모델링한 결과는 다음과 같다.
- 포구 확률 = 1/(1 + exp( – ( – 10.152 + 0.057 x 타구 속도 + 0.218 x 타구 각도)))
수식은 단순하다. 타구의 속도가 빠를수록, 각도가 높을수록 포구 확률은 증가한다. 타구가 빠를수록 포구 확률이 높아진다는 것이 우리의 직관과 다를수 있다. 그러나 위 식에서 타구 속도의 영향력은 적으며, 홈런을 제외한 외야 수비수의 포구 확률만을 대상으로 했다는 점을 감안해야 한다. 쿠주 키드 분석에 의하면, 이 모델은 의외로 정확도(accuracy=.8385)와 정밀도(precision=.8338)가 높다. 정확도란 계산된 양이 실제값과 가까운 정도를 의미하며, 정밀도는 여러 번 측정하거나 계산하여 그 결과가 서로 가까운 정도를 의미한다.
아래 표는 타구 속도와 각도에 따른 포구 확률을 정리한 것이다. 배럴 타구 조건을 넘어서는 25~40도 범위에서 포구 확률이 급격히 증가한다는 것을 알 수 있다.
구분 | 20마일 | 40마일 | 60마일 | 80마일 |
5도 | 0.0% | 0.1% | 0.4% | 1.1% |
10도 | 0.1% | 0.3% | 1.0% | 3.2% |
15도 | 0.3% | 1.0% | 3.0% | 8.9% |
20도 | 0.9% | 2.9% | 8.5% | 22.6% |
25도 | 2.8% | 8.2% | 21.7% | 46.5% |
30도 | 7.8% | 20.9% | 45.2% | 72.1% |
35도 | 20.1% | 44.0% | 71.1% | 88.5% |
40도 | 42.8% | 70.0% | 88.0% | 95.8% |
45도 | 69.0% | 87.4% | 95.6% | 98.5% |
50도 | 86.9% | 95.4% | 98.5% | 99.5% |
55도 | 95.2% | 98.4% | 99.5% | 99.8% |
60도 | 98.3% | 99.5% | 99.8% | 99.9% |
65도 | 99.4% | 99.8% | 99.9% | 100.0% |
70도 | 99.8% | 99.9% | 100.0% | 100.0% |
75도 | 99.9% | 100.0% | 100.0% | 100.0% |
80도 | 100.0% | 100.0% | 100.0% | 100.0% |
85도 | 100.0% | 100.0% | 100.0% | 100.0% |
90도 | 100.0% | 100.0% | 100.0% | 100.0% |