이전에 투수의 볼배합 능력을 측정하려는 시도를 소개한 적이 있다. 누적합계검사(Cumulative Sum Test, CSUM) 방법을 통해, 투수가 직구를 얼마나 랜덤하게 던지느냐를 측정한 것이었다.
이번엔 투수의 볼배합 능력을 평가하는 또 다른 방법을 소개하고자 한다. 베이스볼위드알(Baseballwithr.wordpress.com)에 짐 알버트(Jim Albert)가 소개한 엔트로피 계산법이다. 엔트로피(Entropie)는 통계역학에서 확률변수의 불확실성을 나타내기 위한 로그 함수이다. 투수가 던진 각 구종의 비율을 엔트로피 함수에 적용하여, 구종 예측이 얼마나 불확실한지 정량적으로 평가한다. 엔트로피 계산은 다음과 같이 한다.
- Entropie = – p1 x log(p1) – p2 x log(p2) – p3 x log(p3) – …
p1, p2, p3 등은 각 구종의 발생 비율을 의미한다. 구종별 비율에 대해 로그를 적용하고, 다시 비율로 가중치를 곱하여 모두 더한다. 각 확률값은 1보다 작으므로 로그값을 양수로 만들기 위해 앞에 마이너스를 붙인다. 각 구종의 발생 비율이 비슷할수록 예측이 어려우므로, 엔트로피 값은 증가한다. 반대로 비율 차이가 클수록, 예측은 쉽고 엔트로피는 낮다.
예를 들어 계산해보자. 2017년 클레이튼 커쇼는 패스트볼, 슬라이더, 커브에 대해 각각 47.1%, 34.9%, 16.8%의 비율로 던졌다. 엔트로피는 1.075로 계산된다. 반면 잭 그레인키는 패스트볼, 슬라이더, 커브, 체인지업에 대해 각각 48.2%, 22.6%, 13.3%, 15.8%의 비율로 던졌다. 엔트로피는 1.248로 계산된다. 그레인키의 구종이 커쇼보다 예측하기 더 어렵다는 뜻이다. 보통 투수들의 엔트로피는 1 근처에 분포하며, 1.1보다 크면 구종 예측이 어려운 투수, 0.9보다 낮으면 예측이 쉬운 투수로 간주할 수 있다.
엔트로피는 구종별 비율이 얼마나 고르게 분포했는지를 알려줄 뿐, 투수별로 최적의 투구 비율을 고려하지는 않는다. 예를 들어 슬라이더가 아주 훌륭한 투수는 슬라이더를 많이 던지는게 더 유리할 것이다. 따라서 단지 엔트로피가 높다고 더 성적이 좋을 것으로 기대할 수는 없다. 단지 타자 입장에서 해당 투수의 구종을 예측하기 얼마나 어려운지를 알 수 있을 뿐이다. 엔트로피와 투수 WAR와는 상관관계도 별로 없다. 2017년 50이닝 이상 투수를 대상으로 했을 때 상관계수는 0.04에 불과하다. 투수의 성향으로서만 참고할만한 지표이다.
그럼 2017년 50이닝 이상을 던진 투수들을 대상으로 엔트로피가 높았던 투수들을 살펴보자.
Rank | Name | Entropie |
1 | Jesse Chavez | 1.522 |
2 | Hyun-Jin Ryu | 1.474 |
3 | Masahiro Tanaka | 1.468 |
4 | Kenta Maeda | 1.422 |
5 | Mike Leake | 1.417 |
6 | Wade LeBlanc | 1.410 |
7 | Jeff Samardzija | 1.393 |
8 | Austin Bibens-Dirkx | 1.379 |
9 | Anibal Sanchez | 1.375 |
10 | Mark Leiter | 1.367 |
11 | Edwin Jackson | 1.363 |
12 | Jake Odorizzi | 1.360 |
13 | Mike Fiers | 1.354 |
14 | CC Sabathia | 1.352 |
15 | Brett Cecil | 1.350 |
16 | Michael Lorenzen | 1.346 |
17 | Wade Miley | 1.343 |
18 | James Shields | 1.339 |
19 | Adam Morgan | 1.324 |
20 | Austin Pruitt | 1.317 |
제스 차베즈가 전체에서 가장 높은 1.522의 엔트로피를 기록했다. 그는 패스트볼, 슬라이더, 커터, 커브볼, 체인지업에 대해 각각 33.5%, 16.3%, 27.7%, 8.1%, 14.4%의 비율을 나타냈다. 구종도 다양했지만, 패스트볼 비율이 전체의 1/3 수준이어서 구종 예측이 가장 힘든 투수였다. 그럼에도 불구하고 성적은 7승 11패 5.35 ERA로 매우 나빴다. 아마도 구종이 다양했던 이유는 패스트볼이 타자에게 효과적이지 않았기 때문으로 보인다. 한편, 류현진, 다나카, 마에다 등 동양인 투수가 나란히 2~4위에 랭크되어 있는 점도 흥미롭다.