투수를 평가하는 스탯 비교 – ERA, FIP, SIERA

투수를 평가하는 스탯은 ERA, FIP 등 매우 다양하다. 그런데 그 중에서 단일시즌 기준으로 가장 유용하다고 할 수 있는 스탯은 무엇일까? 각 스탯들이 얼마나 우수한지, 스탯의 여러 특성들을 살펴보며 확인해보자. 비교 대상이 되는 스탯들은 다음과 같다: RA9, ERA, kwERA, FIP, xFIP, pFIP, TIPS, SIERA. RA9는 9이닝당 투수의 허용 실점을 의미하며, kwERA는 투수의 K%와 BB%만을 바탕으로 ERA 스케일로 환산한 스탯이다. pFIP는 FIP의 계수를 더욱 정교하게 조정한 스탯이며, TIPS는 포수/타자 등의 영향을 제거하고 실제 투수의 스킬만을 확인하기 위한 스탯이다. (참고로 QERA나 tRA 등은 스탯의 정의가 비슷한 부분이 많아 제외하였으며, BERA, SBERA 등은 개인적으로 싫어하여 배제하였다.) 앞에서 언급한 일부 스탯의 계산식은 다음과 같다.

  • kwERA = 5.4 – ( 12 x ( K% – BB% ) )
  • pFIP = ( 17.5 x HR + 7 x BB – 9 x K ) / PA + 5.2
  • TIPS = 6.5 x (1 – O-Swing%) – 9.75 x SwStr% – 4.8 x Foul% +2.6

1. 신뢰도 (Reliability)

우수한 스탯은 높은 신뢰도를 지녀야 한다. 어떤 스탯값의 연도별 변동성이 매우 크다면, 그것은 선수의 실력보다는 운/기회 등 다른 외부 요인에 의한 영향을 더 많이 받는 것이다. 신뢰도는 연도별 스탯값의 상관계수를 살펴봄으로써 확인할 수 있다. 2013-2014년 100이닝 이상 약 100여명의 투수 기준으로, 위 스탯들의 연도별 상관계수는 다음과 같다.

Stats Correlation
RA9 0.242
ERA 0.216
kwERA 0.619
FIP 0.528
xFIP 0.632
pFIP 0.620
TIPS 0.697
SIERA 0.601

결과에서 알 수 있듯이 RA9, ERA는 지표의 신뢰도가 매우 낮다. 해당 연도의 ERA만으로 다음 연도의 ERA를 예측하는 것이 매우 어렵다. 따라서 이 지표만을 바탕으로 투수의 실력을 평가하는 것은 어리석은 일이라고 할 수 있다. 반면 그 외 다른 스탯들은 비교적 높은 안정성을 보였다. ERA와 대조적으로 FIP는 신뢰도가 비교적 우수했으며(.528), 이는 kwERA(.619)나 SIERA(.601)도 마찬가지였다. 가장 높은 신뢰도를 보인 것은 TIPS였다(.697). TIPS는 심판의 성향 또는 포수의 프레이밍에 의한 영향을 받지 않으므로, 가장 외부의 요인을 적게 받는다고 할 수 있겠다.

2. 타당도 (Validity)

해당 스탯이 결국 우리가 측정하고자 하는 것을 정확히 나타내느냐는 것이다. 우리가 측정하고자 하는 것은 결국 투수의 진짜 실력(성적)이며, 이는 많은 샘플 데이터의 RA9로 나타날 것이다. 따라서 많은 샘플 데이터가 수집됐을 때, 얼만큼 투수의 RA9와 정확히 일치하는지를 확인해보는 것이 좋다. 2002년 이후 1000이닝 이상 투수 약 130여명을 대상으로, RA9와 다른 스탯간의 상관계수를 확인했으며, 결과는 다음과 같다.

Stats Correlation
RA9 1.000
ERA 0.989
kwERA 0.774
FIP 0.862
xFIP 0.751
pFIP 0.825
TIPS 0.573
SIERA 0.772

ERA는 당연히 매우 높은(.989) 타당도를 보였다. ERA는 비록 연도별 변동이 매우 심하지만 오랜 시간 데이터가 누적되면 결국 우리가 원하는 것을 확인할 수 있는 지표이다. 이 외에도 FIP 및 pFIP가 높은 타당도를 보였다. 한편, TIPS는 신뢰도는 높았지만 타당도는 상대적으로 낮게 나타났다. 따라서 이 스탯만으로 투수의 우수성을 정확히 평가했다고 하기에는 무리가 있겠다. 만일, 투수의 구속, 키, 손가락의 길이 등을 변수로 활용한 스탯이 있다면 연도별 안정성은 매우 높게 나타날 것이다. 하지만 그것은 좋은 스탯일 수 없다. 왜냐하면 우리가 원하는 결과를 설명해줄 수 없기 때문이다. 

3. 결론 (Summary)

앞의 신뢰도와 타당도를 모두 고려했을 때, 투수의 우수한 스탯이라 할 수 있는 것은 kwERA, FIP, xFIP, pFIP, SIERA 정도이다. 또한 그 중에서도 xFIP, pFIP가 특히 더 좋다. 따라서 단일시즌의 성적만으로 투수를 평가하기에 xFIP와 pFIP가 적절하다고 할 수 있다. (참고로 여기서 활용한 SIERA는 팬그래프닷컴의 데이터를 활용했으며, 이는 RA9와 달리 파크팩터가 조정된 값이다. 따라서 실제 SIERA의 타당도는 조금 더 높을 수 있다.)

한편, 앞선 두 특성 외에도 스탯은 사실 객관도(Objectivity)와 실용도(Practicality) 또한 만족시켜야 한다. 객관도 측면에서 보면 RA9, ERA 등이 우수하고(임의의 계수를 활용하지 않으므로), 실용도 측면에서 보면 RA9, ERA, FIP가 우수하다. 결국 단일시즌 투수의 지표로서 위의 스탯들은 모두 저마다의 장단점이 있다고 할 수 있겠다. 따라서 지금처럼 실용적인 측면에서는 ERA/FIP를, 조금 더 자세하게 살펴보고 싶으면 xFIP/pFIP 스탯을 활용하면 되지 않을까?

마지막으로 2014년 pFIP (ERA 버전) 상위 15인의 순위를 살펴보자.

Rank Player pFIP
1 Clayton Kershaw 2.63
2 Chris Sale 3.04
3 Corey Kluber 3.05
4 Felix Hernandez 3.18
5 Yu Darvish 3.19
6 David Price 3.26
7 Stephen Strasburg 3.26
8 Max Scherzer 3.29
9 Jon Lester 3.40
10 Garrett Richards 3.41
11 Zack Greinke 3.42
12 Jordan Zimmermann 3.44
13 Phil Hughes 3.44
14 Madison Bumgarner 3.45
15 Hyun-Jin Ryu 3.46
  • Share on Tumblr
  • ㅇㅇ

    적당히 섞는 방법은 어떨까요?

    1. xFIP을 PA/(PA+300~500) 정도로 회귀
    2. FIP과 xFIP의 차이(HR/FB)를 PA/(PA+1500) 정도로 회귀
    3. ERA와 FIP의 차이의 차이(BABIP)를 PA/(PA+3000) 정도로 회귀

    1+2+3
    이런 식으로요.

    • 그것도 나쁘지 않은 시도같습니다만…
      결국은 SIERA와 매우 유사한 스탯이 되지 않을까 싶네요.ㅎㅎ