구종 예측이 어려운 투수 확인하는 방법, 엔트로피

이전에 투수의 볼배합 능력을 측정하려는 시도를 소개한 적이 있다. 누적합계검사(Cumulative Sum Test, CSUM) 방법을 통해, 투수가 직구를 얼마나 랜덤하게 던지느냐를 측정한 것이었다. 이번엔 투수의 볼배합 능력을 평가하는 또 다른 방법을 소개하고자 한다. 베이스볼위드알(Baseballwithr.wordpress.com)에 짐 알버트(Jim Albert)가 소개한 엔트로피 계산법이다. 엔트로피(Entropie)는 통계역학에서 확률변수의 불확실성을 나타내기 위한 로그 함수이다. 투수가 던진 각 구종의 비율을 엔트로피 함수에 적용하여, 구종…

  • Share on Tumblr

오즈비(Odds ratio)로 비교한 투수 역대 최고의 탈삼진율(K%) 시즌은?

이전에 투수의 탈삼진 능력을 평가하는 조정탈삼진 스탯(K%+)을 소개한 적이 있다. 이 스탯은 리그평균대비 해당 투수가 얼마나 탈삼진 능력이 뛰어난지를 말해준다. 그러나 이 스탯으로 매우 다른 시대의 탈삼진 능력을 비교하기에는 무리가 있다. 리그 평균 삼진율이 10%일 때보다는 20%일 때, 리그평균대비 두 배의 탈삼진율을 기록하는 것이 훨씬 더 어렵기 때문이다. 이는 가능한 탈삼진율의 한계가 100%로 정해져있기 때문이다.…

  • Share on Tumblr

2017 추신수는 과연 불운한 타자였나

얼마 전 추신수의 2017년 불운에 관한 기사가 있었다. 스탯캐스트의 xwOBA 대비 wOBA가 낮다라는 점을 근거로 추신수의 2017년은 불운한 시즌이라고 하였다. 정말 그럴까? 이에 대해서 좀 더 자세히 살펴보자. 이전에 설명했듯이, xwOBA는 타자가 기록한 삼진, 볼넷과 함께 타구의 속도와 각도를 바탕으로 예측한 wOBA이다. 상대편 수비수의 활약이나 구장 특성의 영향을 거의 받지 않기 때문에, 순수하게 타자의 타격 능력을 평가하기…

  • Share on Tumblr

MVP를 수상하지 못한 최고의 시즌

애런 저지가 아깝게 2017년 아메리칸리그 MVP 수상에 실패했다. .284의 타율과 무려 52개의 홈런을 기록하며 8.2 WAR의 엄청난 성적을 거뒀다. 아쉬움이 남긴 하지만, 실제 팀 승리기여도 측면에서 알투베가 더욱 뛰어났던 것은 사실이다. 그렇다면 아쉽게 MVP를 수상하지는 못했지만, 위대한 시즌을 보낸 선수는 또 누가 있었을까? 이전에 사이영상을 수상하지 못한 최고의 시즌을 확인한 것처럼, MVP를 수상하지 못한 최고의 시즌을…

  • Share on Tumblr

볼 카운트에 따른 스트라이크 판정의 변화

불행히도, 심판의 스트라이크 존은 유동적이다. 즉, 심판의 성향 또는 상황에 따라 스트라이크 존의 크기는 달라진다. 볼 카운트 상황에 따라서는 어떻게 다를까? 스트라이크 판정에 더 유리하거나 더 불리한 볼 카운트가 따로 있을까? 지난 10월 팬그래프커뮤니티에 볼 카운트에 따른 스트라이크 판정 영향에 대한 글이 소개됐다. 최근 5년 간 스탯캐스트 데이터를 바탕으로 스트라이크 존 경계로 온 공에 대해,…

  • Share on Tumblr

2017년 메이저리그의 홈런당 타수(AB/HR)

lg_ab_per_hr

2017년은 홈런이 매우 많이 발생했다. 역대 가장 많은 홈런(6105개)이 나왔는데, 이는 2000년(5693개)보다도 더 많다. 지안카를로 스탠튼은 전체에서 가장 많은 59개의 홈런을 쳤고, 애런 저지는 루키 시즌임에도 불구하고 52개의 홈런을 기록하며, 신인 최다 홈런 신기록을 세웠다. 실제로 2017년은 이전 시즌에 비해 얼만큼 홈런이 더 자주 발생했던 걸까? 이를 확인하기 위해 1920년부터 리그 홈런당 타수 변화를 살펴보자. 시간이 흐름에…

  • Share on Tumblr

애런 저지는 2017년 아메리칸리그 MVP로 적합한가?

2017년 각 리그의 MVP는 누가될까? 예년과 달리 2017년은 리그에서 가장 우수한 선수들의 WAR가 거의 비슷하다. 아메리칸리그에서는 애런 저지(8.2), 호세 알투베(7.5), 마이크 트라웃(6.9) 순으로, 내셔널리그는 앤서니 랜던(6.9), 지안카를로 스탠튼(6.9), 크리스 브라이언트(6.7) 순으로 WAR가 가장 높다. 메이저리그 전체에서 보면 애런 저지의 WAR가 8.2로 가장 높긴 하지만, 2위 호세 알투베와의 차이가 0.7로 그리 크지 않다. 따라서 단순 WAR 지표만으로…

  • Share on Tumblr

2017년 혼란의 사이영 레이스

2017년 사이영 레이스는 혼란의 연속이다. 우선 아메리칸리그는 코리 클루버와 크리스 세일의 경쟁이 치열하다. 클루버는 17승 4패, 2.35 ERA를, 세일은 17승 7패 2.75 ERA의 성적을 기록하고 있다. 사이영상 수상에 가장 중요한 지표인 승률과 평균자책점에서 클루버가 앞서고 있다. 하지만 세일은 벌써 209.1이닝을 소화하며 무려 300개의 탈삼진을 기록했다. FIP도 2.22로 메이저리그 전체에서 가장 좋다. FIP 기반의 WAR로 비교하면…

  • Share on Tumblr

오승환에 대한 감독의 신뢰도

오승환이 최근 부진하며 팀 내 입지가 줄어들고 있다. 정말 감독으로부터 작년만큼의 신뢰를 받지 못하는 것일까?. 이를 확인할 수 있는 방법이 있을까? 더하드볼타임즈에 라이언 폴락(Ryan Pollack)은 구원투수에 대한 감독의 신뢰도(trust)를 확인하는 방법을 소개했다. 그 방법은 바로 구원투수가 등판하는 시점의 중요도(gmLI)를 확인하는 것이다. 중요한 순간에 많이 등판한다는 것은 그만큼 감독이 그 투수를 많이 신뢰한다는 뜻이며, 반대로 중요하지 않은 순간에…

  • Share on Tumblr

애런 저지의 후반기 부진과 평균으로의 회귀(regression toward the mean)

애런 저지의 후반기 성적이 저조하다. 그는 전반기에 .329/.448/.691 타격 슬래시라인과 30개의 홈런을 기록했다. 신인왕은 물론 아메리칸리그의 가장 강력한 MVP 후보였다. 그러나 후반기 부진이 계속되며, 8월 16일까지 겨우 .175/.344/.369의 성적을 기록하고 있다. 그가 부진한 이유는 무엇일까? 혹시 평균으로의 회귀(regression toward the mean) 현상으로 설명할 수 있지 않을까? 평균으로의 회귀 현상이란, 첫 번째 관측에서 극단적인 값을 가진 변수가,…

  • Share on Tumblr