하키 분석 방법론
METHODOLOGY
이 페이지는 ECAC Sports Analytics가 글을 작성할 때 따르는 분석 방법론을 정리한 자료다. 어떤 데이터를 어떻게 사용하고, 어떤 지표를 어떻게 읽으며, 분석의 한계를 어떻게 표시하는지를 단계별로 풀어둔다. 모든 글의 본문은 이 방법론 위에서 굴러간다.
분석의 출발점
분석은 정답을 내는 작업이 아니다. 어디까지가 데이터로 말할 수 있는 영역이고, 어디부터가 추정의 영역인지를 가려내는 작업이다. 같은 SV% 0.920이라도 그 숫자가 어떤 시즌, 어떤 무대, 어떤 표본 안에서 만들어졌는지에 따라 의미가 달라진다. 이 매체에서 발행되는 모든 글은 이 전제에서 출발한다.
분석가의 시선은 평균에서 한 단계 더 들어가는 자리에 있다. 시즌 평균 한 줄로 결론을 내리는 일은 거의 없다. 그 평균을 구성한 분산, 표본의 시점, 무대의 차이를 같이 본 뒤에야 결론이 만들어진다. 글의 톤이 단정적이지 않은 것은 그런 이유에서다.
스포츠 데이터의 특수성은 변수가 많다는 점에서 출발한다. 같은 한 경기의 결과라도 골리 컨디션, 일정상의 휴식 정도, 부상 변수, 라인업 변동, 심지어 빙판 상태와 시간대까지 결과에 끼어든다. 분석은 이 변수들을 가능한 한 분리해서 본 뒤, 어떤 변수가 어떤 무게로 작용했는지를 가려내는 작업이다.
사용하는 핵심 지표
본 매체의 글에는 하키 분석에서 통용되는 지표들이 자주 등장한다. 가장 많이 인용되는 지표는 다음과 같다.
SV%는 골리의 세이브 퍼센티지로, 한 골리가 받은 슈팅 중 골을 허용하지 않은 비율이다. GAA는 한 경기 평균 실점으로, 골리의 안정성을 보여주는 보조 지표다. PP%는 파워플레이 전환율로 한 명 더 많은 상태에서 골을 만들어내는 비율, PK%는 페널티 킬 성공률로 한 명 적은 상태에서 골을 막아내는 비율이다.
최근 분석에서 자주 사용되는 고급 지표로는 GSAx(Goals Saved Above Expected), xG(Expected Goals), Corsi(슈팅 시도 합계 기반 지표), Fenwick(블록샷 제외한 슈팅 시도 합계 기반 지표)가 있다. 이 지표들은 단순 평균이 가리는 위협도와 분산을 같이 보기 위해 사용된다.
고급 지표의 한계도 함께 짚는다. GSAx는 기대 골 모델의 정확도에 따라 결과값이 달라지고, Corsi는 슈팅 시도의 위협도를 구분하지 못한다는 약점을 가진다. 본 매체의 글은 한 지표만으로 결론을 내지 않고, 여러 지표를 교차해서 본 뒤에 결론을 정리한다.
글의 본문에 처음 등장하는 지표는 가능한 한 그 자리에서 풀어 설명한다. 이미 풀었던 용어가 다시 나오는 경우 짧게만 설명하고 넘어간다. 자세한 정의는 하키 분석 용어집 페이지에 영역별로 정리되어 있다.
데이터 출처와 검증
모든 통계는 1차 자료에서 출발한다. NCAA 공식 통계, NHL 공식 통계, IIHF 룰북, Hockey Reference 같은 운영 기관과 공인된 통계 사이트가 1차 출처에 해당한다. 2차 인용은 본문에 그대로 옮기지 않고, 가능한 한 1차 자료까지 거슬러 올라가 확인한 뒤 인용한다.
글이 발행되기 전에 모든 외부 링크는 응답 상태와 본문 내용이 직접 확인된다. 링크가 깨지거나 인용된 통계가 달라진 경우, 본문이 인용된 시점의 데이터로 확인되지 않으면 발행을 보류한다. 이 검증 단계가 글의 신뢰도를 만드는 가장 큰 축이다.
통계 출처가 시즌 단위로 갱신되는 항목은 인용 시점을 본문에 같이 적는다. 같은 SV%라도 어느 시즌의 데이터인지가 명시되지 않으면, 시간이 지난 뒤 본문이 다른 의미로 읽힐 수 있다. 인용 시점을 명시하면 글이 발행된 뒤에도 그 결론의 맥락이 흐려지지 않는다.
평균과 분산을 같이 보는 방식
한 시즌의 결과는 평균이 보여주는 만큼만 보여주지 않는다. 평균과 분산을 같이 봐야 한 시즌의 진짜 흐름을 잡을 수 있다. 본 매체의 글은 가능한 경우 시즌 평균과 함께 분산의 형태를 같이 짚는다.
예를 들어 한 골리의 시즌 평균 SV%가 0.912라고 하더라도, 그 평균이 어떤 분산 안에서 만들어졌는지를 같이 본다. 0.971과 0.667을 오가면서 만든 0.912와, 0.905에서 0.918 사이를 흔들리면서 만든 0.912는 다음 시즌 예측에서 다르게 작동한다. 평균만 옮겨오면 그 차이가 사라진다.
분산을 보는 방법은 여러 가지가 있다. 표준편차를 같이 표기하거나, 시즌을 월 단위로 쪼개 평균을 다시 계산하거나, 가장 좋았던 다섯 경기와 가장 안 좋았던 다섯 경기를 분리해 보는 방식이 자주 쓰인다. 본 매체의 글은 분석 대상에 따라 분산을 보는 방식을 다르게 선택해 적용한다.
무대별 보정
NCAA와 NHL은 시즌 길이, 룰의 세부, 선수 풀이 모두 다른 무대다. 두 무대의 데이터를 같은 줄에 놓고 비교하면 분석이 통째로 어긋난다. 본 매체의 글은 두 무대의 데이터를 다룰 때 명시적으로 구분한다. 두 무대를 가르는 4가지 룰 차이는 NCAA vs NHL 분석 글에서 따로 다뤘다.
표본 크기 보정도 같이 본다. NCAA 32경기 시즌 평균과 NHL 82경기 시즌 평균은 신뢰도가 다르다. 짧은 시즌에서는 한두 경기의 흐름이 평균을 크게 흔든다. 긴 시즌에서는 같은 단발성 변동이 평균에 묻힌다. 시즌 길이가 다른 두 평균을 같은 잣대로 평가하지 않는다. 골리 한 명의 영향력처럼 한 포지션 변수가 시즌 평균을 흔드는 경우도 무대별로 다르게 작동한다.
컨퍼런스 단위로도 환경이 다르다. 같은 NCAA 안에서도 ECAC, Hockey East, Big Ten, NCHC, CCHA, Atlantic Hockey America 사이에 시즌 일정과 시즌 표본의 결이 다르다. 컨퍼런스 단위 통계를 다른 컨퍼런스에 그대로 옮겨 비교하지 않고, 같은 컨퍼런스 안에서의 흐름을 우선 비교 대상으로 둔다.
한계의 명시
분석에는 늘 한계가 있다. 표본의 크기, 데이터의 결, 무대의 차이, 부상 같은 외부 변수가 한 분석의 결론을 흔든다. 본 매체의 글은 결론을 내릴 때 그 결론의 한계를 함께 짚어둔다. 어떤 변수가 결론에 영향을 미쳤는지를 본문 안에 표시한다.
발행 후에도 한계가 새로 드러나면 본문에 갱신 노트를 추가한다. 한 글의 결론이 시간이 지나 흔들리는 일이 있으면 그 흔들림 자체를 본문에 남긴다. 글이 시간을 통과하면서 더 정확해지는 자리로 굴러가게 한다는 편집 원칙이다.
글의 발행 절차
한 편의 글은 자료 수집, 초안 작성, 검증, 편집, 발행의 다섯 단계를 거친다. 자료 수집 단계에서는 본문에 사용될 모든 통계의 1차 출처가 확정된다. 초안 작성 단계에서는 통계와 본문의 결론이 직접 연결되도록 글의 구조가 정리된다.
검증 단계에서는 본문에 인용된 모든 외부 링크와 통계를 다시 확인한다. 링크의 응답 상태, 인용된 데이터의 본문 일치 여부, 시점 표기의 정확성이 점검된다. 이 단계에서 한 가지라도 어긋남이 있으면 발행이 보류되고 자료 수집 단계로 돌아간다.
편집 단계에서는 글의 톤이 일관되는지, 처음 등장하는 용어가 본문 안에서 풀려 있는지가 검토된다. 발행 후에도 통계의 갱신, 룰의 변화 같은 변동이 생기면 본문 하단에 갱신 노트가 추가된다. 한 편의 글이 시즌과 시즌을 넘어 계속 손이 닿는 자료로 굴러가도록 하는 절차다.
방법론은 한 번 정해서 끝나는 것이 아니라, 시즌과 시즌 사이에 계속 다듬어지는 도구다. 새로운 지표가 등장하면 검토 후 도입하고, 기존 지표의 한계가 드러나면 그 한계를 본문에 같이 적는다. 분석의 정확도는 결국은 이 자기 점검의 누적이 만든다.