데이터를 해석할 때 가장 우선시 되는 것은 데이터를 효율적으로 요약하여 특징을 추출하는 것입니다. 데이터를 요약.정리하는 방법은 크게 두가지가 있습니다. 도표나 그래프로 시각화 하는 방법, 또 수치를 활용하는 방법입니다. 도표나 그래프는 데이터가 대략 어떤 방식으로 구성되어 있는지를 확인할 수 있습니다. 수치는 보다 정확하게 데이터를 살펴볼 수 있습니다. 이번엔 도표와 그래프를 살펴보겠습니다. 가장 기본적인 단변량 데이터 요약 방법으로는 도수분포표와 히스토그램이 있습니다.
데이터를 값의 크기에 따라 분류할 때, 각각의 계급에 속하는 데이터 수를 도수라고 합니다. 이를 표로 나타낸 것이 도수분포표입니다. 도수분포표를 살펴볼 때, 미리 알아두어야 할 것이 있습니다. 계급값은 각 계급을 대표하는 수치로 계급의 최고치와 최저치의 딱 중간값입니다. 계급이 1200~1400이라면 계급값은 1300이 되는 것이죠. 또한 각 계급의 도수가 데이터 수에서 차지하는 비율은 상대도수라고 합니다. 상대도수의 총 합은 딱 1이 됩니다. 누적도수는 그 계급까지 누적된 도수를 모두 더한 값입니다. 계급의 누적도수 값은 데이터 수의 총합과 일치합니다. 도수가 최대가 되는 계급은 데이터 분포의 중심을 이루는 계급라고 볼 수 있습니다. 이 계급의 계급값을 최빈값이라고 합니다. 가장 적은 값이 아닌 가장 많이 나오는 값 이라는 뜻입니다.
히스토그램은 도수분포표를 막그래프로 나타낸 것입니다. 히스토그램을 볼 때는 꼭대기 개수, 중심의 위치, 흩어진 정도, 형상, 이상점의 5가지를 중심으로 살펴봅니다. 이때 길이가 가장 긴 막대(최빈값)의 분포를 중심으로 잡고 흩어진 정도를 확인합니다. 꼭대기의 개수가 두개 이상이라면, 해석할 때 주의가 필요합니다. 어느 집단을 기준으로 삼고 봐야하는지, 따로 구분해서 봐야하는지, 해석은 어떻게 해야하는지 등 여러 측면에서 고려해야 합니다. 데이터가 왼쪽이 높고 오른쪽으로 갈수록 완만해진다면, 이를 오른쪽으로 꼬인 분포라고 합니다. 오른쪽으로 꼬인 분포는 평균값이 최빈값보다 크기 때문에 주의해야 합니다.