도구상자FREE ONLINE TOOLS
← 가이드 목록

평균·중앙값·표준편차 — 기초 통계 읽는 법

"평균 연봉 6천만 원"이라는 기사를 보고 '나만 적게 버나' 싶었던 적이 있나요? 사실 그 평균은 극소수 고소득자가 끌어올린 숫자일 수 있습니다. 평균·중앙값·최빈값·표준편차, 이 네 가지만 구분할 줄 알아도 통계 기사에 속지 않습니다.

평균·중앙값·최빈값

데이터의 '가운데'를 나타내는 대표값에는 세 종류가 있고, 같은 데이터에서도 서로 다른 값이 나옵니다.

대표값구하는 법특징
평균(산술평균)전부 더해서 개수로 나눔이상치에 크게 흔들림
중앙값크기순 정렬 후 한가운데 값이상치에 거의 영향 없음
최빈값가장 자주 나오는 값숫자가 아닌 데이터에도 사용

예를 들어 [3, 4, 5, 6, 82]라는 다섯 값에서 평균은 20이지만, 한가운데에 있는 중앙값은 5입니다. 82라는 한 값이 평균만 멀리 끌어당긴 것입니다.

분산·표준편차 — 흩어진 정도

대표값이 같아도 데이터의 '느낌'은 전혀 다를 수 있습니다. [50, 50, 50]과 [10, 50, 90]은 평균이 똑같이 50이지만, 앞쪽은 한 점에 모여 있고 뒤쪽은 넓게 퍼져 있죠. 이 '퍼진 정도'를 재는 것이 분산과 표준편차입니다.

  • 편차 — 각 값이 평균에서 얼마나 떨어졌는지(값 − 평균).
  • 분산 — 편차를 제곱해 평균낸 값. 제곱하므로 단위가 원래 값의 제곱이 됩니다.
  • 표준편차 — 분산에 제곱근을 씌워 원래 단위로 되돌린 값. 실무에서 가장 많이 보는 흩어짐 지표입니다.
핵심: 표준편차가 작으면 값들이 평균 가까이 옹기종기 모여 있어 안정적이고, 크면 들쭉날쭉합니다. "평균 점수는 같은데 우리 반이 더 고르다"는 말은 곧 표준편차가 작다는 뜻입니다.

언제 중앙값을 봐야 하나

소득, 집값, 연봉처럼 일부 아주 큰 값이 섞이는 데이터에서는 평균이 실제 다수의 형편보다 부풀려집니다. 이럴 때는 중앙값이 '한가운데 사람'의 상태를 더 정직하게 보여줍니다. 그래서 정부 통계가 소득을 발표할 때 평균소득과 함께 '중위소득'을 강조하는 것입니다.

  • 소득·자산·집값 — 극단적 부유층 때문에 평균이 위로 쏠림 → 중앙값.
  • 시험 점수·키·몸무게 — 값이 비교적 고르게 모여 → 평균으로 충분.
  • 가장 흔한 항목 고르기 — 인기 사이즈·메뉴 → 최빈값.

데이터 읽는 함정

  1. 평균만 보는 함정 — 평균만 제시된 숫자는 분포 모양을 숨깁니다. 가능하면 중앙값·표준편차도 함께 확인하세요.
  2. 표본이 너무 적은 함정 — 단 몇 개의 데이터로 낸 평균은 한두 값만 바뀌어도 크게 흔들립니다.
  3. 비율·퍼센트 착시 — "두 배 증가"가 1건→2건일 수도 있습니다. 기준값과 함께 읽어야 합니다.
통계 계산기숫자 붙여넣으면 평균·중앙값·분산·표준편차 한 번에 계산하기 →
자주 묻는 질문
Q. 평균과 중앙값 중 무엇을 봐야 하나요?

값들이 한쪽으로 치우쳐 있거나 유난히 큰(작은) 값이 섞여 있으면 중앙값이 더 정확합니다. 소득·집값·연봉처럼 극소수의 큰 값이 평균을 위로 끌어올리는 데이터가 대표적입니다. 반대로 시험 점수처럼 값들이 비교적 고르게 모여 있으면 평균이 전체를 잘 요약합니다. 가장 안전한 방법은 평균과 중앙값을 나란히 보고, 둘이 크게 벌어지면 분포가 한쪽으로 쏠려 있다고 의심하는 것입니다.

Q. 표준편차는 정확히 무엇을 뜻하나요?

표준편차는 값들이 평균에서 평균적으로 얼마나 떨어져 있는지, 즉 '흩어진 정도'를 한 숫자로 나타낸 것입니다. 표준편차가 작으면 값들이 평균 가까이 옹기종기 모여 있고, 크면 넓게 퍼져 있다는 뜻입니다. 분산은 편차를 제곱해 더한 평균이라 단위가 원래 값의 제곱이 되는데, 거기에 제곱근을 씌워 원래 단위로 되돌린 것이 표준편차입니다. 그래서 평균이 같아도 표준편차가 다르면 데이터의 안정성이 전혀 다릅니다.

Q. 최빈값은 언제 쓰나요?

최빈값은 가장 자주 나타나는 값으로, 숫자가 아니거나 평균을 계산할 수 없는 데이터에서 특히 쓸모가 있습니다. 가장 많이 팔린 옷 사이즈, 가장 인기 있는 메뉴, 설문에서 가장 많이 나온 응답처럼 '대표 항목'을 고를 때 적합합니다. 한 데이터에 최빈값이 둘 이상 나올 수도 있고, 모든 값이 한 번씩만 나오면 최빈값이 없을 수도 있습니다. 평균·중앙값과 함께 보면 분포의 모양을 더 입체적으로 이해할 수 있습니다.

함께 보면 좋은 가이드