안녕하세요 지식마블입니다.
오늘부터는 데이터분석의 기초가 되는 기본통계 지식에 대해서 공부해보도록 하겠습니다.
#평균 mean과 중간값 median의 차이
평균과 중간값의 차이를 아시나요?
평균은 영어로는 average 또는 mean 이라고 하구요
중간값 또는 중앙값, 또는 중위수라고 하는 것은 median 이라고 합니다.
저는 개념이 중요하니깐, 확 와닿을 수 있도록 중앙값 또는 median이라고 말하겠습니다.
(중위수는 뭔가 말이 어렵잖아요? ㅋ 그래도 알고는 계셔야 다른 사람하고 의사소통할 수 있습니다)
모든 과목이 마찬가지이겠지만,
통계를 공부할 때에도, 계산하는 법도 중요한데, 이걸 어떨 때 왜 쓰느냐, 그래서 이게 뭘 의미하느냐가 더 중요하다고 생각합니다.
왜냐하면, 계산 자체는 요새 너무 툴이 좋아서, 알아서 다 계산해주거든요. 계산기를 들 필요도 없습니다.
그러나, 그 결과갑이 도대체 뭘 의미하는지, 해석의 영역이 더 중요하다는 것을 말씀드리는 것입니다.
자, mean과 median 의 차이를 말씀드리도록 하겠습니다.
평균 mean은 자료 모두 더한 후에 그 전체자료 갯수로 나눈 값을 말하죠.
평균도 산술평균, 기하평균, 조화평균, 가중평균 등 여러 개가 있는데, 그거 다 알면 헷갈리고 골치아프니깐, 지금은 산술평균만 말하겠습니다.
중앙값 median 은 자료를 크기 순으로 쭈~~욱 나래비 세운 다음에, 가장 중앙에 위치하는 값을 말합니다.
여기 이렇게 여러분의 회사에 오직 7명만이 근무하고, 그 7명의 연봉이 아래와 같다고 가정해보죠.
1 | 2,800 |
2 | 3,300 |
3 | 3,300 |
4 | 3,400 |
5 | 3,700 |
6 | 4,000 |
7 | 40,000 |
#평균mean으로 계산했을 때
1번 직원은 연봉이 2800만원이고, 6번 직원까지는 얼추 그래도 비슷하다가, 7번 직원은 연봉이 4억이네요. 갑자기 확 뛰는군요.
그렇다면 여러분 회사 직원의 평균 연봉은 얼마라고 말할 수 있을까요?
우리가 단순히 알고 있는 평균 계산하는 법으로 하면 (2800+3300+....+40000) / 7 을 하면 되겠죠?
이걸 엑셀로 한방에 할 수 있습니다. 바로 average 라는 함수를 이용해서요.
자, 저기 함수입력창에 average라고 쓴 함수 보이시죠? 그리고 그 값에 B열에 값이 있는 범위를 지정해주면 한방에 계산해준답니다. 정말 계산기 필요없죠?
여튼, 다시 본론으로 돌아와서, 우리가 일반적으로 알고 있는 평균의 의미로 계산해보니, 직원 평균 연봉이 8,643만원이 되는군요.
이거 뭔가 억울하지 않나요? 7명 중에 6명이 모두 4천만원 이하로 받고 있는데, 단 한 명의 4억짜리 고액연봉자 때문에 직원 평균연봉이 8643만원이 되어 버렸군요.
나머지 6명은 단 한번도 만져보지 못한 돈인데 말이죠.
#중앙값median으로 계산했을 때
그럼 이걸 median 즉 중앙값으로 구해보면 어떨까요?
median 계산하는 방법은
1. 작은 수에서 큰 수로 먼저 정렬한 다음
2. 수의 총 갯수가 홀수 개인 경우, (n+1)/2 위치에 있는 값을 median 으로 계산합니다.
위의 예에서는 총 7개니깐, (7+1)/2 = 4, 즏 3400만원이 median 이 되겠네요
3. 수이 총 갯수가 짝수 개인 경우엔 가운데 두 수를 더한 다음 2로 나누어서 median 으로 계산합니다.
즉, 만약 총 8개의 데이터가 있다고 치면, 4번 데이터값고 5번데이터값을 더한다음에 2로 나눈다는 소리입니다.
근데 이거 언제하고 있습니까! 골치아프죠? 그래서 엑셀로 한방에 계산해보도록 하겠습니다. 함수 median 을 쓰면 됩니다.
자, 함수를 쓰니, 그냥 한 방에 3400만원이라는 게 나왔네요.
그럼 mean과 median 중 뭐가 현재 직원들의 평균연봉을 더 잘 대표하나요?
mean값인 8643만원인가요? 아니면 median 값인 3400만원인가요?
당연히 median 값인 3400 만원입니다!
제가 여기서 말씀드리고자 하는 것은 mean 이 틀렸다는 게 아닙니다.
통계라는 것은, 그 데이터의 성격, 주어진 조건들을 고려해보았을 때, 어떤 방식으로 통계를 내는 것이 가장 적절한 것이냐 라는 것을 말씀드리기 위해
이러한 예를 들었습니다.
통계가 왜 중요한지 이제 아시겠죠? 그럼 다음 글에서 봐요~ 빠잉~!
'데이터 분석(Data Analysis)' 카테고리의 다른 글
difference between Mean and Median. (0) | 2021.01.24 |
---|---|
가설, 신뢰수준, 유의확률 뜻 (0) | 2020.01.25 |
척도 (0) | 2020.01.19 |
모집단과 표본 (0) | 2020.01.19 |