반응형

[기초통계학] 2. 기술통계



앞에서 기술통계가 숫자, 그래프로 통계량을 나타내는 것이라고 했었다. 여기서는 기술통계를 다룰 것이다. 


통계분석(statistical analysis)은 특정 집단을 대상으로 자료를 수집해 그 집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정(통계적 추론, statistical inference)을 하는 과정이다. 통계적 추론은 모집단에 대한 의사결정을 하는 것인데 그 집단의 모수를 추측하는 추정(estimation)과 그 집단에 대한 특정 가설을 설정한 다음 그 가설의 채택 여부를 결정하는 가설검정(hypothesis test)이 있다. 

통계분석을 할 때 자료는 대상집단의 특성을 잘 대표할 수 있도록 수집되어야 한다. 


대상집단 전체를 조사하는 방법을 총조사(census)라고 하는데, 총조사는 상당한 시간과 비용이 소모되기 때문에 그 집단의 일부를 관측해 그 집단 전체에 대한 정보를 구하는 표본조사를 해서 정보를 구한다. 

표본조사에서 조사하고자 하는 집단을 모집단(population), 모집단을 구성하는 개체를 원소(element), 조사하기 위해 뽑은 모집단의 일부 원소들을 표본(sample), 표본으로부터 구하고자 하는 모집단의 특성값을 모수(parameter)라고 한다.

다음은 표본조사를 할 때 참고해야 할 사항들이다.

1. 표본이 합리적으로 추출되어야 한다.

2. 질문의 형식이 특정 사항을 선호되도록 유도되어서는 안된다. 

3. 조사방법에 따라서도 조사결과에 차이가 있을 수 있다. 

4. 표본조사 시점에 대한 고려를 해야 한다. 

5. 표본조사 결과를 이해할 때 나타난 결과에 대해 절대적으로 신뢰를 해선 안된다.


자료를 요약할 때 막대그래프, 원그래프, 히스토그램, 줄기와 잎 그림, 상자그림 등이 있다. 


막대그래프는 질적 자료에서 각 범주에 속한 관측도수를 막대로 나타내는 방법으로 막대의 크기에 의해 상대적인 도수의 크기를 비교할 수 있다.

원그래프는 각 범주의 관측도수의 상대적인 크기를 파이(원)를 분할한 형태로 표현하는 방법이다.


도수분포표(frequency table)는 숫자로 관측된 자료를 일정한 구간으로 나눈 후 각 구간에 속한 개수들의 수를 나타낸 표이고, 히스토그램(histogram)은 도수분포표에서 각 구간의 관측도수를 기둥 형태로 표현해 그 크기를 비교할 수 있도록 하는 자료의 표현방법으로 현속형 자료에서 사용한다.(막대그래프는 범주형 자료에서 사용한다)  

다음은 표본으로 추출된 150명의 키에 대한 도수분포표이다.

위 표에서 키에 대한 히스토그램은 다음과 같다. 여기서 계급의 가운데 값을 그 계급의 계급값이라 하고, 하한값과 상한값의 평균으로 정의한다.

도수분포표와 히스토그램 작성방법

1. 관측값 중에서 가장 작은 값과 가장 큰 값을 찾아 두 값 사이의 구간을 5~20개(*앞의 도수분포표와 히스토그램은 4명으로 해놨다)의 소구간으로 나누는데 이 소구간들은 다음 조건들을 만족해야 한다.

(a) 각 관측값들은 하나의 소구간에만 속해야 한다.

(b) 구간의 경계선에는 관측값이 없어야 한다.

(c) 소구간의 수에 대한 원칙은 없으나 관측값의 수에 따라 적절하게 선택한다. 

2. 각 소구간에 속한 관측값의 수에 대한 상대도수를 계산하는데 상대도수는 각 소구간의 관측도수를 전체 관측값의 수로 나눈 비율이다.


줄기-잎 그림(stem-and-leaf plot)은 숫자로 관측된 자료를 정리하는 방법으로 히스토그램과 비슷하나 히스토그램으로 얻을 수 없는 정보인 자료의 최솟값, 최댓값, 각 구간 내부의 자료분포에 대한 정확한 정보를 알 수 있다.    

다음은 30명의 인터넷 사용시간을 나타낸 것이다.

28 12 26 7 35 38 22 47 18 27 

16 24 37 26 44 13 5 33 11 39

8 56 42 26 23 44 35 31 45 52 

위 자료에 대한 줄기-잎 그림은 다음의 순서를 따라 나타낸다.

1. 10의 자리의 수를 줄기로 하여 크기가 작은 순서대로 세로로 나열한다.

2. 줄기의 오른쪽에 세로를 긋는다.

3. 각 10의 자리의 수에 해당하는 1의 자리의 수를 잎으로 하여 세로줄의 오른쪽에 크기가 작은 순서대로 가로로 나열한다.

줄기 

 

0

1

2

3

4

5

 5 7 8

 1 2 3 6 8

 2 3 4 6 6 6 7 8

 1 3 5 5 7 8 9

 2 4 4 5 7

 2 6 


숫자에 의한 자료의 요약은 자료를 변수로 표현해야 하기 때문에 변수, 통계량, 모수가 무엇인지 알아야 한다. 

변수(variable): 문자를 이용해 자료를 표현하는 방버으로 대문자 \(X,\,Y,\,Z,\,...\)로 나타낸다.

모수(parameter): 자료가 수집된 집단 전체, 즉 모집단을 대표하는 값으로 일반적으로 (규모가 너무 커서) 알려져 있지 않고, 그리스 문자 \(\alpha,\,\beta,\,...\)(평균은 \(\mu\))를 이용하여 나타낸다. 통계학에서 중요한 영역 중 하나가 이 모수에 대해 추정과 검정을 실시하는 것이다.

통계량(statistic): 일반적으로 모집단의 모수는 알려져 있지 않기 때문에 모집단의 일부를 표본으로 관측해 모수를 추정하고, 표본으로부터 얻은 자료의 대표값을 통계량이라 하며, 통계량 중 모수를 추정하는 값을 추정량(estimator)이라고 한다. 


크기가 \(n\)인 표본을 추출해 그 관측값을 \(X\)라고 하면, 첨자를 이용하여 다음과 같이 나타낼 수 있다.$$X_{1},\,...,\,X_{n}$$첨자 \(1,\,...,\,n\)은 각각 표본에 1부터 \(n\)까지 고유번호를 부여할 때의 각 표본이다. 다음과 같이 정의되는 \(\mu\)는 모집단의 평균이고 모평균(population mean)이라고 한다.$$\mu=\frac{1}{n}\sum_{i=1}^{n}{X_{i}}$$이때 \(X_{1}\)은 표본값 중에서 최소이고, \(X_{n}\)은 표본값 중에서 최대이므로 다음이 성립한다.$$\begin{align*}X_{1}&=\min\{X_{1},\,...,\,X_{n}\}\\X_{n}&=\max\{X_{1},\,...,\,X_{n}\}\end{align*}$$평균(mean)은 수량으로 관측된 자료의 중심을 측정하는 통계량으로 관측값들을 모두 더해서 집단 전체의 수로 나눈 산술평균이다. 즉 크기가 \(n\)인 표본의 관측값이 \(X_{1},\,...,\,X_{n}\)일 때 평균 \(\overline{X}\)는 다음과 같다$$\overline{X}=\frac{1}{n}\sum_{i=1}^{n}{X_{i}}$$중위수(median)는 관측값의 크기 순서를 이용해 자료의 중심을 측정하는 통계량으로 자료를 크기 순서로 정리했을 때 가운데에 위치하는 관측값이다. 표본의 크기 \(n\)이 홀수이면 \(\displaystyle\frac{n+1}{2}\)번째 값이 중위수이고, \(n\)이 짝수이면 \(\displaystyle\frac{n}{2}\)번째 순서값과 \(\displaystyle\frac{n}{2}+1\)번째 순서값의 평균을 중위수로 한다.

최빈값은 관측값에서 가장 많이 나온 자료를 분석할 때 대표값으로 이용되고, 도수분포표나 히스토그램에서 도수가 가장 많은 구간을 찾은 다음 그 구간의 중심을 최빈값이라고 한다. 

평균을 \(\overline{X}\), 중위수를 \(\tilde{X}\), 최빈값을 \(M_{0}\)라고 하면, 오른쪽 긴 꼬리 자료에서는 \(M_{0}<\tilde{X}<\overline{X}\), 대칭인 자료에서는 \(\overline{X}=\tilde{X}=M_{0}\), 왼쪽 긴 꼬리 자료에서는 \(\overline{X}<\tilde{X}<M_{0}\)이다.    


자료의 변화량을 측정하는 통계량으로는 범위와 분산이 있다.

범위(range)는 관측된 자료들 중에서 가장 큰 값과 가장 작은 값의 차이이다. 즉 자료 \(\{X_{1},\,...,\,X_{n}\}\)들의 범위를 \(R\)이라고 하면 다음이 성립한다.$$R=\max\{X_{1},\,...,\,X_{n}\}-\min\{X_{1},\,...,\,X_{n}\}$$분산(variance)은 자료의 흩어진 정도를 측정하는 통계량으로 자료 \(\{X_{1},\,...,\,X_{n}\}\)들의 평균을 \(\displaystyle\overline{X}=\frac{1}{n}\sum_{i=1}^{n}{X_{i}}\)라고 할 때 평균과 각 관측값들의 차이$$\{X_{1}-\overline{X},\,...,\,X_{n}-\overline{X}\}$$를 편차(deviation)라 하고, 편차의 합은 0이다. 편차의 제곱의 합$$S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}{(X_{i}-\overline{X})^{2}}$$이 분산이고, 분산의 양의 제곱근 \(S\)를 표준편차(standard deviation)라고 한다. 

분산(또는 표준편차)이 클수록 흩어진 정도가 크고, 작을수록 흩어진 정도가 작다(평균에 몰려있다). 분산을 다음의 식으로 나타낼 수 있다.$$S^{2}=\frac{1}{n-1}\left\{\sum_{i=1}^{n}{X_{i}^{2}}-\frac{1}{n}\left(\sum_{i=1}^{n}{X_{i}}\right)^{2}\right\}$$통계분석에서 자료를 측정하려면 자료를 구하려는 목적이 있어야 하고, 주어진 목적에서 자료를 측정하려고 할 때 다음을 고려해야 한다.

1. 측정된 자료가 주어진 목적에 적합한가 고려해야 한다.

2. 측정결과는 편의(bias, 측정결과가 한쪽으로 편향되어 나타나는 현상)이 없어야 한다. 

3. 측정결과는 신뢰성(reliability, 동일한 대상을 반복측정할 때 측정결과들이 동일하거나 거의 같은 것)이 있어야 한다. 

통계에서 측정은 대상들을 일정한 기준에 의해 관측하는 것으로 관측 방법에 따라 수량적 측정과 질적 측정으로 나뉜다.

1. 명목척도(nominal scale): 측정대상이 어느 집단에 속하는지 분류하는 경우에 사용되는 척도이다.

예: 성별, 출생지, 직업 구분

2. 순서척도(ordinal scale): 측정대상의 특성의 서열관계를 관측하는 척도로 선택사항이 일정한 순서로 되어있다. 

예: 학력, 연령 조사

3. 구간척도(interval scale): 측정대산이 가진 속성의 양을 측정하는 것으로 측정결과가 숫자로 표현되나 속성이 없는 상태인 절대적인 원점(absolute zero)이 없어서 두 관측값 사이의 비율은 아무런 의미가 없다. 

예: 온도의 측정

4. 비율척도(ratio scale): 구간척도가 갖는 특성에 더해 절대적인 원점이 존재하고 두 측정값의 비율이 의미가 있는 척도이다. 

예: 질량, 키, 나이, 상품가격, 판매량 등의 측정


통계분석에서 명목척도와 순서척도로 측정된 자료를 질적 자료(qualitative data), 범주형 자료(categorical data), 이산형 자료(discrete data)라 하고, 구간척도와 비율척도로 측정된 자료를 양적 자료(quantitative data), 연속형 자료(continuous data)라 정의한다. 

연속형 자료는 항상 숫자로 관측되고, 숫자가 의미를 갖는 반면 이산형 자료는 굳이 숫자로 나타낼 필요가 없다.


참고자료:

통계학의 이해 8판, 이용구, 김삼용, 율곡출판사

반응형
Posted by skywalker222