반응형

[기초통계학] 7. 통계적 추론(1) 



추론(inference)은 주어진 표본으로부터 모집단의 성격을 알아내고자 하는 것이고, 모수(parameter)는 수치로 표현되는 모집단의 특성, 통계량(statistic)은 표본의 관측값들에 의해 결정되는 양이다. 


평균이 \(\mu\), 분산이 \(\sigma^{2}\)인 모집단에서 크기가 \(n\)인 표본 \(X_{1},\,X_{2},\,...,\,X_{n}\)을 추출했을 때, 이 추출한 표본들의 평균 \(\displaystyle\overline{X}=\frac{1}{n}\sum_{i=1}^{n}{X_{i}}\)에 대한 기댓값과 분산, 표준편차는 다음과 같다.$$\begin{align*}E(\overline{X})&=\frac{1}{n}(E(X_{1})+\cdots+E(X_{n}))=\mu\\ \text{Var}(\overline{X})&=\frac{1}{n^{2}}(\text{Var}(X_{1})+\cdots+\text{Var}(X_{n}))=\frac{\sigma^{2}}{n}\\ \sigma(\overline{X})&=\sqrt{\text{Var}(\overline{X})}=\frac{\sigma}{\sqrt{n}}\end{align*}$$따라서 모평균이 \(\mu\), 모표준편차가 \(\sigma\)인 정규모집단에서 \(n\)개의 표본을 임의로 추출할 때, 그 표본평균 \(\overline{X}\)의 평균은 \(\mu\)이고 표준편차는 \(\displaystyle\frac{\sigma}{\sqrt{n}}\)이다. 


모집단의 분포가 정규분포가 아니면 표본평균 \(\overline{X}\)의 정확한 분포는 모집단의 분포에 따라 다르게 나타나지만 표본의 크기 \(n\)이 큰 경우(보통 30이상)에는 \(\overline{X}\)의 분포는 모집단의 분포와 무관하게 근사적으로 정규분포를 따른다. 


중심극한정리(central limit theorem)


모집단의 평균이 \(\mu\), 분산이 \(\sigma^{2}\)일 때, 임의추출된 표본의 표본평균 \(\overline{X}\)는 표본의 크기 \(n\)이 큰 경우(보통 30 이상) 근사적으로 정규분포를 따르고, 그 평균은 \(\mu\), 표준편차는 \(\displaystyle\frac{\sigma}{\sqrt{n}}\)이다. 이것을 다음과 같이 나타낼 수 있다.$$Z=\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\,\sim\,N(0,\,1)$$통계적 추론(statistical inference)은 표본이 가진 정보를 분석해서 모수에 대한 결론을 유도하고, 모수에 대한 가설의 옳고 그름을 판단하는 것이다. 통계적 추론은 조사를 하는 사람의 관심에 따라 모수의 추정과 모수에 대한 가설검정 이 두 가지 문제로 나눌 수 있다. 

모수의 추정은 미지수인 모수에 대한 추측 또는 추측치를 그 수치화된 정확도와 함께 제시하는 것이고, 모수에 대한 가설검정은 모수에 대한 여러 가설들이 적합한지 적합하지 않은지를 추출된 표본으로부터 판단하는 것이다. 


모수는 모집단의 특성을 나타내는 숫자이고, 모수를 추정하는데는 점추정과 구간추정이 있다. 점추정은 추출된 표본으로부터 모수의 값에 가깝다고 예상되는 하나의 값을 제시하는 것이고, 구간추정은 하나의 값만을 제시하는 것이 아닌 모수를 포함할 것으로 예상되는 적절한 구간을 구하는 것이다.


점추정


확률변수 \(X\)가 특정한 확률분포(정규분포 등등)를 따른다고 하면, 이 확률분포로부터 각각 독립적으로 관측된 \(n\)개의 표본을 확률표본(random sample)이라고 한다. 확률표본 \(X_{1},\,X_{2},\,...,\,X_{n}\)은 확률변수이고 서로 독립이며 각각 \(X\)와 같은 분포를 갖는다.

점추정은 추정하고자 하는 하나의 모수에 대해 \(n\)개의 확률변수로 하나의 통계량을 만들고 주어진 표본으로부터 그 값을 계산해서 하나의 수치를 제시하려고 하는 것이다. 이처럼 모수를 추정하기 위해 만들어진 통계량을 추정량(estimator), 주어진 관측값으로부터 계산된 추정량의 값을 추정치(estimate)라고 한다. 

가장 많이 사용되는 추정량에는 모평균이 \(\mu\), 모분산이 \(\sigma^{2}\)일 때 다음과 같이 정의되는 표본평균 \(\displaystyle\overline{X}=\frac{1}{n}\sum_{i=1}^{n}{X_{i}}\)에 대한 기댓값 \(E(\overline{X})\)와 표준편차 \(\sigma(\overline{X})\)이다.$$E(\overline{X})=\frac{1}{n}\cdot n\mu=\mu,\,\sigma(\overline{X})=\sqrt{\text{Var}(\overline{X})}=\sqrt{\frac{1}{n^{2}}\cdot n\sigma^{2}}=\frac{\sigma}{\sqrt{n}}$$따라서 \(\overline{X}\)를 가지고 \(\mu\)를 추정할 때 \(n\)이 클 수록 더욱 정확히 추정할 수 있다. 그러나 일반적으로 모표준편차가 주어지지 않은 경우가 많고, 이 경우는 모표준편차 \(\sigma\)를 표본표준편차 \(S\)로 대체할 수 있다.$$S=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}{(X_{i}-\overline{X})^{2}}}$$구간추정


구간추정은 점추정과 달리 하나의 수치를 구하는 것이 아니라 추정량의 분포를 이용해 표본으로부터 모수 값을 포함할 것으로 예상되는 구간을 구해 제시하는 것이고, 이때 제시되는 구간을 신뢰구간(confidence interval)이라고 한다. 어느 표본에서 계산되더라도 항상 모평균을 포함하도록 만들어진 신뢰구간은 확실하지만 신뢰구간의 길이가 상당히 길어서 모수에 대한 정보를 얻기 어렵다. 따라서 모평균에 대한 정확한 정보를 얻기 위해서는 신뢰구간을 줄여야 한다.

신뢰구간이 모수를 포함할 확률을 1보다 작은 일정한 수준에서 유지시키고 통상적으로 모수를 포함할 확률을 90%, 95%, 99%등으로 사용하는데 이 확률을 신뢰수준(level of confidence)이라고 한다.    

모집단이 정규분포를 따르고 모평균 \(\mu\)를 모르고, 모표준편차 \(\sigma\)를 알 때 \(\overline{X}\)의 분포는 평균이 \(\mu\)이고 표준편차가 \(\displaystyle\frac{\sigma}{\sqrt{n}}\)인 정규분포를 따른다. 따라서 표준화된 표본평균 \(\displaystyle\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\)의 분포는 표준정규분포를 따르고 다음의 식이 성립한다.$$P\left(\left|\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\right|<z_{\frac{\alpha}{2}}\right)=1-\alpha$$여기서 \(z_{\frac{\alpha}{2}}\)는 표준정규분포에서 상위 \(\displaystyle\frac{\alpha}{2}\)의 확률을 주는 값으로 \(\alpha=0.05\)인 경우, \(z_{0.025}=1.96\)이다. 위의 확률에서 괄호 안 부등식을 풀면$$P\left(\overline{X}-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}<\mu<\overline{X}+z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right)=1-\alpha$$이므로 따라서 구간 \(\displaystyle\left(\overline{X}-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\,\overline{X}+z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right)\)이 \(\mu\)를 포함할 확률은 \(1-\alpha\)이고 따라서 모집단이 정규분포를 따르고 표준편차 \(\sigma\)가 알려져 있는 경우, \(\mu\)에 대한 \(100(1-\alpha)\text{%}\)신뢰구간은 다음과 같다.$$\left(\overline{X}-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\,\overline{X}+z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right)$$이때 \(\displaystyle z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\)를 \(100(1-\alpha)\text{%}\)오차범위(error margin)라고 한다. 만약 모표준편차 \(\sigma\)를 모르지만 \(n\)이 충분히 크면 표본표준편차 \(S\)로 대체할 수 있고, 이 경우의 \(\mu\)에 대한 \(100(1-\alpha)\text{%}\)신뢰구간은 다음과 같다.$$\left(\overline{X}-z_{\frac{\alpha}{2}}\frac{S}{\sqrt{n}},\,\overline{X}+z_{\frac{\alpha}{2}}\frac{S}{\sqrt{n}}\right)$$참고자료:

통계학-엑셀을 이용한 분석, 김진경 외 5인, 자유아카데미

통계학개론 8판, 이용구, 김삼용, 율곡출판사 

반응형
Posted by skywalker222