반응형

[수리통계학] 9. 표본분포, 중심극한정리



관심의 대상이 되는 모든 개체들의 집합 또는 표본이 추출된 측정값들의 집합을 모집단(population)이라고 한다. 모집단에서 측정값을 확률변수 \(X\)로 나타내고, 모집단의 특성을 \(X\)의 분포(distribution)로 나타낸다(따라서 모집단과 분포는 같은 의미로 사용된다). 모집단 전체를 조사하는 것은 현실적으로 어렵기 때문에 모집단에서 일부를 추출해서 조사를 하는데 추출된 측정값들의 집합을 표본(sample)이라고 한다. 여기서는 주로 유한하지만 큰 사이즈 때문에 무한모집단(infinite population)으로 다루어 지는 모집단에 대해서 다룰 것이다.

모집단을 확률변수 \(X\)의 분포로 가정할 수 있기 때문에 모집단에서 추출된 표본들을 확률변수 \(X_{1},\,X_{2},\,\cdots,\,X_{n}\)으로 나타낼 수 있다. 이러한 표본들은 서로 독립이고 동일한 분포를 갖기 때문에 이 표본들을 확률표본(random sample)이라고 한다.

확률표본 \(X_{1},\,X_{2},\,\cdots,\,X_{n}\)의 결합밀도함수가 \(f_{X_{1},\,X_{2},\,\cdots,\,X_{n}}(x_{1},\,x_{2},\,\cdots,\,x_{n})\)이고 \(X_{1},\,X_{2},\,\cdots,\,X_{n}\)의 확률밀도함수가 각각 \(f_{X_{1}}(x_{1}),\,f_{X_{2}}(x_{2}),\,\cdots,\,f_{X_{n}}(x_{n})\)일 때, 다음의 식이 성립한다.$$f_{X_{1},\,X_{2},\,\cdots,\,X_{n}}(x_{1},\,x_{2},\,\cdots,\,x_{n})=f_{X_{1}}(x_{1})f_{X_{2}}(x_{2})\cdots f_{X_{n}}(x_{n})=\prod_{i=1}^{n}{f_{X_{i}}(x_{i})}$$

모집단 또는 분포의 특성을 결정하는 상수를 모수(parameter)라고 한다. 예를들어 평균, 분산, 표준편차 등은 모두 모수들이다. 이런 모수들의 값을 추정하기 위해 모집단에서 표본을 추출해서 추출한 표본을 이용한 공식으로 모수를 추정한다. 예를들어 모집단에서 추출한 확률표본 \(X_{1},\,X_{2},\,\cdots,\,X_{n}\)에 대한 표본평균(sample mean), 표본분산(sample variance)$$\overline{X}=\frac{1}{n}\sum_{i=1}^{n}{X_{i}},\,S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}{(X_{i}-\overline{X})^{2}}$$의 값을 구해서 모수인 모평균 \(\mu\)와 모분산 \(\sigma^{2}\)를 추정한다. 앞의 표본평균 \(\overline{X}\)와 표본분산 \(S^{2}\)는 확률표본의 함수로써 확률표본의 값이 정해지면 이 함수들의 값도 정해진다. 이와 같은 관측가능(observable)한 확률표본의 함수를 통계량(statistics)이라고 한다. 여기서 관측가능의 의미는 미지의 모수가 포함되지 않은 것을 뜻한다. 예를들어 \(\overline{X}\)는 관측가능하나 \(W=X_{1}+X_{2}-2\mu\)는 모평균 \(\mu\)의 값을 모르기 때문에 관측가능하지 않다.

표본평균 \(\overline{X}\)는 모평균 \(\mu\)를 추정하는데 사용되고, 표본분산 \(S^{2}\)는 모분산 \(\sigma^{2}\)를 추정하는데 사용된다. 모수의 추정에 사용되는 통계량을 추정량(estimator)이라고 하고 추정량의 측정값을 추정값(estimate)이라고 한다.


통계량은 확률변수이기 때문에 표본에 따라 값이 변하고 따라서 이들의 분포를 표본분포(sampling distribution)라고 한다.


평균이 \(\mu\)이고 분산이 \(\sigma^{2}\)인 모집단에서 추출된 확률표본 \(X_{1},\,X_{2},\,\cdots,\,X_{n}\)의 표본평균 \(\overline{X}\)에 대하여 \(\displaystyle E(\overline{X})=\mu,\,\text{Var}(\overline{X})=\frac{\sigma^{2}}{n}\)이다. 왜냐햐면$$\begin{align*}E(\overline{X})&=\frac{1}{n}\sum_{i=1}^{n}{E(X_{i})}=\frac{1}{n}(n\mu)=\mu\\ \text{Var}(\overline{X})&=\frac{1}{n^{2}}\sum_{i=1}^{n}{\text{Var}(X_{i})}=\frac{1}{n^{2}}(n\sigma^{2})=\frac{\sigma^{2}}{n}\end{align*}$$이기 때문이다.


대수의 법칙(law of large numbers)


임의의 \(c>0\)에 대하여 다음의 부등식이 성립한다.$$P(\mu-c\leq\overline{X}\leq\mu+c)\geq1-\frac{\sigma^{2}}{nc^{2}}$$이 정리의 증명은 체비셰프 부등식에서 \(k\sigma=c\)인 경우이다. 


중심극한정리(central limit theorem)


평균이 \(\mu\)이고 분산이 \(\sigma^{2}\)인 모집단에서 추출된 확률표본 \(X_{1},\,X_{2},\,\cdots,\,X_{n}\)에 대하여 \(n\,\rightarrow\,\infty\)일 때 확률변수 \(\displaystyle Z=\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\)는 표준정규분포를 따른다.

증명: 적률생성함수의 성질로부터$$M_{Z}(t)=e^{-\frac{\sqrt{n}\mu t}{\sigma}}M_{\overline{X}}\left(\frac{\sqrt{n}t}{\sigma}=e^{-\frac{\sqrt{n}\mu t}{\sigma}}M_{n\overline{X}}\left(\frac{t}{\sigma\sqrt{n}}\right)\right)$$이고 \(\displaystyle n\overline{X}=\sum_{i=1}^{n}{X_{i}}\)이므로$$\begin{align*}M_{Z}(t)&=e^{-\frac{\sqrt{n}\mu t}{\sigma}}M_{X_{1}}\left(\frac{t}{\sigma\sqrt{n}}\right)\cdots M_{X_{n}}\left(\frac{t}{\sigma\sqrt{n}}\right)\\&=e^{-\frac{\sqrt{n}\mu t}{\sigma}}\left\{M_{\overline{X}}\left(\frac{t}{\sigma\sqrt{n}}\right)\right\}\end{align*}$$이고$$\ln M_{Z}(t)=-\frac{\sqrt{n}\mu t}{\sigma}+n\ln M_{\overline{X}}\left(\frac{t}{\sigma\sqrt{n}}\right)$$이다. \(\displaystyle M_{\overline{X}}\left(\frac{t}{\sigma\sqrt{n}}\right)\)의 \(t\)에 대한 매클로린 급수는$$M_{\overline{X}}\left(\frac{t}{\sigma\sqrt{n}}\right)=1+\frac{\mu_{1}'}{1!}\frac{t}{\sigma\sqrt{n}}+\frac{\mu_{2}'}{2!}\left(\frac{t}{\sigma\sqrt{n}}\right)^{2}+\frac{\mu_{3}'}{3!}\left(\frac{t}{\sigma\sqrt{n}}\right)^{2}+\cdots$$(\(\mu_{1}',\,\mu_{2}',\,\mu_{3}'\)은 모집단 분포(원래 확률변수 \(X_{i}\)의 분포)의 원점에 대한 적률)이고$$\ln(1+x)=x-\frac{1}{2}x^{2}+\frac{1}{3}x^{3}+\cdots$$이므로$$\begin{align*}\ln M_{Z}(t)&=-\frac{\sqrt{n}\mu t}{\sigma}+n\left\{\left(\frac{\mu_{1}'t}{\sigma\sqrt{n}}+\frac{\mu_{2}'t^{2}}{2\sigma^{2}n}+\frac{\mu_{3}'t^{3}}{6\sigma^{3}n\sqrt{n}}+\cdots\right)-\frac{1}{2}\left(\frac{\mu_{1}'t}{\sigma\sqrt{n}}+\frac{\mu_{2}'t^{2}}{2\sigma^{2}n}+\frac{\mu_{3}'t^{3}}{3\sigma^{3}n\sqrt{n}}+\cdots\right)^{2}\\+\frac{1}{3}\left(\frac{\mu_{1}'t}{\sigma\sqrt{n}}+\frac{\mu_{2}'t^{2}}{2\sigma^{2}n}+\frac{\mu_{3}'t^{3}}{6\sigma^{3}n\sqrt{n}}+\cdots\right)^{3}-\cdots\right\}\\&=\left(-\frac{\sqrt{n}\mu}{\sigma}+\frac{\sqrt{n}\mu_{1}'}{\sigma}\right)t+\left(\frac{\mu_{2}'}{2\sigma^{2}}-\frac{(\mu_{1}')^{2}}{2\sigma^{2}}\right)t^{2}+\left(\frac{\mu_{3}'}{6\sigma^{3}\sqrt{n}}-\frac{\mu_{1}'\mu_{2}'}{2\sigma^{3}\sqrt{n}}+\frac{(\mu_{1}')^{3}}{3\sigma^{3}\sqrt{n}}\right)t^{3}+\cdots\\&=\frac{1}{2}t^{2}+\left(\frac{\mu_{3}'}{6}-\frac{\mu_{1}'\mu_{2}'}{2}+\frac{(\mu_{1}')^{3}}{6}\right)\frac{t^{3}}{\sigma^{3}\sqrt{n}}+\cdots\,(\because\,\mu_{1}'=\mu,\,\mu_{2}'-\mu_{1}'=\sigma^{2})\end{align*}$$이고 \(\displaystyle\lim_{n\,\rightarrow\,\infty}{\ln M_{Z}(t)}=\frac{1}{2}t^{2}\)이므로$$\lim_{n\,\rightarrow\,\infty}{M_{Z}(t)}=e^{\frac{1}{2}t^{2}}$$이고 이것은 표준정규분포의 적률생성함수이다.


중심극한정리의 의미는 \(n\)이 클 때 \(\overline{X}\)의 분포를 평균이 \(\mu\)이고 분산이 \(\displaystyle\frac{\sigma^{2}}{n}\)인 정규분포로 근사시키는 것을 의미한다. 실제로 중심극한정리는 모집단의 분포에 관계없이 \(n\geq30\)일 때 적용할 수 있고, \(n<30\)이면 적용할 수 없다.          

 

중심극한정리로부터 다음 식이 성립한다.$$\lim_{n\,\rightarrow\,\infty}{P\left(\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\leq z\right)}=\Phi(z)$$여기서 \(\Phi(z)\)는 표준정규분포의 누적분포함수이다.


어느 음료수 자판기의 판매되는 음료수의 양은 평균이 200mL, 표준편차가 15mL이다. 이 자판기에서 36개의 음료수를 추출했을 때, 이 확률표본들의 평균 \(\overline{X}\)가 최소 204mL가 될 확률을 구하면 표본의 수가 36이므로 중심극한정리를 적용할 수 있고$$E(\overline{X})=200,\,\text{Var}(\overline{X})=\frac{15}{\sqrt{36}}=2.5$$이므로 중심극한정리에 의해$$\begin{align*}P(\overline{X}\geq204)&=P\left(Z\geq\frac{204-200}{2.5}\right)\\&=P(Z\geq1.6)\\&=0.5000-0.4452\\&=0.0548\end{align*}$$이다.


참고자료:

John E Freund's Mathematical Statistics with Applications 8th edition, Irwon Miller, Marylees Miller, Pearson

수리통계학, 허문열, 송문섭, 박영사  

반응형
Posted by skywalker222