반응형

[금융통계학] 5. 표본통계량의 분포



모집단(population)은 조사하려는 대상 전체이다. 모집단의 확률분포를 파악하는 것이 주 목적이고, 모집단의 모수(parameter)(평균/기댓값, 분산(표준편차))는 모집단으로부터 구할 수 있으나 모수의 크기가 너무 크기 때문에 모집단의 일부인 표본(sample)을 임의로 추출해서 그 표본을 조사해서 모수의 구체적인 값을 추정한다.

표본으로부터 통계량을 구하기 위한 식(함수)을 통계량(statistic)이라고 한다. 예를 들어서 표본평균, 표본비율과 표본분산은 통계량이다.

모집단으로부터 추출한 표본 \(X_{1},\,\cdots,\,X_{n}\)에 대하여

표본평균: \(\displaystyle\overline{X}=\frac{1}{n}\sum_{i=1}^{n}{X_{i}}\)

표본분산: \(\displaystyle S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}{(X_{i}-\overline{X})^{2}}\)


평균이 \(\mu\)이고 표준편차가 \(\sigma\)인 정규분포를 따르는 모집단에서 추출한 표본 \(X_{1},\,\cdots,\,X_{n}\)의 표본평균 \(\overline{X}\)에 대하여$$\begin{align*}E(\overline{X})&=\frac{1}{n}(n\mu)=\mu\\ \text{Var}(\overline{X})&=\frac{1}{n^{2}}(n\sigma^{2})=\frac{\sigma^{2}}{n}\end{align*}$$이므로 \(\displaystyle\overline{X}\,\sim\,N\left(\mu,\,\frac{\sigma^{2}}{n}\right)\)이고, \(\displaystyle\frac{\overline{X}-\mu}{\displaystyle\frac{\sigma}{\sqrt{n}}}\,\sim\,N(0,\,1^{2})\)이다.


일반적으로 모집단의 분산 \(\sigma^{2}\)를 알 수 없는 경우가 많다. 이 경우는 모분산 대신 표본분산 \(S^{2}\)으로 대치해서 사용할 수 있고, 이때 \(\displaystyle\frac{\overline{X}-\mu}{\displaystyle\frac{S}{\sqrt{n}}}\,\sim\,t(n-1)\)이다. 이것은 \(\displaystyle\frac{\overline{X}-\mu}{\displaystyle\frac{S}{\sqrt{n}}}\)이 자유도(degree of freedom)가 \(n-1\)인 t분포(t-distribution)를 따른다는 것을 뜻한다.

(t분포의 확률밀도함수)


여기서 자유도는 어떤 통계량이 \(n\)개의 표본에 의해 만들어 졌다고 할 때, 자유롭게 값을 변동시킬 수 있는 표본의 갯수이다. 표본평균 \(\displaystyle\overline{X}=\sum_{i=1}^{n}{X_{i}}\)의 경우, \(n\)개의 표본 \(X_{1},\,\cdots,\,X_{n}\)에 의해 값이 결정되므로 자유도가 \(n\)이고, 표본분산 \(\displaystyle S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}{(X_{i}-\overline{X})^{2}}\)의 경우, 표본평균 \(\overline{X}\)를 알아야 구할 수 있다. 이것은 \(X_{1}+\cdots+X_{n}\)의 값이 주어졌으므로 \(X_{1},\,\cdots,\,X_{n}\) 중에서 \(n-1\)개의 값만 알면 나머지 하나는 \(\overline{X}\)에 의해 결정된다. 그렇기 때문에 \(S^{2}\)는 \(n-1\)의 자유도를 갖는다.


\(Z\,\sim\,N(0,\,1^{2})\)일 때, \(Z^{2}\)는 자유도가 \(1\)인 카이제곱분포(chi-square distribution)를 따른다고 하고 \(Z^{2}\,\sim\,\chi^{2}(1)\)로 나타낸다. \(\displaystyle Z=\frac{X_{i}-\mu}{\sigma}\)이므로 다음 두 성질들이 성립한다.$$\begin{align*}\sum_{i=1}^{n}{\left(\frac{X_{i}-\mu}{\sigma}\right)^{2}}\,\sim\,\chi^{2}(n)\\ \frac{(n-1)S^{2}}{\sigma^{2}}\,\sim\,\chi^{2}(n-1)\end{align*}$$

(카이제곱분포의 확률밀도함수)


평균이 \(\mu\)이고 분산이 \(\sigma^{2}\)인 정규분포를 따르는 모집단에서 추출한 표본의 평균 \(\overline{X}\)에 대해 \(\displaystyle\overline{X}\,\sim\,N\left(\mu,\,\frac{\sigma^{2}}{n}\right)\)이다.

대수의 법칙(law of large numbers)은 \(n\,\rightarrow\,\infty\)일 때, 표본평균 \(\overline{X}\)가 \(\mu\)로 확률적으로 수렴함을 뜻한다. 이와 유사하게 표본분산 \(S^{2}\)도 \(n\,\rightarrow\,\infty\)일 때, \(\sigma^{2}\)로 확률적으로 수렴한다.


모집단이 정규분포를 따른다면, 그 모집단에서 추출된 표본도 정규분포를 따르지만 일반적으로 조사하려는 모집단이 정규분포를 따르지 않을 수 있거나 따르는지 알기가 어렵다. 하지만 표본의 수 \(n\)이 충분히 크면(\(n=30\)), 표본평균은 정규분포를 따른다. 이것을 중심극한정리(central limit theorem)라고 한다.

이항분포에서 \(n\)이 충분히 커지면 정규분포로 근사할 수 있고, t분포 또한 \(n\)(자유도)이 크면 정규분포로 근사할 수 있다.


관심 대상인 모수의 식을 추정량(estimator)이라 하고, 추정량에 표본(자료)을 대입하여 얻은 추정량의 값을 추정값(estimate)이라고 한다.

표본을 통해 모집단을 추론하는 것을 통계적 추론이라 하고, 통계적 추론에는 추정과 (가설)검정이 있다.

추정은 표본으로부터 모수의 값을 추론하는 것인데 점추정(point estimation)과 구간추정(interval estimation)으로 나눌 수 있다. 점추정은 모수에 대해 하나의 추정값만 제시하는 것이고, 구간추정은 모수가 포함되어있다고 기대되는 구간으로 모수를 추정하는 것이다. 

검정은 모집단에 대한 주장의 타당성을 표본을 통해 점검하는 것으로 표본에서 나타나는 증거가 우연인지 아니면 실제로 존재하는지 점검하는 것이다.


모평균 \(\mu\)의 점추정량을 표본평균 \(\overline{X}\)로, 모분산 \(\sigma^{2}\)의 점추정량을 표본분산 \(S^{2}\)로 사용한다. 점추정값은 이 점추정량에 표본을 대입해서 얻은 값이다.

구간추정은 추정하려는 모수가 포함되는 신뢰구간(confidence inteval)을 구해서 해당 모수를 추정하는 방법이다.


\(X_{1},\,\cdots,\,X_{n}\,\sim\,N(\mu,\,\sigma^{2})\)일 때, 중심극한정리에 의해 \(\overline{X}\,\sim\,N(\mu,\,\sigma^{2})\)이고$$\frac{\overline{X}-\mu}{\displaystyle\frac{\sigma}{\sqrt{n}}}\,\sim\,N(0,\,1^{2})$$이다. 이 식으로부터 아래 그림의 \(1-\alpha\)부분에 해당하는 확률은

$$\begin{align*}1-\alpha&=P\left(\left|\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\right|<z_{\frac{\alpha}{2}}\right)\\&=P\left(-z_{\frac{\alpha}{2}}<\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}<z_{\frac{\alpha}{2}}\right)\\&=P\left(\overline{X}-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}<\mu<\overline{X}+z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right)\end{align*}$$이고, 이것은 구간 \(\displaystyle\left(\overline{X}-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\,\overline{X}+z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right)\)이 모수 \(\mu\)를 포함할 확률이 \(1-\alpha\)라는 것을 뜻하고, 이 구간을 \(\mu\)에 대한 신뢰도 \(100(1-\alpha)\text{%}\)의 신뢰구간이라고 한다.  

모분산을 모르는 경우는 표본분산을 이용하여 신뢰구간을 구할 수 있다. 이때$$\frac{\overline{X}-\mu}{\displaystyle\frac{S}{\sqrt{n}}}\,\sim\,t_{n-1},\,S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}{(X_{i}-\overline{X})^{2}}$$이므로, 이 경우 \(\mu\)에 대한 \(100(1-\alpha)\text{%}\)의 신뢰구간은 앞의 과정과 같은 방법을 이용하여 구할 수 있다.$$\begin{align*}1-\alpha&=P\left(\left|\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}\right|<t_{\frac{\alpha}{2}}\right)\\&=P\left(-t_{\frac{\alpha}{2}<\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}}<t_{\frac{\alpha}{2}}\right)\\&=P\left(\overline{X}-t_{\frac{\alpha}{2}}\frac{S}{\sqrt{n}}<\mu<\overline{X}+t_{\frac{\alpha}{2}}\frac{S}{\sqrt{n}}\right)\end{align*}$$이므로 구간 \(\displaystyle\left(\overline{X}-t_{\frac{\alpha}{2}}\frac{S}{\sqrt{n}},\,\overline{X}+t_{\frac{\alpha}{2}}\frac{S}{\sqrt{n}}\right)\)이 \(\mu\)의 \(100(1-\alpha)\text{%}\)신뢰구간이다.

모분산에 대해서도 구간추정을 할 수 있다. $$\frac{(n-1)S^{2}}{\sigma^{2}}\,\sim\,\chi^{2}(n-1)$$이므로$$\begin{align*}1-\alpha&=P\left(\chi_{1-\frac{\alpha}{2}}^{2}(n-1)<\frac{(n-1)S^{2}}{\sigma^{2}}<\chi_{\frac{\alpha}{2}}^{2}(n-1)\right)\\&=P\left(\frac{n-1}{\chi_{\frac{\alpha}{2}}^{2}(n-1)}S^{2}<\sigma^{2}<\frac{n-1}{\chi_{1-\frac{\alpha}{2}}^{2}(n-1)}S^{2}\right)\end{align*}$$이고, 따라서 구간 \(\displaystyle\left(\frac{n-1}{\chi_{\frac{\alpha}{2}}^{2}(n-1)}S^{2},\,\frac{n-1}{\chi_{1-\frac{\alpha}{2}}^{2}(n-1)}S^{2}\right)\)은 모분산 \(\sigma^{2}\)의 \(100(1-\alpha)\text{%}\) 신뢰구간이다.(아래 그림 참고)

 

참고자료:

기초 금융 통계, 박유성, 김기환, 자유아카데미

금융인을 위한 통계분석, 이긍희, 한국금융연수원

재무위험관리사(1: 금융통계학), 금융투자교육원, 한국금융투자협회

https://ko.wikipedia.org/wiki/%EC%8A%A4%ED%8A%9C%EB%8D%98%ED%8A%B8_t_%EB%B6%84%ED%8F%AC

https://www.statisticshowto.datasciencecentral.com/probability-and-statistics/confidence-interval/ 

https://faculty.elgin.edu/dkernler/statistics/ch09/images/chi-square-dist2.gif

반응형
Posted by skywalker222