반응형

[수리통계학] 13. 구간추정



점추정은 추정값을 표현하지만 얼마나 정확하게 모수를 추정하는지에 대해서는 알 수 없다. 이 문제점을 보완하기 위해 구간추정(interval estimation)을 한다. 


모수 \(\theta\)에 대한 두 통계량 \(L=L(X_{1},\,\cdots,\,X_{n}),\,U=U(X_{1},\,\cdots,\,X_{n})\)에 대하여$$P(L\leq\theta\leq U)=1-\alpha$$이면, 구간 \((L,\,U)\)를 \(\theta\)의 \(100(1-\alpha)\text{%}\)신뢰구간(confidence interval) 이라 하고, \(L\)을 신뢰구간의 하한, \(U\)를 신뢰구간의 상한이라고 하며 \(100(1-\alpha)\text{%}\,(1-\alpha)\)를 신뢰수준(confidence level)이라고 한다.


정규분포에서의 구간추정


정규분포에서의 구간추정은 모표준편차 \(\sigma\)를 아느냐 모르느냐에 따라 방법이 달라진다.


1. 모표준편차 \(\sigma\)를 아는 경우의 모평균 \(\mu\)의 신뢰구간

이 경우는 \(\displaystyle Z=\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\,\sim\,N(0,\,1)\)을 이용한다. 표준정규분포에서 \(P(Z>z_{\alpha})=\alpha\)라고 하면$$\begin{align*}1-\alpha&=P\left(\left|\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\right|\leq z_{\frac{\alpha}{2}}\right)\\&=P\left(\overline{X}-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\leq\mu\leq\overline{X}+z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right)\end{align*}$$이므로 모평균 \(\mu\)의 \(100(1-\alpha)\text{%}\)신뢰구간은$$\left(\overline{x}-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\,\overline{x}+z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right)$$이다.

*정규분포를 따르지 않더라도 \(n\geq30\)이면 중심극한정리에 의해 정규분포를 적용할 수 있고, 표본표준편차를 \(s\)라고 하면 이때의 신뢰구간은 다음과 같다(모표준편차 \(\sigma\) 대신 표본표준편차 \(s\)를 사용할 수 있다).$$\left(\overline{x}-z_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}},\,\overline{x}+z_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}}\right)$$


2. 모표준편차 \(\sigma\)를 모르는 경우의 모평균 \(\mu\)의 신뢰구간

이 경우는 \(\displaystyle T=\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}\,\sim\,t(n-1)\)을 이용한다. t분포에서 \(P(T>t_{\alpha,\,n})=\alpha\)라고 하면$$\begin{align*}1-\alpha&=P\left(\left|\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}\right|\leq t_{\frac{\alpha}{2},\,n-1}\right)\\&=P\left(\overline{X}-t_{\frac{\alpha}{2},\,n-1}\frac{S}{\sqrt{n}}\leq\mu\leq\overline{X}+t_{\frac{\alpha}{2},\,n-1}\frac{S}{\sqrt{n}}\right)\end{align*}$$이므로 모평균 \(\mu\)의 \(100(1-\alpha)\text{%}\)신뢰구간은$$\left(\overline{x}-t_{\frac{\alpha}{2},\,n-1}\frac{s}{\sqrt{n}},\,\overline{x}+t_{\frac{\alpha}{2},\,n-1}\frac{s}{\sqrt{n}}\right)$$이다.


3. 모비율에 대한 신뢰구간

\(X\)를 성공확률이 \(p\)인 베르누이 확률변수라 하고, 성공일 때 \(X=1\), 실패일 때 \(X=0\)이라고 하자. \(X_{1},\,X_{2},\,\cdots,\,X_{n}\)이 \(X\)의 확률표본이고 \(\hat{p}=\overline{X}\)를 성공의 표본비율이라고 하면$$E(\hat{p})=p,\,\text{Var}(\hat{p})=\frac{p(1-p)}{n}$$이고 중심극한정리로부터 \(\displaystyle Z=\frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}\,\sim\,N(0,\,1)\)이다. 따라서 \(n\)이 충분히 클때(\(np>5,\,n(1-p)>5\))$$\begin{align*}1-\alpha&=P\left(\left|\frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}\right|\leq z_{\frac{\alpha}{2}}\right)\\&=P\left(\hat{p}-z_{\frac{\alpha}{2}}\sqrt{\frac{p(1-p)}{n}}\leq p\leq\hat{p}+z_{\frac{\alpha}{2}}\sqrt{\frac{p(1-p)}{n}}\right)\end{align*}$$이므로 모비율 \(p\)의 \(100(1-\alpha)\text{%}\)신뢰구간은$$\left(\hat{p}-z_{\frac{\alpha}{2}}\sqrt{\frac{p(1-p)}{n}},\,\hat{p}+z_{\frac{\alpha}{2}}\sqrt{\frac{p(1-p)}{n}}\right)$$이다. 여기서 \(\displaystyle\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\)은 \(\hat{p}\)의 표준오차이다.


4. 두 평균의 차 \(\mu_{1}-\mu_{2}\)의 신뢰구간

두 모집단의 분포가 각각$$X\,\sim\,N(\mu_{1},\,\sigma_{1}^{2}),\,Y\,\sim\,N(\mu_{2},\,\sigma_{2}^{2})$$이고 크기가 각각 \(n_{1},\,n_{2}\)인 독립 확률표본을 추출하면$$E(\overline{X}-\overline{Y})=\mu_{1}-\mu_{2},\,\text{Var}(\overline{X}-\overline{Y})=\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}$$이므로$$Z=\frac{(\overline{X}-\overline{Y})-(\mu_{1}-\mu_{2})}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}}\,\sim\,N(0,\,1)$$이고 \(P(Z\geq z_{\alpha})=\alpha\)라고 하면 \(\mu_{1}-\mu_{2}\)의 \(100(1-\alpha)\text{%}\)신뢰구간은 다음과 같다.$$\left((\overline{x}-\overline{y})-z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}},\,(\overline{x}-\overline{y})+z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}\right)$$중심극한정리에 의해 \(n_{1}\geq30,\,n_{2}\geq30\)일 때, 분산의 값을 정규분포를 따르지 않는 모집단에서 추출한 확률표본에 대해서도 적용가능하다. \(n_{1}\geq30,\,n_{2}\geq30\)이고 모표준편차 \(\sigma_{1},\,\sigma_{2}\)를 모르는 경우는 표본표준편차 \(s_{1},\,s_{2}\)로 대체한다.

모표준편차 \(\sigma_{1},\,\sigma_{2}\)를 모르고 하나 또는 두 표본 모두 크기가 30보다 작은 경우, 두 모평균의 차를 추정할 때 \(\sigma_{1}=\sigma_{2}(=\sigma)\)라는 가정이 없으면 추정이 어렵다. \(X,\,Y\)의 표본분산을 각각 \(S_{1}^{2},\,S_{2}^{2}\)라고 하면$$\frac{(n_{1}-1)S_{1}^{2}}{\sigma^{2}}\,\sim\,\chi^{2}(n_{1}-1),\,\frac{(n_{2}-1)S_{2}^{2}}{\sigma^{2}}\,\sim\,\chi^{2}(n_{2}-1)$$이므로 \(\displaystyle\frac{(n_{1}-1)S_{1}^{2}+(n_{2}-1)S_{2}^{2}}{\sigma^{2}}\,\sim\,\chi^{2}(n_{1}+n_{2}-2)\)이고 t분포의 정의에 의해$$T=\frac{Z}{\sqrt{\frac{U}{m+n-2}}}\,\sim\,t(m+n-2)$$이며 \(\sigma^{2}\)의 추정량으로 합동표본분산(pooled sample variance) \(\displaystyle S_{p}^{2}=\frac{(n_{1}-1)S_{1}^{2}+(n_{2}-1)S_{2}^{2}}{n_{1}+n_{2}-2}\)를 사용하면$$T=\frac{(\overline{X}-\overline{Y})-(\mu_{1}-\mu_{2})}{S_{p}\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}}\,\sim\,t(m+n-2)$$이므로 따라서 \(P(T\geq t_{\alpha,\,n})=\alpha\)라고 하면 이 경우의 \(\mu_{1}-\mu_{2}\)의 \(100(1-\alpha)\text{%}\) 신뢰구간은$$\left((\overline{x}-\overline{y})-t_{\frac{\alpha}{2},\,n_{1}+n_{2}-2}S_{p}\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}},\,(\overline{x}-\overline{y})+t_{\frac{\alpha}{2},\,m+n-2}S_{p}\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}\right)$$이다.

이 방법을 이용하여 두 모비율의 차에 대한 신뢰구간을 구할 수 있다. \(X,\,Y\)를 모수(성공의 확률)가 각각 \(p_{1},\,p_{2}\)인 독립인 확률변수라고 하자. \(X_{1},\,\cdots,\,X_{n_{1}}\)을 \(X\)의 확률표본, \(Y_{1},\,\cdots,\,Y_{n_{2}}\)를 \(Y\)의 확률표본이라 하면, 표본비율이 각각 \(\displaystyle\hat{p_{1}}=\frac{X}{n_{1}},\,\hat{p_{2}}=\frac{Y}{n_{2}}\)이고$$E(\hat{p_{1}}-\hat{p_{2}})=p_{1}-p_{2},\,\text{Var}(\hat{p_{1}}-\hat{p_{2}})=\frac{p_{1}(1-p_{1})}{n_{1}}+\frac{p_{2}(1-p_{2})}{n_{2}}$$이므로 \(p_{1}-p_{2}\)에 대한 \(100(1-\alpha)\text{%}\) 신뢰구간은$$\left((\hat{p_{1}}-\hat{p_{2}})-z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p_{1}}(1-\hat{p_{1}})}{n_{1}}+\frac{\hat{p_{2}}(1-\hat{p_{2}})}{n_{2}}},\,(\hat{p_{1}}-\hat{p_{2}})+z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p_{1}}(1-\hat{p_{1}})}{n_{1}}+\frac{\hat{p_{2}}(1-\hat{p_{2}})}{n_{2}}}\right)$$이다.


분산의 신뢰구간


크기가 \(n\)인 확률표본이 주어졌을 때 \(\displaystyle\frac{(n-1)S^{2}}{\sigma^{2}}\,\sim\,\chi^{2}(n-1)\)이므로$$\begin{align*}1-\alpha&=P\left(\chi^{2}_{1-\frac{\alpha}{2},\,n-1}\leq\frac{(n-1)S^{2}}{\sigma^{2}}\leq\chi^{2}_{\frac{\alpha}{2},\,n-1}\right)\\&=P\left(\frac{(n-1)S^{2}}{\chi^{2}_{\frac{\alpha}{2},\,n-1}}\leq\sigma^{2}\leq\frac{(n-1)S^{2}}{\chi^{2}_{1-\frac{\alpha}{2},\,n-1}}\right)\end{align*}$$이고 따라서 \(\sigma^{2}\)의 \(100(1-\alpha)\text{%}\)신뢰구간은$$\left(\frac{(n-1)s^{2}}{\chi^{2}_{\frac{\alpha}{2},\,n-1}},\,\frac{(n-1)s^{2}}{\chi^{2}_{1-\frac{\alpha}{2},\,n-1}}\right)$$이다.


분산의 비의 신뢰구간


\(\displaystyle F=\frac{\frac{S_{1}^{2}}{\sigma_{1}^{2}}}{\frac{S_{2}^{2}}{\sigma_{2}^{2}}}\,\sim\,F(n_{1}-1,\,n_{2}-1)\)일 때,$$\begin{align*}1-\alpha&=P\left(F_{1-\frac{\alpha}{2},\,n_{1}-1,\,n_{2}-1}\leq\frac{\frac{S_{1}^{2}}{\sigma_{1}^{2}}}{\frac{S_{2}^{2}}{\sigma_{2}^{2}}}\leq F_{\frac{\alpha}{2},\,n_{1}-1,\,n_{2}-1}\right)\\&=P\left(F_{1-\frac{\alpha}{2},\,n_{1}-1,\,n_{2}-1}\frac{S_{2}^{2}}{S_{1}^{2}}\leq\frac{\sigma_{2}^{2}}{\sigma_{1}^{2}}\leq F_{\frac{\alpha}{2},\,n_{1}-1,\,n_{2}-1}\frac{S_{2}^{2}}{S_{1}^{2}}\right)\end{align*}$$이고 따라서 \(\displaystyle\frac{\sigma_{2}^{2}}{\sigma_{1}^{2}}\)의 \(100(1-\alpha)\text{%}\)신뢰구간은$$\left(F_{1-\frac{\alpha}{2},\,n_{1}-1,\,n_{2}-1}\frac{S_{2}^{2}}{S_{1}^{2}},\,F_{\frac{\alpha}{2},\,n_{1}-1,\,n_{2}-1}\frac{S_{2}^{2}}{S_{1}^{2}}\right)$$이다.


참고자료:

John E Freund's Mathematical Statistics with Applications 8th edition, Irwon Miller, Marylees Miller, Pearson

Introduction to Mathematical Statistics 7th edition, Hogg, McKean, Craig, Pearson

수리통계학, 허문열, 송문섭, 박영사                  

반응형
Posted by skywalker222