[수리통계학] 13. 구간추정

확률및통계/수리통계학2019. 4. 1. 08:00

[수리통계학] 13. 구간추정

점추정은 추정값을 표현하지만 얼마나 정확하게 모수를 추정하는지에 대해서는 알 수 없다. 이 문제점을 보완하기 위해 구간추정(interval estimation)을 한다.

모수 $\theta$에 대한 두 통계량 $L=L(X_{1},\,\cdots,\,X_{n}),\,U=U(X_{1},\,\cdots,\,X_{n})$에 대하여$$P(L\leq\theta\leq U)=1-\alpha$$이면, 구간 $(L,\,U)$를 $\theta$의 $100(1-\alpha)\text{%}$신뢰구간(confidence interval) 이라 하고, $L$을 신뢰구간의 하한, $U$를 신뢰구간의 상한이라고 하며 $100(1-\alpha)\text{%}\,(1-\alpha)$를 신뢰수준(confidence level)이라고 한다.

정규분포에서의 구간추정

정규분포에서의 구간추정은 모표준편차 $\sigma$를 아느냐 모르느냐에 따라 방법이 달라진다.

1. 모표준편차 $\sigma$를 아는 경우의 모평균 $\mu$의 신뢰구간

이 경우는 $\displaystyle Z=\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\,\sim\,N(0,\,1)$을 이용한다. 표준정규분포에서 $P(Z>z_{\alpha})=\alpha$라고 하면$$\begin{align*}1-\alpha&=P\left(\left|\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\right|\leq z_{\frac{\alpha}{2}}\right)\\&=P\left(\overline{X}-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\leq\mu\leq\overline{X}+z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right)\end{align*}$$이므로 모평균 $\mu$의 $100(1-\alpha)\text{%}$신뢰구간은$$\left(\overline{x}-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\,\overline{x}+z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right)$$이다.

*정규분포를 따르지 않더라도 $n\geq30$이면 중심극한정리에 의해 정규분포를 적용할 수 있고, 표본표준편차를 $s$라고 하면 이때의 신뢰구간은 다음과 같다(모표준편차 $\sigma$ 대신 표본표준편차 $s$를 사용할 수 있다).$$\left(\overline{x}-z_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}},\,\overline{x}+z_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}}\right)$$

2. 모표준편차 $\sigma$를 모르는 경우의 모평균 $\mu$의 신뢰구간

이 경우는 $\displaystyle T=\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}\,\sim\,t(n-1)$을 이용한다. t분포에서 $P(T>t_{\alpha,\,n})=\alpha$라고 하면$$\begin{align*}1-\alpha&=P\left(\left|\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}\right|\leq t_{\frac{\alpha}{2},\,n-1}\right)\\&=P\left(\overline{X}-t_{\frac{\alpha}{2},\,n-1}\frac{S}{\sqrt{n}}\leq\mu\leq\overline{X}+t_{\frac{\alpha}{2},\,n-1}\frac{S}{\sqrt{n}}\right)\end{align*}$$이므로 모평균 $\mu$의 $100(1-\alpha)\text{%}$신뢰구간은$$\left(\overline{x}-t_{\frac{\alpha}{2},\,n-1}\frac{s}{\sqrt{n}},\,\overline{x}+t_{\frac{\alpha}{2},\,n-1}\frac{s}{\sqrt{n}}\right)$$이다.

3. 모비율에 대한 신뢰구간

$X$를 성공확률이 $p$인 베르누이 확률변수라 하고, 성공일 때 $X=1$, 실패일 때 $X=0$이라고 하자. $X_{1},\,X_{2},\,\cdots,\,X_{n}$이 $X$의 확률표본이고 $\hat{p}=\overline{X}$를 성공의 표본비율이라고 하면$$E(\hat{p})=p,\,\text{Var}(\hat{p})=\frac{p(1-p)}{n}$$이고 중심극한정리로부터 $\displaystyle Z=\frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}\,\sim\,N(0,\,1)$이다. 따라서 $n$이 충분히 클때($np>5,\,n(1-p)>5$)$$\begin{align*}1-\alpha&=P\left(\left|\frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}\right|\leq z_{\frac{\alpha}{2}}\right)\\&=P\left(\hat{p}-z_{\frac{\alpha}{2}}\sqrt{\frac{p(1-p)}{n}}\leq p\leq\hat{p}+z_{\frac{\alpha}{2}}\sqrt{\frac{p(1-p)}{n}}\right)\end{align*}$$이므로 모비율 $p$의 $100(1-\alpha)\text{%}$신뢰구간은$$\left(\hat{p}-z_{\frac{\alpha}{2}}\sqrt{\frac{p(1-p)}{n}},\,\hat{p}+z_{\frac{\alpha}{2}}\sqrt{\frac{p(1-p)}{n}}\right)$$이다. 여기서 $\displaystyle\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$은 $\hat{p}$의 표준오차이다.

4. 두 평균의 차 $\mu_{1}-\mu_{2}$의 신뢰구간

두 모집단의 분포가 각각$$X\,\sim\,N(\mu_{1},\,\sigma_{1}^{2}),\,Y\,\sim\,N(\mu_{2},\,\sigma_{2}^{2})$$이고 크기가 각각 $n_{1},\,n_{2}$인 독립 확률표본을 추출하면$$E(\overline{X}-\overline{Y})=\mu_{1}-\mu_{2},\,\text{Var}(\overline{X}-\overline{Y})=\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}$$이므로$$Z=\frac{(\overline{X}-\overline{Y})-(\mu_{1}-\mu_{2})}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}}\,\sim\,N(0,\,1)$$이고 $P(Z\geq z_{\alpha})=\alpha$라고 하면 $\mu_{1}-\mu_{2}$의 $100(1-\alpha)\text{%}$신뢰구간은 다음과 같다.$$\left((\overline{x}-\overline{y})-z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}},\,(\overline{x}-\overline{y})+z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}\right)$$중심극한정리에 의해 $n_{1}\geq30,\,n_{2}\geq30$일 때, 분산의 값을 정규분포를 따르지 않는 모집단에서 추출한 확률표본에 대해서도 적용가능하다. $n_{1}\geq30,\,n_{2}\geq30$이고 모표준편차 $\sigma_{1},\,\sigma_{2}$를 모르는 경우는 표본표준편차 $s_{1},\,s_{2}$로 대체한다.

모표준편차 $\sigma_{1},\,\sigma_{2}$를 모르고 하나 또는 두 표본 모두 크기가 30보다 작은 경우, 두 모평균의 차를 추정할 때 $\sigma_{1}=\sigma_{2}(=\sigma)$라는 가정이 없으면 추정이 어렵다. $X,\,Y$의 표본분산을 각각 $S_{1}^{2},\,S_{2}^{2}$라고 하면$$\frac{(n_{1}-1)S_{1}^{2}}{\sigma^{2}}\,\sim\,\chi^{2}(n_{1}-1),\,\frac{(n_{2}-1)S_{2}^{2}}{\sigma^{2}}\,\sim\,\chi^{2}(n_{2}-1)$$이므로 $\displaystyle\frac{(n_{1}-1)S_{1}^{2}+(n_{2}-1)S_{2}^{2}}{\sigma^{2}}\,\sim\,\chi^{2}(n_{1}+n_{2}-2)$이고 t분포의 정의에 의해$$T=\frac{Z}{\sqrt{\frac{U}{m+n-2}}}\,\sim\,t(m+n-2)$$이며 $\sigma^{2}$의 추정량으로 합동표본분산(pooled sample variance) $\displaystyle S_{p}^{2}=\frac{(n_{1}-1)S_{1}^{2}+(n_{2}-1)S_{2}^{2}}{n_{1}+n_{2}-2}$를 사용하면$$T=\frac{(\overline{X}-\overline{Y})-(\mu_{1}-\mu_{2})}{S_{p}\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}}\,\sim\,t(m+n-2)$$이므로 따라서 $P(T\geq t_{\alpha,\,n})=\alpha$라고 하면 이 경우의 $\mu_{1}-\mu_{2}$의 $100(1-\alpha)\text{%}$ 신뢰구간은$$\left((\overline{x}-\overline{y})-t_{\frac{\alpha}{2},\,n_{1}+n_{2}-2}S_{p}\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}},\,(\overline{x}-\overline{y})+t_{\frac{\alpha}{2},\,m+n-2}S_{p}\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}\right)$$이다.

이 방법을 이용하여 두 모비율의 차에 대한 신뢰구간을 구할 수 있다. $X,\,Y$를 모수(성공의 확률)가 각각 $p_{1},\,p_{2}$인 독립인 확률변수라고 하자. $X_{1},\,\cdots,\,X_{n_{1}}$을 $X$의 확률표본, $Y_{1},\,\cdots,\,Y_{n_{2}}$를 $Y$의 확률표본이라 하면, 표본비율이 각각 $\displaystyle\hat{p_{1}}=\frac{X}{n_{1}},\,\hat{p_{2}}=\frac{Y}{n_{2}}$이고$$E(\hat{p_{1}}-\hat{p_{2}})=p_{1}-p_{2},\,\text{Var}(\hat{p_{1}}-\hat{p_{2}})=\frac{p_{1}(1-p_{1})}{n_{1}}+\frac{p_{2}(1-p_{2})}{n_{2}}$$이므로 $p_{1}-p_{2}$에 대한 $100(1-\alpha)\text{%}$ 신뢰구간은$$\left((\hat{p_{1}}-\hat{p_{2}})-z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p_{1}}(1-\hat{p_{1}})}{n_{1}}+\frac{\hat{p_{2}}(1-\hat{p_{2}})}{n_{2}}},\,(\hat{p_{1}}-\hat{p_{2}})+z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p_{1}}(1-\hat{p_{1}})}{n_{1}}+\frac{\hat{p_{2}}(1-\hat{p_{2}})}{n_{2}}}\right)$$이다.

분산의 신뢰구간

크기가 $n$인 확률표본이 주어졌을 때 $\displaystyle\frac{(n-1)S^{2}}{\sigma^{2}}\,\sim\,\chi^{2}(n-1)$이므로$$\begin{align*}1-\alpha&=P\left(\chi^{2}_{1-\frac{\alpha}{2},\,n-1}\leq\frac{(n-1)S^{2}}{\sigma^{2}}\leq\chi^{2}_{\frac{\alpha}{2},\,n-1}\right)\\&=P\left(\frac{(n-1)S^{2}}{\chi^{2}_{\frac{\alpha}{2},\,n-1}}\leq\sigma^{2}\leq\frac{(n-1)S^{2}}{\chi^{2}_{1-\frac{\alpha}{2},\,n-1}}\right)\end{align*}$$이고 따라서 $\sigma^{2}$의 $100(1-\alpha)\text{%}$신뢰구간은$$\left(\frac{(n-1)s^{2}}{\chi^{2}_{\frac{\alpha}{2},\,n-1}},\,\frac{(n-1)s^{2}}{\chi^{2}_{1-\frac{\alpha}{2},\,n-1}}\right)$$이다.

분산의 비의 신뢰구간

$\displaystyle F=\frac{\frac{S_{1}^{2}}{\sigma_{1}^{2}}}{\frac{S_{2}^{2}}{\sigma_{2}^{2}}}\,\sim\,F(n_{1}-1,\,n_{2}-1)$일 때,$$\begin{align*}1-\alpha&=P\left(F_{1-\frac{\alpha}{2},\,n_{1}-1,\,n_{2}-1}\leq\frac{\frac{S_{1}^{2}}{\sigma_{1}^{2}}}{\frac{S_{2}^{2}}{\sigma_{2}^{2}}}\leq F_{\frac{\alpha}{2},\,n_{1}-1,\,n_{2}-1}\right)\\&=P\left(F_{1-\frac{\alpha}{2},\,n_{1}-1,\,n_{2}-1}\frac{S_{2}^{2}}{S_{1}^{2}}\leq\frac{\sigma_{2}^{2}}{\sigma_{1}^{2}}\leq F_{\frac{\alpha}{2},\,n_{1}-1,\,n_{2}-1}\frac{S_{2}^{2}}{S_{1}^{2}}\right)\end{align*}$$이고 따라서 $\displaystyle\frac{\sigma_{2}^{2}}{\sigma_{1}^{2}}$의 $100(1-\alpha)\text{%}$신뢰구간은$$\left(F_{1-\frac{\alpha}{2},\,n_{1}-1,\,n_{2}-1}\frac{S_{2}^{2}}{S_{1}^{2}},\,F_{\frac{\alpha}{2},\,n_{1}-1,\,n_{2}-1}\frac{S_{2}^{2}}{S_{1}^{2}}\right)$$이다.

참고자료:

John E Freund's Mathematical Statistics with Applications 8th edition, Irwon Miller, Marylees Miller, Pearson

Introduction to Mathematical Statistics 7th edition, Hogg, McKean, Craig, Pearson

수리통계학, 허문열, 송문섭, 박영사

저작자표시 비영리 동일조건 (새창열림)

'확률및통계 > 수리통계학' 카테고리의 다른 글

[수리통계학] 14. 가설검정 (0)	2019.04.02
[수리통계학] 12. 점추정(적률법, 최대우도법) (0)	2019.03.31
[수리통계학] 11. 추정량 (0)	2019.03.30
[수리통계학] 10. 카이제곱분포, t분포, F분포 (0)	2019.03.29
[수리통계학] 9. 표본분포, 중심극한정리 (0)	2019.03.28

Posted by skywalker222

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

지식저장고(Knowledge Storage)