[수리통계학] 10. 카이제곱분포, t분포, F분포

확률및통계/수리통계학2019. 3. 29. 08:00

[수리통계학] 10. 카이제곱분포, t분포, F분포

카이제곱분포

모평균 $\mu$를 추정하기 위해 표본평균 $\overline{X}$를 이용하고 모분산 $\sigma^{2}$를 추정하기 위해 표본분산 $S^{2}$를 이용한다. $\mu$를 추정하기 위해서는 $\overline{X}$의 분포를 알아야 하고 $\sigma^{2}$를 추정하기 위해서는 $S^{2}$의 분포를 알아야 한다. 모분산 추정에는 카이제곱분포(chi-square distribution)이 사용된다. 다음은 카이제곱분포의 정의이다.

확률변수 $X$의 확률밀도함수가$$f(x)=\begin{cases}\frac{1}{2^{\frac{n}{2}}\Gamma\left(\frac{n}{2}\right)}x^{\frac{n}{2}-1}e^{-\frac{x}{2}}&\,(x>0)\\0&\,(\text{otherwise})\end{cases}$$일 때 $X$는 자유도가 $n$인 카이제곱($\chi^{2}$)분포를 따른다고 하고 $X\,\sim\,\chi^{2}(n)$으로 나타낸다.

(자유도가 $v$인 카이제곱분포의 확률밀도함수)

카이제곱분포는 감마분포에서 $\displaystyle\alpha=\frac{n}{2},\,\beta=2$인 경우에 해당한다. 그러므로 $X\,\sim\,\chi^{2}(n)$일 때, $X$의 평균, 분산, 적률생성함수는 다음과 같다.$$E(X)=n,\,\text{Var}(X)=2n,\,M_{X}(t)=\frac{1}{(1-2t)^{\frac{n}{2}}}$$카이제곱분포에서 $(1-\alpha)$분위수를 $\chi_{\alpha,\,n}^{2}$로 나타낸다. 즉 $X\,\sim\,\chi^{2}(n)$일 때, $\chi^{2}_{\alpha,\,n}$은$$P(X>\chi^{2}_{\alpha,\,n})=\alpha\,(P(X\geq\chi^{2}_{\alpha,\,n})=\alpha)$$를 만족하는 값(카이제곱분포의 확률밀도함수에서 $\chi_{\alpha,\,n}^{2}$의 오른쪽 영역의 넓이가 $\alpha$)이다.

$X\,\sim\,\chi^{2}(5)$일 때 $P(X>1.145)=0.95,\,P(X>11.07)=0.05$이고, $\chi^{2}_{0.95,\,5}=1.145,\,\chi^{2}_{0.05,\,5}=11.07$이며 이 확률은 정규분포의 경우처럼 카이제곱분포표를 이용하여 구한다.

확률변수 $X$가 $X\,\sim\,N(0,\,1)$일 때, $X^{2}\,\sim\,\chi^{2}(1)$이다.

이 정리는 앞에서 변수변환을 통해서 보였다. 간단히 설명하자면 $F_{X^{2}}$를 $X^{2}$의 분포함수라고 하자. 그러면$$\begin{align*}F_{X^{2}}(y)&=P(X^{2}\leq y)=P(-\sqrt{y}\leq X\leq\sqrt{y})\\&=2\int_{0}^{\sqrt{y}}{\frac{1}{\sqrt{2\pi}}e^{-\frac{x^{2}}{2}}dx}\,(y>0)\end{align*}$$이고 $x=\sqrt{z}$라고 하면 $\displaystyle dx=\frac{1}{2\sqrt{z}}dz$이므로$\displaystyle F_{X^{2}}=\int_{0}^{y}{\frac{1}{\sqrt{2\pi z}}e^{-\frac{z}{2}}dz}$이고 $\displaystyle f_{X^{2}}(y)=\frac{d}{dy}F_{X^{2}}(y)=\frac{1}{\sqrt{\pi}2^{\frac{1}{2}}}y^{\frac{1}{2}-1}e^{-\frac{y}{2}}$이다. 이때 $\displaystyle\sqrt{\pi}=\Gamma\left(\frac{1}{2}\right)$이므로 $f_{X^{2}}$는 $\chi^{2}(1)$의 확률밀도함수이다.

위의 결과를 일반화하면 다음과 같다.

$X_{1},\,X_{2},\,\cdots,\,X_{n}$을 서로 독립이고 표준정규분포를 따르는 확률변수라고 하면 $\displaystyle Y=\sum_{i=1}^{n}{X_{i}^{2}}$는 자유도가 $n$인 카이제곱분포를 따른다.

증명: 앞의 결과에 의해 $X_{i}$의 적률생성함수는 $\displaystyle M_{X_{i}^{2}}(t)=\frac{1}{(1-2t)^{\frac{1}{2}}}$이고 $X_{i}^{2}$들은 서로 독립이므로$$M_{Y}(t)=\prod_{i=1}^{n}{\frac{1}{(1-2t)^{\frac{1}{2}}}}=\frac{1}{(1-2t)^{\frac{n}{2}}}$$이고 따라서 $Y$는 자유도가 $n$인 카이제곱분포를 따른다.

$X_{1},\,X_{2},\,\cdots,\,X_{n}$이 자유도가 각각 $v_{1},\,v_{2},\,\cdots,\,v_{n}$이고 서로 독립인 카이제곱분포를 따르는 확률변수이면 $\displaystyle Y=\sum_{i=1}^{n}{X_{i}^{2}}$는 자유도가 $\displaystyle\sum_{i=1}^{n}{v_{i}}$인 카이제곱분포를 따른다.

증명: $\displaystyle M_{X_{i}}=\frac{1}{(1-2t)^{\frac{v_{i}}{2}}}$이므로$$M_{Y}(t)=\prod_{i=1}^{n}{M_{X_{i}}(t)}=\frac{1}{(1-2t)^{\frac{v_{1}+v_{2}+\cdots+v_{n}}{2}}}$$이고 따라서 $Y$는 자유도가 $\displaystyle\sum_{i=1}^{n}{v_{i}}$인 카이제곱분포를 따른다.

$X_{1},\,X_{2}$가 서로 독립이고 $X_{1}\,\sim\,\chi^{2}(n_{1})$, $X_{1}+X_{2}\,\sim\,\chi^{2}(n_{1}+n_{2})$이면, $X_{2}\,\sim\,\chi^{2}(n_{2})$이다.

증명: $X_{1}$과 $X_{1}+X_{2}$의 적률생성함수는 다음과 같다.$$M_{X_{1}}(t)=\frac{1}{(1-2t)^{\frac{n_{1}}{2}}},\,M_{X_{1}+X_{2}}(t)=\frac{1}{(1-2t)^{\frac{n_{1}+n_{2}}{2}}}$$그러면 $X_{2}$의 적률생성함수는$$M_{X_{2}}(t)=\frac{M_{X_{1}+X_{2}}(t)}{M_{X_{1}}(t)}=\frac{1}{(1-2t)^{\frac{n_{2}}{2}}}$$이고 따라서 $X_{2}\,\sim\,\chi^{2}(n_{2})$이다.

$X_{1},\,X_{2},\,\cdots,\,X_{n}$을 평균이 $\mu$, 표준편차가 $\sigma$인 정규모집단에서 추출된 크기가 $n$인 확률표본이라고 하자. 표본평균과 표본분산을 다음과 같이 정의하면$$\overline{X}=\frac{1}{n}\sum_{i=1}^{n}{X_{i}},\,S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}{(X_{i}-\overline{X})^{2}}$$다음 성질들이 성립한다.

(1) $\overline{X}$와 $S^{2}$는 독립이다.

(2) 확률변수 $\displaystyle\frac{(n-1)S^{2}}{\sigma^{2}}\,\sim\,\chi^{2}(n-1)$

증명:

(1) 일반적인 경우의 증명은 복잡하기 때문에 $n=2$인 경우에 대해서만 증명하겠다.

$n=2$일 때, $\displaystyle\overline{X}=\frac{X_{1}+X_{2}}{2},\,S^{2}=\frac{1}{2-1}\sum_{i=1}^{2}{(X_{i}-\overline{X})^{2}}=\frac{(X_{1}-X_{2})^{2}}{2}$이므로 $\overline{X}$와 $S^{2}$의 독립을 보이기 위해서 $X_{1}+X_{2}$와 $X_{1}-X_{2}$가 독립임을 보이면 충분하다. $X_{1}+X_{2}$와 $X_{1}-X_{2}$는 모두 정규분포를 따르는 확률변수이므로 이 두 확률변수의 공분산이 $0$이 됨을 보이면 된다.$$\begin{align*}\text{Cov}(X_{1}+X_{2},\,X_{1}-X_{2})&=E((X_{1}+X_{2})(X_{1}-X_{2}))-E(X_{1}+X_{2})E(X_{1}-X_{2})\\&=E(X_{1}^{2}-X_{2}^{2})-E(X_{1}+X_{2})E(X_{1}-X_{2})\\&=0\end{align*}$$이므로 $X_{1}+X_{2}$와 $X_{1}-X_{2}$는 독립이고 따라서 $\overline{X}$와 $S^{2}$는 독립이다.

(2) 다음의 항등식$$\sum_{i=1}^{n}{(X_{i}-\mu)^{2}}=\sum_{i=1}^{n}{(X_{i}-\overline{X})^{2}}+n(\overline{X}-\mu)^{2}$$의 양변을 $\sigma^{2}$로 나누고 $\displaystyle\sum_{i=1}^{n}{(X_{i}-\overline{X})^{2}}=(n-1)S^{2}$가 성립함을 이용하면$$\sum_{i=1}^{n}{\left(\frac{X_{i}-\mu}{\sigma}\right)^{2}}=\frac{(n-1)S^{2}}{\sigma^{2}}+\left(\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\right)^{2}$$이다. 앞 정리들로부터 $\displaystyle\sum_{i=1}^{n}{\left(\frac{X_{i}-\mu}{\sigma}\right)^{2}}\,\sim\,\chi^{2}(n)$, $\displaystyle\left(\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\right)^{2}\,\sim\,\chi^{2}(1)$이므로 $\displaystyle\frac{(n-1)S^{2}}{\sigma^{2}}\,\sim\,\chi^{2}(n-1)$이다.

앞에서 언급했던 자유도(degree of freedom)는 독립적인 관측값(또는 표본)의 개수를 뜻한다.$$\sum_{i=1}^{n}{(X_{i}-\overline{X})^{2}}=(X_{1}-\overline{X})^{2}+(X_{2}-\overline{X})^{2}+\cdots+(X_{n}-\overline{X})^{2}$$이고 $n$개의 편차 $(X_{1}-\overline{X}),\,(X_{2}-\overline{X}),\,\cdots,\,(X_{i}-\overline{X})$에 대해서$$\sum_{i=1}^{n}{(X_{i}-\overline{X})}=(X_{1}-\overline{X})+(X_{2}-\overline{X})+\cdots+(X_{n}+\overline{X})=n\overline{X}-n\overline{X}=0$$이다. 이것은 $n-1$개의 편차가 결정되면 마지막 편차는 자동으로 결정된다는 것을 뜻하고 따라서 $S^{2}$의 자유도는 $n-1$이고 이러한 이유로 편차의 제곱합에 $n$이 아니라 $n-1$을 나누는 것이다.

$\displaystyle\frac{(n-1)S^{2}}{\sigma^{2}}\,\sim\,\chi^{2}(n-1)$이고 자유도가 $n-1$인 카이제곱분포의 평균과 분산이 각각 $n-1,\,2(n-1)$이므로$$E(S^{2})=\sigma^{2},\,\text{Var}(S^{2})=\frac{2}{n-1}\sigma^{4}$$이다.

t분포

모집단의 모평균 $\mu$를 추정하기 위해서 표본평균 $\overline{X}$를 사용하고, 관련된 분포를 알아야 한다. 모표준편차 $\sigma$를 알면$$Z=\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\,\sim\,N(0,\,1)$$을 이용하여 모평균을 추정할 수 있으나 일반적으로 모표준편차도 알 수 없기 때문에 모표준편차 $\sigma$ 대신 표본표준편차 $S(=\sqrt{S^{2}})$를 사용하여 추정해야 한다. 즉 통계량$$T=\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}$$의 분포를 이용한다.

$Z\,\sim\,N(0,\,1)$, $U\,\sim\,\chi^{2}(n)$가 독립이면 $\displaystyle T=\frac{Z}{\sqrt{\frac{U}{n}}}$의 확률밀도함수는$$f(t)=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{\pi n}\Gamma\left(\frac{n}{2}\right)\left(1+\frac{t^{2}}{n}\right)^{\frac{n+1}{2}}}\,(t\in\mathbb{R})$$이고, 이것을 자유도가 $n$인 t분포(t-distribution)라고 하며 $T\,\sim\,t(n)$으로 나타낸다.

증명: $Z$와 $U$가 독립이므로 결합밀도함수는 $u>0,\,z\in\mathbb{R}$일 때$$f(z,\,u)=\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}z^{2}}\frac{1}{\Gamma\left(\frac{n}{2}\right)2^{\frac{n}{2}}}u^{\frac{n}{2}-1}e^{-\frac{n}{2}}$$이고, 이 구간 이외에서는 $f(z,\,u)=0$이다. $\displaystyle t=\frac{z}{\sqrt{\frac{u}{n}}}$라고 하면 $\displaystyle z=t\sqrt{\frac{u}{n}}$이므로 $\displaystyle\frac{\partial z}{\partial t}=\sqrt{\frac{u}{n}}$이다. 그러므로 $U$와 $T$의 결합밀도함수는$$g(t,\,u)=\begin{cases}\frac{1}{\sqrt{2\pi n}\Gamma\left(\frac{n}{2}\right)2^{\frac{n}{2}}}u^{\frac{n+1}{2}-1}e^{-\frac{u}{2}\left(1+\frac{t^{2}}{n}\right)}&\,(y>0,\,t\in\mathbb{R})\\0&\,(\text{otherwise})\end{cases}$$이고 따라서 $T$의 주변밀도함수는$$\begin{align*}f(t)&=\int_{-\infty}^{\infty}{g(t,\,u)du}\\&=\int_{0}^{\infty}{\frac{1}{\sqrt{2\pi n}\Gamma\left(\frac{n}{2}\right)2^{\frac{n}{2}}}u^{\frac{n+1}{2}-1}e^{-\frac{u}{2}\left(1+\frac{t^{2}}{n}\right)}du}\\&=\int_{0}^{\infty}{\frac{1}{\sqrt{2\pi n}\Gamma\left(\frac{n}{2}\right)2^{\frac{n}{2}}}\left(\frac{2w}{1+\frac{t^{2}}{n}}\right)^{\frac{n+1}{2}-1}e^{-w}\left(\frac{2}{1+\frac{t^{2}}{n}}\right)dw}\,\left(w=\frac{u}{2}\left(1+\frac{t^{2}}{n}\right)\right)\\&=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{\pi n}\Gamma\left(\frac{n}{2}\right)\left(1+\frac{t^{2}}{n}\right)^{\frac{n+1}{2}}}\end{align*}$$이다.

t분포를 Student t 분포(Student t distribution)라고 한다.(t분포를 발표한 고셋(Gosset)은 Student라는 필명을 사용했다)

위의 그림은 표준정규분포와 t분포의 확률밀도함수를 나타낸 것이다. t분포의 확률밀도함수는 표준정규분포와 비슷하고 자유도 $n$이 충분히 크면 중심극한정리에 의해 표준정규분포에 수렴하게 된다.

(자유도가 $v$인 t분포의 확률밀도함수)

자유도가 $n$인 t분포는 $Z\,\sim\,N(0,\,1)$과 $U\,\sim\,\chi^{2}(n)$인 두 확률변수가 결합된 결과이다. $\displaystyle T=\frac{Z}{\sqrt{\frac{U}{n}}}$이므로$$\begin{align*}E(T)&=E(Z)E\left(\sqrt{\frac{n}{U}}\right)=0\\ E(T^{2})&=E(Z^{2})E\left(\frac{n}{U^{2}}\right)=\frac{n}{n-2}\end{align*}$$(자세한건 Introduction to Mathematical statistics 7th edition, Hogg, McKean, Craig 참고)이고 따라서 $\displaystyle E(T)=0,\,\text{Var}(T)=\frac{n}{n-2}$이다.(*t분포의 적률생성함수는 존재하지 않음)

평균이 $\mu$이고 분산이 $\sigma^{2}$인 정규모집단에서 추출된 확률표본 $X_{1},\,X_{2},\,\cdots,\,X_{n}$에 대하여 $\overline{X}$와 $S^{2}$를 각각 표본평균, 표본분산이라고 하면 다음이 성립한다.$$T=\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}\,\sim\,t(n-1)$$

증명:$$T=\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}=\frac{\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}}{\sqrt{\frac{(n-1)S^{2}}{\sigma}\frac{1}{n-1}}}$$이고$$Z=\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\,\sim\,N(0,\,1),\,U=\frac{(n-1)S^{2}}{\sigma^{2}}\,\sim\,\chi^{2}(n-1)$$이며 $\overline{X}$와 $S^{2}$이 독립이므로 $Z$와 $U$도 독립이고 따라서 t분포의 정의에 의해 $T\,\sim\,t(n-1)$이다.

t분포에서 $(1-\alpha)$분위수를 $t_{\alpha,\,n}$으로 나타낸다. 즉 $X\,\sim\,t(n)$일 때, $t_{\alpha,\,n}$은$$P(X>t_{\alpha,\,n})=\alpha\,(P(X\geq t_{\alpha,\,n})=\alpha)$$를 만족하는 값이다.

$X\,\sim\,t(10)$일 때 $t_{0.05,\,9}=1.833$이고 $P(X>1.833)=0.05$이다. 이 확률은 t분포표를 이용해서 구하고 t분포표는 자유도 30까지 $t_{\alpha,\,n}$값이 주어지고 30보다 큰 자유도는 정규분포로 근사시킬 수 있다. 또한 $t$분포의 확률밀도함수는 $t=0$에 대해 대칭이며 $t_{1-\alpha,\,n}=-t_{\alpha,\,n}$가 성립하므로 $\alpha>0.50$일 때는 $t_{\alpha,\,n}$의 값을 앞의 식을 이용하여 구해야 한다.

*자유도가 1인 t분포를 코시분포(Cauchy distribution)라고 하고 확률밀도함수는$$f(x)=\frac{1}{\pi(1+x^{2})}\,(x\in\mathbb{R})$$이다. 코시분포의 예로 벽을 향해 기관총을 사격할 때 벽과 평행인 각도에서 시작해서 등각운동으로 회전시킬 때의 총알자국의 밀도는 코시분포를 따른다. 참고로 코시분포는 평균과 분산이 존재하지 않는다.

F분포

F분포(F distribution)는 두 표본분산의 비율에 대한 통계적 추론에 사용되고 이 추론은 분산분석에서 중요한 역할을 한다.

$U\,\sim\,\chi^{2}(m)$, $V\,\sim\,\chi^{2}(n)$이 독립이면$$W=\frac{\frac{U}{m}}{\frac{V}{n}}$$의 확률밀도함수는$$f(w)=\frac{\Gamma\left(\frac{m}{n}\right)\left(\frac{m}{n}\right)^{\frac{m}{2}}w\frac{m}{2}-1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)\left(1+\frac{m}{n}w\right)^{\frac{m+n}{2}}}\,(w>0)$$이고 자유도가 $(m,\,n)$인 F분포를 따른다고 하고 $W\,\sim\,F(m,\,n)$으로 나타낸다.

증명: $U$와 $V$의 결합밀도함수는$$f(u,\,v)=\frac{u^{\frac{m}{2}-1}v^{\frac{n}{2}-1}e^{-\frac{u+v}{2}}}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}\,(u,\,v>0)$$이고 이외의 구간에서 $f(u,\,v)=0$이다. $\displaystyle w=\frac{\frac{u}{m}}{\frac{v}{n}}$라고 하면 $\displaystyle u=\frac{m}{n}vw$이므로 $\displaystyle\frac{\partial u}{\partial w}=\frac{m}{n}v$이고 $W$와 $V$의 결합밀도는$$f(w,\,v)=\frac{1}{2^{\frac{m+n}{2}}\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)}\left(\frac{m}{n}\right)^{\frac{m}{2}}w^{\frac{m}{2}-1}v^{\frac{m+n}{2}-1}e^{-\frac{v}{2}\left(\frac{m}{n}w+1\right)}\,(w,\,v>0)$$이므로 $W$의 주변밀도함수는$$\begin{align*}f(w)&=\int_{0}^{\infty}{f(w,\,v)dv}\\&=\int_{0}^{\infty}{\frac{\left(\frac{m}{n}\right)^{\frac{m}{2}}w^{\frac{m}{2}-1}}{2^{\frac{m+n}{2}}\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)}v^{\frac{m+n}{2}-1}e^{-\frac{v}{2}\left(\frac{m}{n}w+1\right)}dv}\\&=\int_{0}^{\infty}{\frac{\left(\frac{m}{n}\right)^{\frac{m}{2}}w^{\frac{m}{2}-1}}{\Gamma\left(\frac{m}{2}\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}\right)}\left(\frac{2z}{\frac{m}{n}w+1}\right)^{\frac{m+n}{2}-1}e^{-z}\left(\frac{2}{\frac{m}{n}w+1}\right)dz}\,\left(z=\frac{v}{2}\left(\frac{m}{n}w+1\right)\right)\\&=\frac{\Gamma\left(\frac{m+n}{2}\right)\left(\frac{m}{n}\right)^{\frac{m}{2}}w^{\frac{m}{2}-1}}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)\left(1+\frac{m}{n}w\right)^{\frac{m+n}{2}}}\,(w>0)\end{align*}$$이다.

앞에서는 증명에 필요해서 $W$를 사용했지만 앞으로 F분포에서 $\displaystyle F=\frac{\frac{U}{m}}{\frac{V}{n}}$으로 나타내겠다. 즉 $F$가 자유도가 $(m,\,n)$인 F분포를 따르면 $F\,\sim\,F(m,\,n)$이다. 여기서 자유도는 분자의 자유도부터 나타내고 그 다음으로 분모의 자유도를 나타낸다.

F분포에서 $(1-\alpha)$분위수를 $F_{\alpha,\,m,\,n}$으로 나타낸다. 즉, $F\,\sim\,F(m,\,n)$일 때, $F_{\alpha,\,m,\,n}$은$$P(F>F_{\alpha,\,m,\,n})=\alpha\,(P(F\geq F_{\alpha,\,m,\,n})=\alpha)$$를 만족하는 값이다.

(F분포의 확률밀도함수)

$X\,\sim\,F(4,\,5)$일 때, $F_{0.05,\,4,\,5}=5.19$이고 $P(F>5.19)=0.05$이다.

$X\,\sim\,F(m,\,n)$일 때, $\displaystyle\frac{1}{F}\,\sim\,F(n,\,m)$이고 따라서 $\displaystyle F_{1-\alpha,\,m,\,n}=\frac{1}{F_{\alpha,\,n,\,m}}$이 성립한다.

앞의 예에서 $\displaystyle F_{0.95,\,4,\,5}=\frac{1}{F_{0.05,\,5,\,4}}=\frac{1}{6.26}=0.16$이고 $P(X<0.16)=0.05$이다.

$X_{1},\,X_{2},\,\cdots,\,X_{m}$을 평균이 $\mu_{1}$이고 표준편차가 $\sigma_{1}$인 정규모집단에서 추출한 크기가 $m$인 확률표본이라 하고 $Y_{1},\,Y_{2},\,\cdots,\,Y_{n}$을 평균이 $\mu_{2}$이고 표준편차가 $\sigma_{2}$인 정규모집단에서 추출한 크기가 $n$인 확률표본이라고 하자. 이 두 확률표본이 독립일 때,$$F=\frac{\frac{S_{1}^{2}}{\sigma_{1}^{2}}}{\frac{S_{2}^{2}}{\sigma_{2}^{2}}}\,\sim\,F(m-1,\,n-1)$$이고 여기서 $S_{1}^{2},\,S_{2}^{2}$는 각각 $X,\,Y$표본의 표본분산이다.

증명: $$F=\frac{\frac{S_{1}^{2}}{\sigma_{1}^{2}}}{\frac{S_{2}^{2}}{\sigma_{2}^{2}}}=\frac{\frac{(m-1)S_{1}^{2}}{\sigma_{1}^{2}}}{\frac{(n-1)S_{2}^{2}}{\sigma_{2}^{2}}}\frac{n-1}{m-1}$$이고$$\frac{(m-1)S_{1}^{2}}{\sigma_{1}^{2}}\,\sim\,\chi^{2}(m-1),\,\frac{(n-1)S_{2}^{2}}{\sigma_{2}^{2}}\,\sim\,\chi^{2}(n-1)$$이며 이 두 확률변수는 독립이므로 F분포의 정의에 의해 $F\,\sim\,F(m-1,\,n-1)$이다.

t분포와 F분포 사이의 관계:

t분포의 정의에서 $U\,\sim\,\chi^{2}(n),\,Z\,\sim\,N(0,\,1)$일 때, $\displaystyle T=\frac{Z}{\sqrt{\frac{U}{n}}}\,\sim\,t(n)$이고 $Z$와 $U$는 독립이므로 $\displaystyle T^{2}=\frac{Z^{2}}{\frac{U}{n}}=\frac{\frac{Z^{2}}{1}}{\frac{U^{2}}{n}}\,\sim\,F(1,\,n)$이 성립한다. 즉 $T\,\sim\,t(n)$일 때 $T^{2}\,\sim\,F(1,\,n)$이다.

자유도가 $(m,\,n)$인 F분포의 평균과 분산은 다음과 같고, 증명은 Introduction to Mathematical Statistics 7th edition, Hogg, McKean, Craig, Pearson 참고$$E(F)=\frac{n}{n-2},\,\text{Var}(F)=\frac{2n^{2}(m+n-2)}{m(n-2)^{2}(n-4)}$$

참고자료:

John E Freund's Mathematical Statistics with Applications 8th edition, Irwon Miller, Marylees Miller, Pearson

Introduction to Mathematical Statistics 7th edition, Hogg, McKean, Craig, Pearson

수리통계학, 허문열, 송문섭, 박영사

저작자표시 비영리 동일조건 (새창열림)

'확률및통계 > 수리통계학' 카테고리의 다른 글

[수리통계학] 12. 점추정(적률법, 최대우도법) (0)	2019.03.31
[수리통계학] 11. 추정량 (0)	2019.03.30
[수리통계학] 9. 표본분포, 중심극한정리 (0)	2019.03.28
[수리통계학] 8. 확률변수의 변환 (0)	2019.03.27
[수리통계학] 7. 연속확률변수와 관련된 분포들 (0)	2018.11.22

Posted by skywalker222

지식저장고(Knowledge Storage)