반응형

[수리통계학] 10. 카이제곱분포, t분포, F분포



카이제곱분포


모평균 \(\mu\)를 추정하기 위해 표본평균 \(\overline{X}\)를 이용하고 모분산 \(\sigma^{2}\)를 추정하기 위해 표본분산 \(S^{2}\)를 이용한다. \(\mu\)를 추정하기 위해서는 \(\overline{X}\)의 분포를 알아야 하고 \(\sigma^{2}\)를 추정하기 위해서는 \(S^{2}\)의 분포를 알아야 한다. 모분산 추정에는 카이제곱분포(chi-square distribution)이 사용된다. 다음은 카이제곱분포의 정의이다.


확률변수 \(X\)의 확률밀도함수가$$f(x)=\begin{cases}\frac{1}{2^{\frac{n}{2}}\Gamma\left(\frac{n}{2}\right)}x^{\frac{n}{2}-1}e^{-\frac{x}{2}}&\,(x>0)\\0&\,(\text{otherwise})\end{cases}$$일 때 \(X\)는 자유도가 \(n\)인 카이제곱(\(\chi^{2}\))분포를 따른다고 하고 \(X\,\sim\,\chi^{2}(n)\)으로 나타낸다.

(자유도가 \(v\)인 카이제곱분포의 확률밀도함수)

카이제곱분포는 감마분포에서 \(\displaystyle\alpha=\frac{n}{2},\,\beta=2\)인 경우에 해당한다. 그러므로 \(X\,\sim\,\chi^{2}(n)\)일 때, \(X\)의 평균, 분산, 적률생성함수는 다음과 같다.$$E(X)=n,\,\text{Var}(X)=2n,\,M_{X}(t)=\frac{1}{(1-2t)^{\frac{n}{2}}}$$카이제곱분포에서 \((1-\alpha)\)분위수를 \(\chi_{\alpha,\,n}^{2}\)로 나타낸다. 즉 \(X\,\sim\,\chi^{2}(n)\)일 때, \(\chi^{2}_{\alpha,\,n}\)은$$P(X>\chi^{2}_{\alpha,\,n})=\alpha\,(P(X\geq\chi^{2}_{\alpha,\,n})=\alpha)$$를 만족하는 값(카이제곱분포의 확률밀도함수에서 \(\chi_{\alpha,\,n}^{2}\)의 오른쪽 영역의 넓이가 \(\alpha\))이다.

\(X\,\sim\,\chi^{2}(5)\)일 때 \(P(X>1.145)=0.95,\,P(X>11.07)=0.05\)이고, \(\chi^{2}_{0.95,\,5}=1.145,\,\chi^{2}_{0.05,\,5}=11.07\)이며 이 확률은 정규분포의 경우처럼 카이제곱분포표를 이용하여 구한다. 


확률변수 \(X\)가 \(X\,\sim\,N(0,\,1)\)일 때, \(X^{2}\,\sim\,\chi^{2}(1)\)이다.

이 정리는 앞에서 변수변환을 통해서 보였다. 간단히 설명하자면 \(F_{X^{2}}\)를 \(X^{2}\)의 분포함수라고 하자. 그러면$$\begin{align*}F_{X^{2}}(y)&=P(X^{2}\leq y)=P(-\sqrt{y}\leq X\leq\sqrt{y})\\&=2\int_{0}^{\sqrt{y}}{\frac{1}{\sqrt{2\pi}}e^{-\frac{x^{2}}{2}}dx}\,(y>0)\end{align*}$$이고 \(x=\sqrt{z}\)라고 하면 \(\displaystyle dx=\frac{1}{2\sqrt{z}}dz\)이므로\(\displaystyle F_{X^{2}}=\int_{0}^{y}{\frac{1}{\sqrt{2\pi z}}e^{-\frac{z}{2}}dz}\)이고 \(\displaystyle f_{X^{2}}(y)=\frac{d}{dy}F_{X^{2}}(y)=\frac{1}{\sqrt{\pi}2^{\frac{1}{2}}}y^{\frac{1}{2}-1}e^{-\frac{y}{2}}\)이다. 이때 \(\displaystyle\sqrt{\pi}=\Gamma\left(\frac{1}{2}\right)\)이므로 \(f_{X^{2}}\)는 \(\chi^{2}(1)\)의 확률밀도함수이다.


위의 결과를 일반화하면 다음과 같다.


\(X_{1},\,X_{2},\,\cdots,\,X_{n}\)을 서로 독립이고 표준정규분포를 따르는 확률변수라고 하면 \(\displaystyle Y=\sum_{i=1}^{n}{X_{i}^{2}}\)는 자유도가 \(n\)인 카이제곱분포를 따른다.

증명: 앞의 결과에 의해 \(X_{i}\)의 적률생성함수는 \(\displaystyle M_{X_{i}^{2}}(t)=\frac{1}{(1-2t)^{\frac{1}{2}}}\)이고 \(X_{i}^{2}\)들은 서로 독립이므로$$M_{Y}(t)=\prod_{i=1}^{n}{\frac{1}{(1-2t)^{\frac{1}{2}}}}=\frac{1}{(1-2t)^{\frac{n}{2}}}$$이고 따라서 \(Y\)는 자유도가 \(n\)인 카이제곱분포를 따른다.


\(X_{1},\,X_{2},\,\cdots,\,X_{n}\)이 자유도가 각각 \(v_{1},\,v_{2},\,\cdots,\,v_{n}\)이고 서로 독립인 카이제곱분포를 따르는 확률변수이면 \(\displaystyle Y=\sum_{i=1}^{n}{X_{i}^{2}}\)는 자유도가 \(\displaystyle\sum_{i=1}^{n}{v_{i}}\)인 카이제곱분포를 따른다.

증명: \(\displaystyle M_{X_{i}}=\frac{1}{(1-2t)^{\frac{v_{i}}{2}}}\)이므로$$M_{Y}(t)=\prod_{i=1}^{n}{M_{X_{i}}(t)}=\frac{1}{(1-2t)^{\frac{v_{1}+v_{2}+\cdots+v_{n}}{2}}}$$이고 따라서 \(Y\)는 자유도가 \(\displaystyle\sum_{i=1}^{n}{v_{i}}\)인 카이제곱분포를 따른다.


\(X_{1},\,X_{2}\)가 서로 독립이고 \(X_{1}\,\sim\,\chi^{2}(n_{1})\), \(X_{1}+X_{2}\,\sim\,\chi^{2}(n_{1}+n_{2})\)이면, \(X_{2}\,\sim\,\chi^{2}(n_{2})\)이다.

증명: \(X_{1}\)과 \(X_{1}+X_{2}\)의 적률생성함수는 다음과 같다.$$M_{X_{1}}(t)=\frac{1}{(1-2t)^{\frac{n_{1}}{2}}},\,M_{X_{1}+X_{2}}(t)=\frac{1}{(1-2t)^{\frac{n_{1}+n_{2}}{2}}}$$그러면 \(X_{2}\)의 적률생성함수는$$M_{X_{2}}(t)=\frac{M_{X_{1}+X_{2}}(t)}{M_{X_{1}}(t)}=\frac{1}{(1-2t)^{\frac{n_{2}}{2}}}$$이고 따라서 \(X_{2}\,\sim\,\chi^{2}(n_{2})\)이다. 


\(X_{1},\,X_{2},\,\cdots,\,X_{n}\)을 평균이 \(\mu\), 표준편차가 \(\sigma\)인 정규모집단에서 추출된 크기가 \(n\)인 확률표본이라고 하자. 표본평균과 표본분산을 다음과 같이 정의하면$$\overline{X}=\frac{1}{n}\sum_{i=1}^{n}{X_{i}},\,S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}{(X_{i}-\overline{X})^{2}}$$다음 성질들이 성립한다.

(1) \(\overline{X}\)와 \(S^{2}\)는 독립이다.

(2) 확률변수 \(\displaystyle\frac{(n-1)S^{2}}{\sigma^{2}}\,\sim\,\chi^{2}(n-1)\)

증명:

(1) 일반적인 경우의 증명은 복잡하기 때문에 \(n=2\)인 경우에 대해서만 증명하겠다.

\(n=2\)일 때, \(\displaystyle\overline{X}=\frac{X_{1}+X_{2}}{2},\,S^{2}=\frac{1}{2-1}\sum_{i=1}^{2}{(X_{i}-\overline{X})^{2}}=\frac{(X_{1}-X_{2})^{2}}{2}\)이므로 \(\overline{X}\)와 \(S^{2}\)의 독립을 보이기 위해서 \(X_{1}+X_{2}\)와 \(X_{1}-X_{2}\)가 독립임을 보이면 충분하다. \(X_{1}+X_{2}\)와 \(X_{1}-X_{2}\)는 모두 정규분포를 따르는 확률변수이므로 이 두 확률변수의 공분산이 \(0\)이 됨을 보이면 된다.$$\begin{align*}\text{Cov}(X_{1}+X_{2},\,X_{1}-X_{2})&=E((X_{1}+X_{2})(X_{1}-X_{2}))-E(X_{1}+X_{2})E(X_{1}-X_{2})\\&=E(X_{1}^{2}-X_{2}^{2})-E(X_{1}+X_{2})E(X_{1}-X_{2})\\&=0\end{align*}$$이므로 \(X_{1}+X_{2}\)와 \(X_{1}-X_{2}\)는 독립이고 따라서 \(\overline{X}\)와 \(S^{2}\)는 독립이다.

(2) 다음의 항등식$$\sum_{i=1}^{n}{(X_{i}-\mu)^{2}}=\sum_{i=1}^{n}{(X_{i}-\overline{X})^{2}}+n(\overline{X}-\mu)^{2}$$의 양변을 \(\sigma^{2}\)로 나누고 \(\displaystyle\sum_{i=1}^{n}{(X_{i}-\overline{X})^{2}}=(n-1)S^{2}\)가 성립함을 이용하면$$\sum_{i=1}^{n}{\left(\frac{X_{i}-\mu}{\sigma}\right)^{2}}=\frac{(n-1)S^{2}}{\sigma^{2}}+\left(\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\right)^{2}$$이다. 앞 정리들로부터 \(\displaystyle\sum_{i=1}^{n}{\left(\frac{X_{i}-\mu}{\sigma}\right)^{2}}\,\sim\,\chi^{2}(n)\), \(\displaystyle\left(\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\right)^{2}\,\sim\,\chi^{2}(1)\)이므로 \(\displaystyle\frac{(n-1)S^{2}}{\sigma^{2}}\,\sim\,\chi^{2}(n-1)\)이다.             


앞에서 언급했던 자유도(degree of freedom)는 독립적인 관측값(또는 표본)의 개수를 뜻한다.$$\sum_{i=1}^{n}{(X_{i}-\overline{X})^{2}}=(X_{1}-\overline{X})^{2}+(X_{2}-\overline{X})^{2}+\cdots+(X_{n}-\overline{X})^{2}$$이고 \(n\)개의 편차 \((X_{1}-\overline{X}),\,(X_{2}-\overline{X}),\,\cdots,\,(X_{i}-\overline{X})\)에 대해서$$\sum_{i=1}^{n}{(X_{i}-\overline{X})}=(X_{1}-\overline{X})+(X_{2}-\overline{X})+\cdots+(X_{n}+\overline{X})=n\overline{X}-n\overline{X}=0$$이다. 이것은 \(n-1\)개의 편차가 결정되면 마지막 편차는 자동으로 결정된다는 것을 뜻하고 따라서 \(S^{2}\)의 자유도는 \(n-1\)이고 이러한 이유로 편차의 제곱합에 \(n\)이 아니라 \(n-1\)을 나누는 것이다.


\(\displaystyle\frac{(n-1)S^{2}}{\sigma^{2}}\,\sim\,\chi^{2}(n-1)\)이고 자유도가 \(n-1\)인 카이제곱분포의 평균과 분산이 각각 \(n-1,\,2(n-1)\)이므로$$E(S^{2})=\sigma^{2},\,\text{Var}(S^{2})=\frac{2}{n-1}\sigma^{4}$$이다.


t분포


모집단의 모평균 \(\mu\)를 추정하기 위해서 표본평균 \(\overline{X}\)를 사용하고, 관련된 분포를 알아야 한다. 모표준편차 \(\sigma\)를 알면$$Z=\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\,\sim\,N(0,\,1)$$을 이용하여 모평균을 추정할 수 있으나 일반적으로 모표준편차도 알 수 없기 때문에 모표준편차 \(\sigma\) 대신 표본표준편차 \(S(=\sqrt{S^{2}})\)를 사용하여 추정해야 한다. 즉 통계량$$T=\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}$$의 분포를 이용한다.


\(Z\,\sim\,N(0,\,1)\), \(U\,\sim\,\chi^{2}(n)\)가 독립이면 \(\displaystyle T=\frac{Z}{\sqrt{\frac{U}{n}}}\)의 확률밀도함수는$$f(t)=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{\pi n}\Gamma\left(\frac{n}{2}\right)\left(1+\frac{t^{2}}{n}\right)^{\frac{n+1}{2}}}\,(t\in\mathbb{R})$$이고, 이것을 자유도가 \(n\)인 t분포(t-distribution)라고 하며 \(T\,\sim\,t(n)\)으로 나타낸다.

증명: \(Z\)와 \(U\)가 독립이므로 결합밀도함수는 \(u>0,\,z\in\mathbb{R}\)일 때$$f(z,\,u)=\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}z^{2}}\frac{1}{\Gamma\left(\frac{n}{2}\right)2^{\frac{n}{2}}}u^{\frac{n}{2}-1}e^{-\frac{n}{2}}$$이고, 이 구간 이외에서는 \(f(z,\,u)=0\)이다. \(\displaystyle t=\frac{z}{\sqrt{\frac{u}{n}}}\)라고 하면 \(\displaystyle z=t\sqrt{\frac{u}{n}}\)이므로 \(\displaystyle\frac{\partial z}{\partial t}=\sqrt{\frac{u}{n}}\)이다. 그러므로 \(U\)와 \(T\)의 결합밀도함수는$$g(t,\,u)=\begin{cases}\frac{1}{\sqrt{2\pi n}\Gamma\left(\frac{n}{2}\right)2^{\frac{n}{2}}}u^{\frac{n+1}{2}-1}e^{-\frac{u}{2}\left(1+\frac{t^{2}}{n}\right)}&\,(y>0,\,t\in\mathbb{R})\\0&\,(\text{otherwise})\end{cases}$$이고 따라서 \(T\)의 주변밀도함수는$$\begin{align*}f(t)&=\int_{-\infty}^{\infty}{g(t,\,u)du}\\&=\int_{0}^{\infty}{\frac{1}{\sqrt{2\pi n}\Gamma\left(\frac{n}{2}\right)2^{\frac{n}{2}}}u^{\frac{n+1}{2}-1}e^{-\frac{u}{2}\left(1+\frac{t^{2}}{n}\right)}du}\\&=\int_{0}^{\infty}{\frac{1}{\sqrt{2\pi n}\Gamma\left(\frac{n}{2}\right)2^{\frac{n}{2}}}\left(\frac{2w}{1+\frac{t^{2}}{n}}\right)^{\frac{n+1}{2}-1}e^{-w}\left(\frac{2}{1+\frac{t^{2}}{n}}\right)dw}\,\left(w=\frac{u}{2}\left(1+\frac{t^{2}}{n}\right)\right)\\&=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{\pi n}\Gamma\left(\frac{n}{2}\right)\left(1+\frac{t^{2}}{n}\right)^{\frac{n+1}{2}}}\end{align*}$$이다.


t분포를 Student t 분포(Student t distribution)라고 한다.(t분포를 발표한 고셋(Gosset)은 Student라는 필명을 사용했다)

위의 그림은 표준정규분포와 t분포의 확률밀도함수를 나타낸 것이다. t분포의 확률밀도함수는 표준정규분포와 비슷하고 자유도 \(n\)이 충분히 크면 중심극한정리에 의해 표준정규분포에 수렴하게 된다.

(자유도가 \(v\)인 t분포의 확률밀도함수)

자유도가 \(n\)인 t분포는 \(Z\,\sim\,N(0,\,1)\)과 \(U\,\sim\,\chi^{2}(n)\)인 두 확률변수가 결합된 결과이다. \(\displaystyle T=\frac{Z}{\sqrt{\frac{U}{n}}}\)이므로$$\begin{align*}E(T)&=E(Z)E\left(\sqrt{\frac{n}{U}}\right)=0\\ E(T^{2})&=E(Z^{2})E\left(\frac{n}{U^{2}}\right)=\frac{n}{n-2}\end{align*}$$(자세한건 Introduction to Mathematical statistics 7th edition, Hogg, McKean, Craig 참고)이고 따라서 \(\displaystyle E(T)=0,\,\text{Var}(T)=\frac{n}{n-2}\)이다.(*t분포의 적률생성함수는 존재하지 않음)


평균이 \(\mu\)이고 분산이 \(\sigma^{2}\)인 정규모집단에서 추출된 확률표본 \(X_{1},\,X_{2},\,\cdots,\,X_{n}\)에 대하여 \(\overline{X}\)와 \(S^{2}\)를 각각 표본평균, 표본분산이라고 하면 다음이 성립한다.$$T=\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}\,\sim\,t(n-1)$$

증명:$$T=\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}=\frac{\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}}{\sqrt{\frac{(n-1)S^{2}}{\sigma}\frac{1}{n-1}}}$$이고$$Z=\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\,\sim\,N(0,\,1),\,U=\frac{(n-1)S^{2}}{\sigma^{2}}\,\sim\,\chi^{2}(n-1)$$이며 \(\overline{X}\)와 \(S^{2}\)이 독립이므로 \(Z\)와 \(U\)도 독립이고 따라서 t분포의 정의에 의해 \(T\,\sim\,t(n-1)\)이다.


t분포에서 \((1-\alpha)\)분위수를 \(t_{\alpha,\,n}\)으로 나타낸다. 즉 \(X\,\sim\,t(n)\)일 때, \(t_{\alpha,\,n}\)은$$P(X>t_{\alpha,\,n})=\alpha\,(P(X\geq t_{\alpha,\,n})=\alpha)$$를 만족하는 값이다. 


\(X\,\sim\,t(10)\)일 때 \(t_{0.05,\,9}=1.833\)이고 \(P(X>1.833)=0.05\)이다. 이 확률은 t분포표를 이용해서 구하고 t분포표는 자유도 30까지 \(t_{\alpha,\,n}\)값이 주어지고 30보다 큰 자유도는 정규분포로 근사시킬 수 있다. 또한 \(t\)분포의 확률밀도함수는 \(t=0\)에 대해 대칭이며 \(t_{1-\alpha,\,n}=-t_{\alpha,\,n}\)가 성립하므로 \(\alpha>0.50\)일 때는 \(t_{\alpha,\,n}\)의 값을 앞의 식을 이용하여 구해야 한다.


*자유도가 1인 t분포를 코시분포(Cauchy distribution)라고 하고 확률밀도함수는$$f(x)=\frac{1}{\pi(1+x^{2})}\,(x\in\mathbb{R})$$이다. 코시분포의 예로 벽을 향해 기관총을 사격할 때 벽과 평행인 각도에서 시작해서 등각운동으로 회전시킬 때의 총알자국의 밀도는 코시분포를 따른다. 참고로 코시분포는 평균과 분산이 존재하지 않는다.


F분포


F분포(F distribution)는 두 표본분산의 비율에 대한 통계적 추론에 사용되고 이 추론은 분산분석에서 중요한 역할을 한다.


\(U\,\sim\,\chi^{2}(m)\), \(V\,\sim\,\chi^{2}(n)\)이 독립이면$$W=\frac{\frac{U}{m}}{\frac{V}{n}}$$의 확률밀도함수는$$f(w)=\frac{\Gamma\left(\frac{m}{n}\right)\left(\frac{m}{n}\right)^{\frac{m}{2}}w\frac{m}{2}-1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)\left(1+\frac{m}{n}w\right)^{\frac{m+n}{2}}}\,(w>0)$$이고 자유도가 \((m,\,n)\)인 F분포를 따른다고 하고 \(W\,\sim\,F(m,\,n)\)으로 나타낸다.

증명: \(U\)와 \(V\)의 결합밀도함수는$$f(u,\,v)=\frac{u^{\frac{m}{2}-1}v^{\frac{n}{2}-1}e^{-\frac{u+v}{2}}}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}\,(u,\,v>0)$$이고 이외의 구간에서 \(f(u,\,v)=0\)이다. \(\displaystyle w=\frac{\frac{u}{m}}{\frac{v}{n}}\)라고 하면 \(\displaystyle u=\frac{m}{n}vw\)이므로 \(\displaystyle\frac{\partial u}{\partial w}=\frac{m}{n}v\)이고 \(W\)와 \(V\)의 결합밀도는$$f(w,\,v)=\frac{1}{2^{\frac{m+n}{2}}\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)}\left(\frac{m}{n}\right)^{\frac{m}{2}}w^{\frac{m}{2}-1}v^{\frac{m+n}{2}-1}e^{-\frac{v}{2}\left(\frac{m}{n}w+1\right)}\,(w,\,v>0)$$이므로 \(W\)의 주변밀도함수는$$\begin{align*}f(w)&=\int_{0}^{\infty}{f(w,\,v)dv}\\&=\int_{0}^{\infty}{\frac{\left(\frac{m}{n}\right)^{\frac{m}{2}}w^{\frac{m}{2}-1}}{2^{\frac{m+n}{2}}\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)}v^{\frac{m+n}{2}-1}e^{-\frac{v}{2}\left(\frac{m}{n}w+1\right)}dv}\\&=\int_{0}^{\infty}{\frac{\left(\frac{m}{n}\right)^{\frac{m}{2}}w^{\frac{m}{2}-1}}{\Gamma\left(\frac{m}{2}\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}\right)}\left(\frac{2z}{\frac{m}{n}w+1}\right)^{\frac{m+n}{2}-1}e^{-z}\left(\frac{2}{\frac{m}{n}w+1}\right)dz}\,\left(z=\frac{v}{2}\left(\frac{m}{n}w+1\right)\right)\\&=\frac{\Gamma\left(\frac{m+n}{2}\right)\left(\frac{m}{n}\right)^{\frac{m}{2}}w^{\frac{m}{2}-1}}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)\left(1+\frac{m}{n}w\right)^{\frac{m+n}{2}}}\,(w>0)\end{align*}$$이다.


앞에서는 증명에 필요해서 \(W\)를 사용했지만 앞으로 F분포에서 \(\displaystyle F=\frac{\frac{U}{m}}{\frac{V}{n}}\)으로 나타내겠다. 즉 \(F\)가 자유도가 \((m,\,n)\)인 F분포를 따르면 \(F\,\sim\,F(m,\,n)\)이다. 여기서 자유도는 분자의 자유도부터 나타내고 그 다음으로 분모의 자유도를 나타낸다.

F분포에서 \((1-\alpha)\)분위수를 \(F_{\alpha,\,m,\,n}\)으로 나타낸다. 즉, \(F\,\sim\,F(m,\,n)\)일 때, \(F_{\alpha,\,m,\,n}\)은$$P(F>F_{\alpha,\,m,\,n})=\alpha\,(P(F\geq F_{\alpha,\,m,\,n})=\alpha)$$를 만족하는 값이다.

(F분포의 확률밀도함수)


\(X\,\sim\,F(4,\,5)\)일 때, \(F_{0.05,\,4,\,5}=5.19\)이고 \(P(F>5.19)=0.05\)이다.


\(X\,\sim\,F(m,\,n)\)일 때, \(\displaystyle\frac{1}{F}\,\sim\,F(n,\,m)\)이고 따라서 \(\displaystyle F_{1-\alpha,\,m,\,n}=\frac{1}{F_{\alpha,\,n,\,m}}\)이 성립한다.

앞의 예에서 \(\displaystyle F_{0.95,\,4,\,5}=\frac{1}{F_{0.05,\,5,\,4}}=\frac{1}{6.26}=0.16\)이고 \(P(X<0.16)=0.05\)이다.


\(X_{1},\,X_{2},\,\cdots,\,X_{m}\)을 평균이 \(\mu_{1}\)이고 표준편차가 \(\sigma_{1}\)인 정규모집단에서 추출한 크기가 \(m\)인 확률표본이라 하고 \(Y_{1},\,Y_{2},\,\cdots,\,Y_{n}\)을 평균이 \(\mu_{2}\)이고 표준편차가 \(\sigma_{2}\)인 정규모집단에서 추출한 크기가 \(n\)인 확률표본이라고 하자. 이 두 확률표본이 독립일 때,$$F=\frac{\frac{S_{1}^{2}}{\sigma_{1}^{2}}}{\frac{S_{2}^{2}}{\sigma_{2}^{2}}}\,\sim\,F(m-1,\,n-1)$$이고 여기서 \(S_{1}^{2},\,S_{2}^{2}\)는 각각 \(X,\,Y\)표본의 표본분산이다.

증명: $$F=\frac{\frac{S_{1}^{2}}{\sigma_{1}^{2}}}{\frac{S_{2}^{2}}{\sigma_{2}^{2}}}=\frac{\frac{(m-1)S_{1}^{2}}{\sigma_{1}^{2}}}{\frac{(n-1)S_{2}^{2}}{\sigma_{2}^{2}}}\frac{n-1}{m-1}$$이고$$\frac{(m-1)S_{1}^{2}}{\sigma_{1}^{2}}\,\sim\,\chi^{2}(m-1),\,\frac{(n-1)S_{2}^{2}}{\sigma_{2}^{2}}\,\sim\,\chi^{2}(n-1)$$이며 이 두 확률변수는 독립이므로 F분포의 정의에 의해 \(F\,\sim\,F(m-1,\,n-1)\)이다.


t분포와 F분포 사이의 관계:

t분포의 정의에서 \(U\,\sim\,\chi^{2}(n),\,Z\,\sim\,N(0,\,1)\)일 때, \(\displaystyle T=\frac{Z}{\sqrt{\frac{U}{n}}}\,\sim\,t(n)\)이고 \(Z\)와 \(U\)는 독립이므로 \(\displaystyle T^{2}=\frac{Z^{2}}{\frac{U}{n}}=\frac{\frac{Z^{2}}{1}}{\frac{U^{2}}{n}}\,\sim\,F(1,\,n)\)이 성립한다. 즉 \(T\,\sim\,t(n)\)일 때 \(T^{2}\,\sim\,F(1,\,n)\)이다.


자유도가 \((m,\,n)\)인 F분포의 평균과 분산은 다음과 같고, 증명은 Introduction to Mathematical Statistics 7th edition, Hogg, McKean, Craig, Pearson 참고$$E(F)=\frac{n}{n-2},\,\text{Var}(F)=\frac{2n^{2}(m+n-2)}{m(n-2)^{2}(n-4)}$$


참고자료:

John E Freund's Mathematical Statistics with Applications 8th edition, Irwon Miller, Marylees Miller, Pearson

Introduction to Mathematical Statistics 7th edition, Hogg, McKean, Craig, Pearson

수리통계학, 허문열, 송문섭, 박영사                            

반응형
Posted by skywalker222