Loading [MathJax]/jax/output/HTML-CSS/jax.js

반응형

[수리통계학] 10. 카이제곱분포, t분포, F분포



카이제곱분포


모평균 μ를 추정하기 위해 표본평균 ¯X를 이용하고 모분산 σ2를 추정하기 위해 표본분산 S2를 이용한다. μ를 추정하기 위해서는 ¯X의 분포를 알아야 하고 σ2를 추정하기 위해서는 S2의 분포를 알아야 한다. 모분산 추정에는 카이제곱분포(chi-square distribution)이 사용된다. 다음은 카이제곱분포의 정의이다.


확률변수 X의 확률밀도함수가f(x)={12n2Γ(n2)xn21ex2(x>0)0(otherwise)일 때 X는 자유도가 n인 카이제곱(χ2)분포를 따른다고 하고 Xχ2(n)으로 나타낸다.

(자유도가 v인 카이제곱분포의 확률밀도함수)

카이제곱분포는 감마분포에서 α=n2,β=2인 경우에 해당한다. 그러므로 Xχ2(n)일 때, X의 평균, 분산, 적률생성함수는 다음과 같다.E(X)=n,Var(X)=2n,MX(t)=1(12t)n2카이제곱분포에서 (1α)분위수를 χ2α,n로 나타낸다. 즉 Xχ2(n)일 때, χ2α,nP(X>χ2α,n)=α(P(Xχ2α,n)=α)를 만족하는 값(카이제곱분포의 확률밀도함수에서 χ2α,n의 오른쪽 영역의 넓이가 α)이다.

Xχ2(5)일 때 P(X>1.145)=0.95,P(X>11.07)=0.05이고, χ20.95,5=1.145,χ20.05,5=11.07이며 이 확률은 정규분포의 경우처럼 카이제곱분포표를 이용하여 구한다. 


확률변수 XXN(0,1)일 때, X2χ2(1)이다.

이 정리는 앞에서 변수변환을 통해서 보였다. 간단히 설명하자면 FX2X2의 분포함수라고 하자. 그러면FX2(y)=P(X2y)=P(yXy)=2y012πex22dx(y>0)이고 x=z라고 하면 dx=12zdz이므로FX2=y012πzez2dz이고 fX2(y)=ddyFX2(y)=1π212y121ey2이다. 이때 π=Γ(12)이므로 fX2χ2(1)의 확률밀도함수이다.


위의 결과를 일반화하면 다음과 같다.


X1,X2,,Xn을 서로 독립이고 표준정규분포를 따르는 확률변수라고 하면 Y=ni=1X2i는 자유도가 n인 카이제곱분포를 따른다.

증명: 앞의 결과에 의해 Xi의 적률생성함수는 MX2i(t)=1(12t)12이고 X2i들은 서로 독립이므로MY(t)=ni=11(12t)12=1(12t)n2이고 따라서 Y는 자유도가 n인 카이제곱분포를 따른다.


X1,X2,,Xn이 자유도가 각각 v1,v2,,vn이고 서로 독립인 카이제곱분포를 따르는 확률변수이면 Y=ni=1X2i는 자유도가 ni=1vi인 카이제곱분포를 따른다.

증명: MXi=1(12t)vi2이므로MY(t)=ni=1MXi(t)=1(12t)v1+v2++vn2이고 따라서 Y는 자유도가 ni=1vi인 카이제곱분포를 따른다.


X1,X2가 서로 독립이고 X1χ2(n1), X1+X2χ2(n1+n2)이면, X2χ2(n2)이다.

증명: X1X1+X2의 적률생성함수는 다음과 같다.MX1(t)=1(12t)n12,MX1+X2(t)=1(12t)n1+n22그러면 X2의 적률생성함수는MX2(t)=MX1+X2(t)MX1(t)=1(12t)n22이고 따라서 X2χ2(n2)이다. 


X1,X2,,Xn을 평균이 μ, 표준편차가 σ인 정규모집단에서 추출된 크기가 n인 확률표본이라고 하자. 표본평균과 표본분산을 다음과 같이 정의하면¯X=1nni=1Xi,S2=1n1ni=1(Xi¯X)2다음 성질들이 성립한다.

(1) ¯XS2는 독립이다.

(2) 확률변수 (n1)S2σ2χ2(n1)

증명:

(1) 일반적인 경우의 증명은 복잡하기 때문에 n=2인 경우에 대해서만 증명하겠다.

n=2일 때, ¯X=X1+X22,S2=1212i=1(Xi¯X)2=(X1X2)22이므로 ¯XS2의 독립을 보이기 위해서 X1+X2X1X2가 독립임을 보이면 충분하다. X1+X2X1X2는 모두 정규분포를 따르는 확률변수이므로 이 두 확률변수의 공분산이 0이 됨을 보이면 된다.Cov(X1+X2,X1X2)=E((X1+X2)(X1X2))E(X1+X2)E(X1X2)=E(X21X22)E(X1+X2)E(X1X2)=0이므로 X1+X2X1X2는 독립이고 따라서 ¯XS2는 독립이다.

(2) 다음의 항등식ni=1(Xiμ)2=ni=1(Xi¯X)2+n(¯Xμ)2의 양변을 σ2로 나누고 ni=1(Xi¯X)2=(n1)S2가 성립함을 이용하면ni=1(Xiμσ)2=(n1)S2σ2+(¯Xμσn)2이다. 앞 정리들로부터 ni=1(Xiμσ)2χ2(n), (¯Xμσn)2χ2(1)이므로 (n1)S2σ2χ2(n1)이다.             


앞에서 언급했던 자유도(degree of freedom)는 독립적인 관측값(또는 표본)의 개수를 뜻한다.ni=1(Xi¯X)2=(X1¯X)2+(X2¯X)2++(Xn¯X)2이고 n개의 편차 (X1¯X),(X2¯X),,(Xi¯X)에 대해서ni=1(Xi¯X)=(X1¯X)+(X2¯X)++(Xn+¯X)=n¯Xn¯X=0이다. 이것은 n1개의 편차가 결정되면 마지막 편차는 자동으로 결정된다는 것을 뜻하고 따라서 S2의 자유도는 n1이고 이러한 이유로 편차의 제곱합에 n이 아니라 n1을 나누는 것이다.


(n1)S2σ2χ2(n1)이고 자유도가 n1인 카이제곱분포의 평균과 분산이 각각 n1,2(n1)이므로E(S2)=σ2,Var(S2)=2n1σ4이다.


t분포


모집단의 모평균 μ를 추정하기 위해서 표본평균 ¯X를 사용하고, 관련된 분포를 알아야 한다. 모표준편차 σ를 알면Z=¯XμσnN(0,1)을 이용하여 모평균을 추정할 수 있으나 일반적으로 모표준편차도 알 수 없기 때문에 모표준편차 σ 대신 표본표준편차 S(=S2)를 사용하여 추정해야 한다. 즉 통계량T=¯XμSn의 분포를 이용한다.


ZN(0,1), Uχ2(n)가 독립이면 T=ZUn의 확률밀도함수는f(t)=Γ(n+12)πnΓ(n2)(1+t2n)n+12(tR)이고, 이것을 자유도가 n인 t분포(t-distribution)라고 하며 Tt(n)으로 나타낸다.

증명: ZU가 독립이므로 결합밀도함수는 u>0,zR일 때f(z,u)=12πe12z21Γ(n2)2n2un21en2이고, 이 구간 이외에서는 f(z,u)=0이다. t=zun라고 하면 z=tun이므로 zt=un이다. 그러므로 UT의 결합밀도함수는g(t,u)={12πnΓ(n2)2n2un+121eu2(1+t2n)(y>0,tR)0(otherwise)이고 따라서 T의 주변밀도함수는f(t)=g(t,u)du=012πnΓ(n2)2n2un+121eu2(1+t2n)du=012πnΓ(n2)2n2(2w1+t2n)n+121ew(21+t2n)dw(w=u2(1+t2n))=Γ(n+12)πnΓ(n2)(1+t2n)n+12이다.


t분포를 Student t 분포(Student t distribution)라고 한다.(t분포를 발표한 고셋(Gosset)은 Student라는 필명을 사용했다)

위의 그림은 표준정규분포와 t분포의 확률밀도함수를 나타낸 것이다. t분포의 확률밀도함수는 표준정규분포와 비슷하고 자유도 n이 충분히 크면 중심극한정리에 의해 표준정규분포에 수렴하게 된다.

(자유도가 v인 t분포의 확률밀도함수)

자유도가 n인 t분포는 ZN(0,1)Uχ2(n)인 두 확률변수가 결합된 결과이다. T=ZUn이므로E(T)=E(Z)E(nU)=0E(T2)=E(Z2)E(nU2)=nn2(자세한건 Introduction to Mathematical statistics 7th edition, Hogg, McKean, Craig 참고)이고 따라서 E(T)=0,Var(T)=nn2이다.(*t분포의 적률생성함수는 존재하지 않음)


평균이 μ이고 분산이 σ2인 정규모집단에서 추출된 확률표본 X1,X2,,Xn에 대하여 ¯XS2를 각각 표본평균, 표본분산이라고 하면 다음이 성립한다.T=¯XμSnt(n1)

증명:T=¯XμSn=¯Xμσn(n1)S2σ1n1이고Z=¯XμσnN(0,1),U=(n1)S2σ2χ2(n1)이며 ¯XS2이 독립이므로 ZU도 독립이고 따라서 t분포의 정의에 의해 Tt(n1)이다.


t분포에서 (1α)분위수를 tα,n으로 나타낸다. 즉 Xt(n)일 때, tα,nP(X>tα,n)=α(P(Xtα,n)=α)를 만족하는 값이다. 


Xt(10)일 때 t0.05,9=1.833이고 P(X>1.833)=0.05이다. 이 확률은 t분포표를 이용해서 구하고 t분포표는 자유도 30까지 tα,n값이 주어지고 30보다 큰 자유도는 정규분포로 근사시킬 수 있다. 또한 t분포의 확률밀도함수는 t=0에 대해 대칭이며 t1α,n=tα,n가 성립하므로 α>0.50일 때는 tα,n의 값을 앞의 식을 이용하여 구해야 한다.


*자유도가 1인 t분포를 코시분포(Cauchy distribution)라고 하고 확률밀도함수는f(x)=1π(1+x2)(xR)이다. 코시분포의 예로 벽을 향해 기관총을 사격할 때 벽과 평행인 각도에서 시작해서 등각운동으로 회전시킬 때의 총알자국의 밀도는 코시분포를 따른다. 참고로 코시분포는 평균과 분산이 존재하지 않는다.


F분포


F분포(F distribution)는 두 표본분산의 비율에 대한 통계적 추론에 사용되고 이 추론은 분산분석에서 중요한 역할을 한다.


Uχ2(m), Vχ2(n)이 독립이면W=UmVn의 확률밀도함수는f(w)=Γ(mn)(mn)m2wm21Γ(m2)Γ(n2)(1+mnw)m+n2(w>0)이고 자유도가 (m,n)인 F분포를 따른다고 하고 WF(m,n)으로 나타낸다.

증명: UV의 결합밀도함수는f(u,v)=um21vn21eu+v2Γ(m2)Γ(n2)2m+n2(u,v>0)이고 이외의 구간에서 f(u,v)=0이다. w=umvn라고 하면 u=mnvw이므로 uw=mnv이고 WV의 결합밀도는f(w,v)=12m+n2Γ(m2)Γ(n2)(mn)m2wm21vm+n21ev2(mnw+1)(w,v>0)이므로 W의 주변밀도함수는f(w)=0f(w,v)dv=0(mn)m2wm212m+n2Γ(m2)Γ(n2)vm+n21ev2(mnw+1)dv=0(mn)m2wm21Γ(m2Γ(n2)2m+n2)(2zmnw+1)m+n21ez(2mnw+1)dz(z=v2(mnw+1))=Γ(m+n2)(mn)m2wm21Γ(m2)Γ(n2)(1+mnw)m+n2(w>0)이다.


앞에서는 증명에 필요해서 W를 사용했지만 앞으로 F분포에서 F=UmVn으로 나타내겠다. 즉 F가 자유도가 (m,n)인 F분포를 따르면 FF(m,n)이다. 여기서 자유도는 분자의 자유도부터 나타내고 그 다음으로 분모의 자유도를 나타낸다.

F분포에서 (1α)분위수를 Fα,m,n으로 나타낸다. 즉, FF(m,n)일 때, Fα,m,nP(F>Fα,m,n)=α(P(FFα,m,n)=α)를 만족하는 값이다.

(F분포의 확률밀도함수)


XF(4,5)일 때, F0.05,4,5=5.19이고 P(F>5.19)=0.05이다.


XF(m,n)일 때, 1FF(n,m)이고 따라서 F1α,m,n=1Fα,n,m이 성립한다.

앞의 예에서 F0.95,4,5=1F0.05,5,4=16.26=0.16이고 P(X<0.16)=0.05이다.


X1,X2,,Xm을 평균이 μ1이고 표준편차가 σ1인 정규모집단에서 추출한 크기가 m인 확률표본이라 하고 Y1,Y2,,Yn을 평균이 μ2이고 표준편차가 σ2인 정규모집단에서 추출한 크기가 n인 확률표본이라고 하자. 이 두 확률표본이 독립일 때,F=S21σ21S22σ22F(m1,n1)이고 여기서 S21,S22는 각각 X,Y표본의 표본분산이다.

증명: F=S21σ21S22σ22=(m1)S21σ21(n1)S22σ22n1m1이고(m1)S21σ21χ2(m1),(n1)S22σ22χ2(n1)이며 이 두 확률변수는 독립이므로 F분포의 정의에 의해 FF(m1,n1)이다.


t분포와 F분포 사이의 관계:

t분포의 정의에서 Uχ2(n),ZN(0,1)일 때, T=ZUnt(n)이고 ZU는 독립이므로 T2=Z2Un=Z21U2nF(1,n)이 성립한다. 즉 Tt(n)일 때 T2F(1,n)이다.


자유도가 (m,n)인 F분포의 평균과 분산은 다음과 같고, 증명은 Introduction to Mathematical Statistics 7th edition, Hogg, McKean, Craig, Pearson 참고E(F)=nn2,Var(F)=2n2(m+n2)m(n2)2(n4)


참고자료:

John E Freund's Mathematical Statistics with Applications 8th edition, Irwon Miller, Marylees Miller, Pearson

Introduction to Mathematical Statistics 7th edition, Hogg, McKean, Craig, Pearson

수리통계학, 허문열, 송문섭, 박영사                            

반응형
Posted by skywalker222