Loading [MathJax]/jax/output/HTML-CSS/jax.js

반응형

[수리통계학] 9. 표본분포, 중심극한정리



관심의 대상이 되는 모든 개체들의 집합 또는 표본이 추출된 측정값들의 집합을 모집단(population)이라고 한다. 모집단에서 측정값을 확률변수 X로 나타내고, 모집단의 특성을 X의 분포(distribution)로 나타낸다(따라서 모집단과 분포는 같은 의미로 사용된다). 모집단 전체를 조사하는 것은 현실적으로 어렵기 때문에 모집단에서 일부를 추출해서 조사를 하는데 추출된 측정값들의 집합을 표본(sample)이라고 한다. 여기서는 주로 유한하지만 큰 사이즈 때문에 무한모집단(infinite population)으로 다루어 지는 모집단에 대해서 다룰 것이다.

모집단을 확률변수 X의 분포로 가정할 수 있기 때문에 모집단에서 추출된 표본들을 확률변수 X1,X2,,Xn으로 나타낼 수 있다. 이러한 표본들은 서로 독립이고 동일한 분포를 갖기 때문에 이 표본들을 확률표본(random sample)이라고 한다.

확률표본 X1,X2,,Xn의 결합밀도함수가 fX1,X2,,Xn(x1,x2,,xn)이고 X1,X2,,Xn의 확률밀도함수가 각각 fX1(x1),fX2(x2),,fXn(xn)일 때, 다음의 식이 성립한다.fX1,X2,,Xn(x1,x2,,xn)=fX1(x1)fX2(x2)fXn(xn)=ni=1fXi(xi)

모집단 또는 분포의 특성을 결정하는 상수를 모수(parameter)라고 한다. 예를들어 평균, 분산, 표준편차 등은 모두 모수들이다. 이런 모수들의 값을 추정하기 위해 모집단에서 표본을 추출해서 추출한 표본을 이용한 공식으로 모수를 추정한다. 예를들어 모집단에서 추출한 확률표본 X1,X2,,Xn에 대한 표본평균(sample mean), 표본분산(sample variance)¯X=1nni=1Xi,S2=1n1ni=1(Xi¯X)2의 값을 구해서 모수인 모평균 μ와 모분산 σ2를 추정한다. 앞의 표본평균 ¯X와 표본분산 S2는 확률표본의 함수로써 확률표본의 값이 정해지면 이 함수들의 값도 정해진다. 이와 같은 관측가능(observable)한 확률표본의 함수를 통계량(statistics)이라고 한다. 여기서 관측가능의 의미는 미지의 모수가 포함되지 않은 것을 뜻한다. 예를들어 ¯X는 관측가능하나 W=X1+X22μ는 모평균 μ의 값을 모르기 때문에 관측가능하지 않다.

표본평균 ¯X는 모평균 μ를 추정하는데 사용되고, 표본분산 S2는 모분산 σ2를 추정하는데 사용된다. 모수의 추정에 사용되는 통계량을 추정량(estimator)이라고 하고 추정량의 측정값을 추정값(estimate)이라고 한다.


통계량은 확률변수이기 때문에 표본에 따라 값이 변하고 따라서 이들의 분포를 표본분포(sampling distribution)라고 한다.


평균이 μ이고 분산이 σ2인 모집단에서 추출된 확률표본 X1,X2,,Xn의 표본평균 ¯X에 대하여 E(¯X)=μ,Var(¯X)=σ2n이다. 왜냐햐면E(¯X)=1nni=1E(Xi)=1n(nμ)=μVar(¯X)=1n2ni=1Var(Xi)=1n2(nσ2)=σ2n이기 때문이다.


대수의 법칙(law of large numbers)


임의의 c>0에 대하여 다음의 부등식이 성립한다.P(μc¯Xμ+c)1σ2nc2이 정리의 증명은 체비셰프 부등식에서 kσ=c인 경우이다. 


중심극한정리(central limit theorem)


평균이 μ이고 분산이 σ2인 모집단에서 추출된 확률표본 X1,X2,,Xn에 대하여 n일 때 확률변수 Z=¯Xμσn는 표준정규분포를 따른다.

증명: 적률생성함수의 성질로부터MZ(t)=enμtσM¯X(ntσ=enμtσMn¯X(tσn))이고 n¯X=ni=1Xi이므로MZ(t)=enμtσMX1(tσn)MXn(tσn)=enμtσ{M¯X(tσn)}이고lnMZ(t)=nμtσ+nlnM¯X(tσn)이다. M¯X(tσn)의 t에 대한 매클로린 급수는M¯X(tσn)=1+μ11!tσn+μ22!(tσn)2+μ33!(tσn)2+(μ1,μ2,μ3은 모집단 분포(원래 확률변수 Xi의 분포)의 원점에 대한 적률)이고ln(1+x)=x12x2+13x3+이므로lnMZ(t)=nμtσ+n{(μ1tσn+μ2t22σ2n+μ3t36σ3nn+)12(μ1tσn+μ2t22σ2n+μ3t33σ3nn+)2+13(μ1tσn+μ2t22σ2n+μ3t36σ3nn+)3}=(nμσ+nμ1σ)t+(μ22σ2(μ1)22σ2)t2+(μ36σ3nμ1μ22σ3n+(μ1)33σ3n)t3+=12t2+(μ36μ1μ22+(μ1)36)t3σ3n+(μ1=μ,μ2μ1=σ2)이고 limnlnMZ(t)=12t2이므로limnMZ(t)=e12t2이고 이것은 표준정규분포의 적률생성함수이다.


중심극한정리의 의미는 n이 클 때 ¯X의 분포를 평균이 μ이고 분산이 σ2n인 정규분포로 근사시키는 것을 의미한다. 실제로 중심극한정리는 모집단의 분포에 관계없이 n30일 때 적용할 수 있고, n<30이면 적용할 수 없다.          

 

중심극한정리로부터 다음 식이 성립한다.limnP(¯Xμσnz)=Φ(z)여기서 Φ(z)는 표준정규분포의 누적분포함수이다.


어느 음료수 자판기의 판매되는 음료수의 양은 평균이 200mL, 표준편차가 15mL이다. 이 자판기에서 36개의 음료수를 추출했을 때, 이 확률표본들의 평균 ¯X가 최소 204mL가 될 확률을 구하면 표본의 수가 36이므로 중심극한정리를 적용할 수 있고E(¯X)=200,Var(¯X)=1536=2.5이므로 중심극한정리에 의해P(¯X204)=P(Z2042002.5)=P(Z1.6)=0.50000.4452=0.0548이다.


참고자료:

John E Freund's Mathematical Statistics with Applications 8th edition, Irwon Miller, Marylees Miller, Pearson

수리통계학, 허문열, 송문섭, 박영사  

반응형
Posted by skywalker222