[수리통계학] 8. 확률변수의 변환
여기서는 주어진 확률밀도함수를 다른 확률밀도함수로 변환하는 방법에 대해 다룰 것이다.
평균이 λ=1인 지수분포를 따르는 확률변수 X에 대하여 Y=√X의 확률밀도함수를 구하자. Y의 분포함수는FY(y)=P(Y≤y)=P(√X≤y)이고 λ=1인 지수분포의 확률밀도함수와 분포함수는 각각f(x)={e−x(x>0)0(otherwise)F(x)={1−e−x(x>0)0(otherwise)이며, Y=√X이므로 y>0이고 따라서 Y의 분포함수는G(y)=P(Y≤y)=P(√X≤y)=P(X≤y2)=F(y2)=1−e−y2(y>0)이고 밀도함수는g(y)=ddyG(y)=2ye−y2(y>0)이다.
확률변수 X1,X2의 결합밀도가f(x1,x2)={6e−3x1−2x2(x1>0,x2>0)0(otherwise)일 때 Y=X1+X2의 확률밀도를 구하자. 위의 결합밀도함수를 영역 {(x1,x2)|x1+x2≤y}에서 적분하면F(y)=∫y0∫y−x206e−3x1−2x2dx1dx2=1+2e−3y−3e−2y이고 확률밀도함수는f(y)=ddyF(y)=6(e−2y−e−3y)(y>0)이다.
확률변수 X가 동전을 4회 던졌을 때의 앞면의 개수라고 하자. 그러면 X의 확률분포는 다음과 같고
x |
0 |
1 |
2 |
3 |
4 |
f(x) |
116 |
416 |
616 |
416 |
116 |
y |
1 |
12 |
13 |
14 |
15 |
g(y) |
116 |
416 |
616 |
416 |
116 |
확률변수 X의 확률밀도함수가 fX(x)이고 g(x)가 fX(x)의 정의역에서 증가하거나 감소하는 함수이면, Y=g(X)의 확률밀도함수는 다음과 같다.fY(y)=fX(g−1(y))|dxdy|(x=g−1(y))
증명:
(i) g(x)가 단조증가하면FY(y)=P(Y≤y)=P(g(X)≤y)=P(X≤g−1(y))=FX(g−1(y))이므로 Y의 확률밀도함수는fY(y)=ddyFX(g−1(y))=ddxFX(x)dxdy=fX(g−1(y))dxdy이다.
(ii) g(x)가 단조감소하면FY(y)=P(X≥g−1(y))=1−P(X≤g−1(y))=1−FX(g−1(y))이므로 Y의 확률밀도함수는fY(y)=−ddyFX(g−1(y))=−ddxFX(x)dxdy=fX(g−1(y))(−dxdy)이다.
위 두 결과를 종합하면 Y의 확률밀도함수는 fY(y)=fX(g−1(y))|dxdy|이다.
X∼N(μ,σ2),X=lnY일 때, lnY∼N(μ,σ2)이므로 Y는 로그정규분포(lognormal distribution)를 따른다고 한다. 위의 정리를 적용하면 로그정규분포를 따르는 확률변수 Y의 확률밀도함수는fY(y)=fX(g−1(y))dxdy=1√2πσye−(lny−μ)22σ2(y>0)이다.
X∼N(0,12),Z=X2일 때, Z의 확률밀도함수를 구하기 위해서는 먼저 Y=|X|의 확률밀도함수를 구한 다음 Z=Y2(=X2)의 확률밀도함수를 구한다.
Y=|X|일 때,FY(y)=P(Y≤y)=P(|X|≤y)=P(−y≤X≤y)=F(y)−F(−y)이므로 fY(y)=ddyFY(y)=g(y)+g(−y)이다.
그러면 fY(y)=2√2πe−12y2이고 z=y2는 y>0일 때 증가하므로 dydz=12√z이고 z>0일 때fZ(z)=2√2πe−12z|12√z|=1√2πze−12z이며 이외의 경우(z≤0)에 대해서 h(z)=0이다. 따라서 Z의 확률밀도함수는fZ(z)=1√2πze−12z(z>0)이다.
연속확률변수 X의 확률밀도함수와 분포함수가 각각 fX(x), FX(x)일 때, 확률변수 Y=FX(X)의 확률밀도함수를 구하자.
y=F(x)를 x에 대해 미분하면 dydx=F′X(x)=fX(x)이므로 fX(x)≠0일 때 dxdy=1dydx=1fX(x)이고 0≤y=FX(x)≤1이므로 0<y<1일 때 fY(y)=fX(x)|1fX(x)|=1이고 따라서 Y는 α=0,β=1인 균등분포를 따른다.
이 결과를 확률적분변환(probability integral transformation)이라고 한다.
2변수 이상의 확률밀도함수에 대해서도 변환을 적용할 수 있다.
확률변수 X1,X2가 서로 독립이고 각각 평균이 λ1,λ2인 포아송 분포를 따른다고 하자. 두 확률변수가 서로 독립이므로 이 확률분포의 결합밀도함수는fX1,X2(x1,x2)=e−λ1(λ1)x1x1!e−λ2(λ2)x2x2!=e−(λ1+λ2)(λ1)x1(λ2)x2x1!x2!(x1,x2≥0)이고 Y=X1+X2라고 하면 y=x1+x2이므로 x2=y−x1이고 Y,X2의 결합밀도함수는 g(y,x2)=e−(λ1+λ2)(λ2)x2(λ1)y−x2x2!(y−x2)!이므로 Y의 주변확률밀도함수는fY1(y)=y∑x2=0e−(λ1+λ2)(λ2)x2(λ1)x1x2!(y−x2)!=e−(λ1+λ2)y!y∑x2=0y!x2!(y−x2)!(λ2)x2(λ1)y−x2=e−(λ1+λ2)(λ1+λ2)yy!(y≥0)이다.
확률변수 X1,X2의 결합밀도함수가fX1,X2(x1,x2)={e−(x1+x2)(x1>0,x2>0)0(otherwise)일 때 Y=X1X1+X2의 확률밀도함수를 구하면 y=x1x1+x2이므로 x2=x1(1y−1)이고 ∂x2∂y=−x1y2이므로 X1,Y의 결합밀도함수는 fX1,Y(x1,y)=fX1,X2(x1,x2)|∂x2∂y|=x1y2e−x1y이고 따라서 Y의 주변확률밀도함수는fY(y)=∫∞0x1y2e−x1ydx1=∫∞0ue−udu(u=x1y)=Γ(2)=1(y>0)이다.
연속확률변수 X1,X2에 대한 결합밀도함수를 fX1,X2(x1,x2)라 하고, Y1=u1(X1,X2), Y2=u2(X1,X2)라고 하자. 일대일 변환 y1=u1(x1,x2), y2=u2(x1,x2)에 대하여 u1,u2의 역상 w1,w2가 존재해서 x1=w1(y1,y2), x2=w2(y1,y2)가 fX1,X2(x1,x2)≠0인 X1,X2범위에서 정의되면, Y1,Y2의 결합밀도함수는 다음과 같다.fY1,Y2(y1,y2)=fX1,X2(w1(y1,y2),w2(y1,y2))|J|(J=|∂x1∂y1∂x1∂y2∂x2∂y1∂x2∂y2|)이다.(J는 야코비안(Jacobian))
증명: 사건 A의 일대일 변환에 의한 상을 B라고 하자. 그러면P((X1,X2)∈A)=∬가 성립한다.
결합밀도함수가f_{X_{1},\,X_{2}}(x_{1},\,x_{2})=\begin{cases}e^{-(x_{1}+x_{2})}&\,(x_{1}>0,\,x_{2}>0)\\0&\,(\text{otherwise})\end{cases}인 확률변수 X_{1},\,X_{2}에 대해서 \displaystyle Y_{1}=X_{1}+X_{2},\,Y_{2}=\frac{X_{1}}{X_{1}+X_{2}}의 결합밀도함수를 구하자. \displaystyle y_{1}=x_{1}+x_{2},\,y_{2}=\frac{x_{1}}{x_{1}+x_{2}}를 연립해서 x_{1},\,x_{2}를 구하면 x_{1}=y_{1}y_{2},\,x_{2}=y_{1}(1-y_{2})이므로 \displaystyle J=\left|\begin{matrix}y_{2}&y_{1}\\1-y_{2}&-y_{1}\end{matrix}\right|=-y_{1}이고, 이 사상은 일대일이므로 x_{1}>0,\,x_{2}>0인 영역을 이 일대일 사상에 의해 y_{1}>0,\,0<y_{2}<1인 영역으로 사상할 수 있고 따라서 위의 정리로부터 Y_{1},\,Y_{2}의 결합밀도함수는 f_{Y_{1},\,Y_{2}}(y_{1},\,y_{2})=e^{-y_{1}}|-y_{1}|=y_{1}e^{-y_{1}}이다. 이때 Y_{2}의 주변밀도함수를 구하면f_{Y_{2}}(y_{2})=\int_{0}^{\infty}{f_{Y_{1},\,Y_{2}}(y_{1},\,y_{2})dy_{1}}=\int_{0}^{\infty}{y_{1}e^{-y_{1}}dy_{1}}=\Gamma(2)=1이다.
참고자료:
John E Freund's Mathematical Statistics with Applications 8th edition, Irwon Miller, Marylees Miller, Pearson
Introduction to Mathematical Statistics 7th edition, Hogg, McKean, Craig, Pearson
수리통계학, 허문열, 송문섭, 박영사
'확률및통계 > 수리통계학' 카테고리의 다른 글
[수리통계학] 10. 카이제곱분포, t분포, F분포 (0) | 2019.03.29 |
---|---|
[수리통계학] 9. 표본분포, 중심극한정리 (0) | 2019.03.28 |
[수리통계학] 7. 연속확률변수와 관련된 분포들 (0) | 2018.11.22 |
[수리통계학] 6. 이산확률변수와 관련된 분포들 (0) | 2018.11.21 |
[수리통계학] 5. 기댓값과 적률, 공분산, 조건부기댓값 (0) | 2018.11.20 |