Processing math: 30%

반응형

[수리통계학] 8. 확률변수의 변환



여기서는 주어진 확률밀도함수를 다른 확률밀도함수로 변환하는 방법에 대해 다룰 것이다.


평균이 λ=1인 지수분포를 따르는 확률변수 X에 대하여 Y=X의 확률밀도함수를 구하자. Y의 분포함수는FY(y)=P(Yy)=P(Xy)이고 λ=1인 지수분포의 확률밀도함수와 분포함수는 각각f(x)={ex(x>0)0(otherwise)F(x)={1ex(x>0)0(otherwise)이며, Y=X이므로 y>0이고 따라서 Y의 분포함수는G(y)=P(Yy)=P(Xy)=P(Xy2)=F(y2)=1ey2(y>0)이고 밀도함수는g(y)=ddyG(y)=2yey2(y>0)이다.

 

확률변수 X1,X2의 결합밀도가f(x1,x2)={6e3x12x2(x1>0,x2>0)0(otherwise)일 때 Y=X1+X2의 확률밀도를 구하자. 위의 결합밀도함수를 영역 {(x1,x2)|x1+x2y}에서 적분하면F(y)=y0yx206e3x12x2dx1dx2=1+2e3y3e2y이고 확률밀도함수는f(y)=ddyF(y)=6(e2ye3y)(y>0)이다.


확률변수 X가 동전을 4회 던졌을 때의 앞면의 개수라고 하자. 그러면 X의 확률분포는 다음과 같고

x 

0 

1 

2 

3 

4 

f(x) 

116 

416 

616 

416 

116 

확률변수 Y=11+X의 확률분포는 y=11+x를 이용하여 다음과 같이 나타낼 수 있다.

y 

1 

12 

13 

14 

15 

g(y) 

116 

416 

616 

416

116 


확률변수 X의 확률질량함수는 \displaystyle f(x)=\binom{4}{x}\left(\frac{1}{2}\right)^{4},\,(x=0,\,1,\,\cdots,\,4)이고 \displaystyle x=\frac{1}{y}-1이므로 Y의 확률질량함수는 \displaystyle g(y)=f\left(\frac{1}{y}-1\right)=\binom{4}{\frac{1}{y}-1}\left(\frac{1}{2}\right)^{4},\,\left(y=1,\,\frac{1}{2},\,\cdots,\,\frac{1}{5}\right)이다.


확률변수 X의 확률밀도함수가 f_{X}(x)이고 g(x)f_{X}(x)의 정의역에서 증가하거나 감소하는 함수이면, Y=g(X)의 확률밀도함수는 다음과 같다.f_{Y}(y)=f_{X}(g^{-1}(y))\left|\frac{dx}{dy}\right|\,(x=g^{-1}(y))

증명:

(i) g(x)가 단조증가하면F_{Y}(y)=P(Y\leq y)=P(g(X)\leq y)=P(X\leq g^{-1}(y))=F_{X}(g^{-1}(y))이므로 Y의 확률밀도함수는f_{Y}(y)=\frac{d}{dy}F_{X}(g^{-1}(y))=\frac{d}{dx}F_{X}(x)\frac{dx}{dy}=f_{X}(g^{-1}(y))\frac{dx}{dy}이다.

(ii) g(x)가 단조감소하면F_{Y}(y)=P(X\geq g^{-1}(y))=1-P(X\leq g^{-1}(y))=1-F_{X}(g^{-1}(y))이므로 Y의 확률밀도함수는f_{Y}(y)=-\frac{d}{dy}F_{X}(g^{-1}(y))=-\frac{d}{dx}F_{X}(x)\frac{dx}{dy}=f_{X}(g^{-1}(y))\left(-\frac{dx}{dy}\right)이다.

위 두 결과를 종합하면 Y의 확률밀도함수는 \displaystyle f_{Y}(y)=f_{X}(g^{-1}(y))\left|\frac{dx}{dy}\right|이다.


X\,\sim\,N(\mu,\,\sigma^{2}),\,X=\ln Y일 때, \ln Y\,\sim\,N(\mu,\,\sigma^{2})이므로 Y는 로그정규분포(lognormal distribution)를 따른다고 한다. 위의 정리를 적용하면 로그정규분포를 따르는 확률변수 Y의 확률밀도함수는f_{Y}(y)=f_{X}(g^{-1}(y))\frac{dx}{dy}=\frac{1}{\sqrt{2\pi}\sigma y}e^{-\frac{(\ln y-\mu)^{2}}{2\sigma^{2}}}\,(y>0)이다.


X\,\sim\,N(0,\,1^{2}),\,Z=X^{2}일 때, Z의 확률밀도함수를 구하기 위해서는 먼저 Y=|X|의 확률밀도함수를 구한 다음 Z=Y^{2}(=X^{2})의 확률밀도함수를 구한다.

Y=|X|일 때,F_{Y}(y)=P(Y\leq y)=P(|X|\leq y)=P(-y\leq X\leq y)=F(y)-F(-y)이므로 \displaystyle f_{Y}(y)=\frac{d}{dy}F_{Y}(y)=g(y)+g(-y)이다.

그러면 \displaystyle f_{Y}(y)=\frac{2}{\sqrt{2\pi}}e^{-\frac{1}{2}y^{2}}이고 z=y^{2}y>0일 때 증가하므로 \displaystyle\frac{dy}{dz}=\frac{1}{2\sqrt{z}}이고 z>0일 때f_{Z}(z)=\frac{2}{\sqrt{2\pi}}e^{-\frac{1}{2}z}\left|\frac{1}{2\sqrt{z}}\right|=\frac{1}{\sqrt{2\pi z}}e^{-\frac{1}{2}z}이며 이외의 경우(z\leq0)에 대해서 h(z)=0이다. 따라서 Z의 확률밀도함수는f_{Z}(z)=\frac{1}{\sqrt{2\pi z}}e^{-\frac{1}{2}z}\,(z>0)이다.


연속확률변수 X의 확률밀도함수와 분포함수가 각각 f_{X}(x), F_{X}(x)일 때, 확률변수 Y=F_{X}(X)의 확률밀도함수를 구하자.

y=F(x)x에 대해 미분하면 \displaystyle\frac{dy}{dx}=F_{X}'(x)=f_{X}(x)이므로 f_{X}(x)\neq0일 때 \displaystyle\frac{dx}{dy}=\frac{1}{\frac{dy}{dx}}=\frac{1}{f_{X}(x)}이고 0\leq y=F_{X}(x)\leq1이므로 0<y<1일 때 \displaystyle f_{Y}(y)=f_{X}(x)\left|\frac{1}{f_{X}(x)}\right|=1이고 따라서 Y\alpha=0,\,\beta=1인 균등분포를 따른다.

이 결과를 확률적분변환(probability integral transformation)이라고 한다. 


2변수 이상의 확률밀도함수에 대해서도 변환을 적용할 수 있다.


확률변수 X_{1},\,X_{2}가 서로 독립이고 각각 평균이 \lambda_{1},\,\lambda_{2}인 포아송 분포를 따른다고 하자. 두 확률변수가 서로 독립이므로 이 확률분포의 결합밀도함수는f_{X_{1},\,X_{2}}(x_{1},\,x_{2})=\frac{e^{-\lambda_{1}}(\lambda_{1})^{x_{1}}}{x_{1}!}\frac{e^{-\lambda_{2}}(\lambda_{2})^{x_{2}}}{x_{2}!}=\frac{e^{-(\lambda_{1}+\lambda_{2})}(\lambda_{1})^{x_{1}}(\lambda_{2})^{x_{2}}}{x_{1}!x_{2}!}\,(x_{1},\,x_{2}\geq0)이고 Y=X_{1}+X_{2}라고 하면 y=x_{1}+x_{2}이므로 x_{2}=y-x_{1}이고 Y,\,X_{2}의 결합밀도함수는 \displaystyle g(y,\,x_{2})=\frac{e^{-(\lambda_{1}+\lambda_{2})}(\lambda_{2})^{x_{2}}(\lambda_{1})^{y-x_{2}}}{x_{2}!(y-x_{2})!}이므로 Y의 주변확률밀도함수는\begin{align*}f_{Y_{1}}(y)&=\sum_{x_{2}=0}^{y}{\frac{e^{-(\lambda_{1}+\lambda_{2})}(\lambda_{2})^{x_{2}}(\lambda_{1})^{x_{1}}}{x_{2}!(y-x_{2})!}}\\&=\frac{e^{-(\lambda_{1}+\lambda_{2})}}{y!}\sum_{x_{2}=0}^{y}{\frac{y!}{x_{2}!(y-x_{2})!}(\lambda_{2})^{x_{2}}(\lambda_{1})^{y-x_{2}}}\\&=\frac{e^{-(\lambda_{1}+\lambda_{2})}(\lambda_{1}+\lambda_{2})^{y}}{y!}\end{align*}(y\geq0)이다.

 

확률변수 X_{1},\,X_{2}의 결합밀도함수가f_{X_{1},\,X_{2}}(x_{1},\,x_{2})=\begin{cases}e^{-(x_{1}+x_{2})}&\,(x_{1}>0,\,x_{2}>0)\\0&\,(\text{otherwise})\end{cases}일 때 \displaystyle Y=\frac{X_{1}}{X_{1}+X_{2}}의 확률밀도함수를 구하면 \displaystyle y=\frac{x_{1}}{x_{1}+x_{2}}이므로 \displaystyle x_{2}=x_{1}\left(\frac{1}{y}-1\right)이고 \displaystyle\frac{\partial x_{2}}{\partial y}=-\frac{x_{1}}{y^{2}}이므로 X_{1},\,Y의 결합밀도함수는 \displaystyle f_{X_{1},\,Y}(x_{1},\,y)=f_{X_{1},\,X_{2}}(x_{1},\,x_{2})\left|\frac{\partial x_{2}}{\partial y}\right|=\frac{x_{1}}{y^{2}}e^{-\frac{x_{1}}{y}}이고 따라서 Y의 주변확률밀도함수는\begin{align*}f_{Y}(y)&=\int_{0}^{\infty}{\frac{x_{1}}{y^{2}}e^{-\frac{x_{1}}{y}}dx_{1}}\\&=\int_{0}^{\infty}{ue^{-u}du}\,\left(u=\frac{x_{1}}{y}\right)\\&=\Gamma(2)=1\end{align*}(y>0)이다.


연속확률변수 X_{1},\,X_{2}에 대한 결합밀도함수를 f_{X_{1},\,X_{2}}(x_{1},\,x_{2})라 하고, Y_{1}=u_{1}(X_{1},\,X_{2}), Y_{2}=u_{2}(X_{1},\,X_{2})라고 하자. 일대일 변환 y_{1}=u_{1}(x_{1},\,x_{2}), y_{2}=u_{2}(x_{1},\,x_{2})에 대하여 u_{1},\,u_{2}의 역상 w_{1},\,w_{2}가 존재해서 x_{1}=w_{1}(y_{1},\,y_{2}), x_{2}=w_{2}(y_{1},\,y_{2})f_{X_{1},\,X_{2}}(x_{1},\,x_{2})\neq0X_{1},\,X_{2}범위에서 정의되면, Y_{1},\,Y_{2}의 결합밀도함수는 다음과 같다.f_{Y_{1},\,Y_{2}}(y_{1},\,y_{2})=f_{X_{1},\,X_{2}}(w_{1}(y_{1},\,y_{2}),\,w_{2}(y_{1},\,y_{2}))|J|\,\left(J=\left|\begin{matrix}\frac{\partial x_{1}}{\partial y_{1}}&\frac{\partial x_{1}}{\partial y_{2}}\\ \frac{\partial x_{2}}{\partial y_{1}}&\frac{\partial x_{2}}{\partial y_{2}}\end{matrix}\right|\right)이다.(J는 야코비안(Jacobian))

증명: 사건 A의 일대일 변환에 의한 상을 B라고 하자. 그러면\begin{align*}P((X_{1},\,X_{2})\in A)&=\iint_{A}{f_{X_{1},\,X_{2}}(x_{1},\,x_{2})dx_{1}dx_{2}}\\&=\iint_{B}{f_{Y_{1},\,Y_{2}}(w_{1}(y_{1},\,y_{2}),\,w_{2}(y_{1},\,y_{2}))|J|dy_{1}dy_{2}}(=P((Y_{1},\,Y_{2})\in B))\end{align*}가 성립한다.


결합밀도함수가f_{X_{1},\,X_{2}}(x_{1},\,x_{2})=\begin{cases}e^{-(x_{1}+x_{2})}&\,(x_{1}>0,\,x_{2}>0)\\0&\,(\text{otherwise})\end{cases}인 확률변수 X_{1},\,X_{2}에 대해서 \displaystyle Y_{1}=X_{1}+X_{2},\,Y_{2}=\frac{X_{1}}{X_{1}+X_{2}}의 결합밀도함수를 구하자. \displaystyle y_{1}=x_{1}+x_{2},\,y_{2}=\frac{x_{1}}{x_{1}+x_{2}}를 연립해서 x_{1},\,x_{2}를 구하면 x_{1}=y_{1}y_{2},\,x_{2}=y_{1}(1-y_{2})이므로 \displaystyle J=\left|\begin{matrix}y_{2}&y_{1}\\1-y_{2}&-y_{1}\end{matrix}\right|=-y_{1}이고, 이 사상은 일대일이므로 x_{1}>0,\,x_{2}>0인 영역을 이 일대일 사상에 의해 y_{1}>0,\,0<y_{2}<1인 영역으로 사상할 수 있고 따라서 위의 정리로부터 Y_{1},\,Y_{2}의 결합밀도함수는 f_{Y_{1},\,Y_{2}}(y_{1},\,y_{2})=e^{-y_{1}}|-y_{1}|=y_{1}e^{-y_{1}}이다. 이때 Y_{2}의 주변밀도함수를 구하면f_{Y_{2}}(y_{2})=\int_{0}^{\infty}{f_{Y_{1},\,Y_{2}}(y_{1},\,y_{2})dy_{1}}=\int_{0}^{\infty}{y_{1}e^{-y_{1}}dy_{1}}=\Gamma(2)=1이다.


참고자료:

John E Freund's Mathematical Statistics with Applications 8th edition, Irwon Miller, Marylees Miller, Pearson

Introduction to Mathematical Statistics 7th edition, Hogg, McKean, Craig, Pearson

수리통계학, 허문열, 송문섭, 박영사       

반응형
Posted by skywalker222