반응형

[수리통계학] 8. 확률변수의 변환



여기서는 주어진 확률밀도함수를 다른 확률밀도함수로 변환하는 방법에 대해 다룰 것이다.


평균이 \(\lambda=1\)인 지수분포를 따르는 확률변수 \(X\)에 대하여 \(Y=\sqrt{X}\)의 확률밀도함수를 구하자. \(Y\)의 분포함수는$$F_{Y}(y)=P(Y\leq y)=P(\sqrt{X}\leq y)$$이고 \(\lambda=1\)인 지수분포의 확률밀도함수와 분포함수는 각각$$\begin{align*}f(x)&=\begin{cases}e^{-x}&\,(x>0)\\0&\,(\text{otherwise})\end{cases}\\F(x)&=\begin{cases}1-e^{-x}&\,(x>0)\\0&\,(\text{otherwise})\end{cases}\end{align*}$$이며, \(Y=\sqrt{X}\)이므로 \(y>0\)이고 따라서 \(Y\)의 분포함수는$$\begin{align*}G(y)&=P(Y\leq y)=P(\sqrt{X}\leq y)\\&=P(X\leq y^{2})=F(y^{2})\\&=1-e^{-y^{2}}\,(y>0)\end{align*}$$이고 밀도함수는$$g(y)=\frac{d}{dy}G(y)=2ye^{-y^{2}}\,(y>0)$$이다.

 

확률변수 \(X_{1},\,X_{2}\)의 결합밀도가$$f(x_{1},\,x_{2})=\begin{cases}6e^{-3x_{1}-2x_{2}}&\,(x_{1}>0,\,x_{2}>0)\\0&\,(\text{otherwise})\end{cases}$$일 때 \(Y=X_{1}+X_{2}\)의 확률밀도를 구하자. 위의 결합밀도함수를 영역 \(\{(x_{1},\,x_{2})\,|\,x_{1}+x_{2}\leq y\}\)에서 적분하면$$\begin{align*}F(y)&=\int_{0}^{y}{\int_{0}^{y-x_{2}}{6e^{-3x_{1}-2x_{2}}dx_{1}}dx_{2}}\\&=1+2e^{-3y}-3e^{-2y}\end{align*}$$이고 확률밀도함수는$$f(y)=\frac{d}{dy}F(y)=6(e^{-2y}-e^{-3y})\,(y>0)$$이다.


확률변수 \(X\)가 동전을 4회 던졌을 때의 앞면의 개수라고 하자. 그러면 \(X\)의 확률분포는 다음과 같고

\(x\) 

\(0\) 

\(1\) 

\(2\) 

\(3\) 

\(4\) 

\(f(x)\) 

\(\displaystyle\frac{1}{16}\) 

\(\displaystyle\frac{4}{16}\) 

\(\displaystyle\frac{6}{16}\) 

\(\displaystyle\frac{4}{16}\) 

\(\displaystyle\frac{1}{16}\) 

확률변수 \(\displaystyle Y=\frac{1}{1+X}\)의 확률분포는 \(\displaystyle y=\frac{1}{1+x}\)를 이용하여 다음과 같이 나타낼 수 있다.

\(y\) 

\(1\) 

\(\displaystyle\frac{1}{2}\) 

\(\displaystyle\frac{1}{3}\) 

\(\displaystyle\frac{1}{4}\) 

\(\displaystyle\frac{1}{5}\) 

\(g(y)\) 

\(\displaystyle\frac{1}{16}\) 

\(\displaystyle\frac{4}{16}\) 

\(\displaystyle\frac{6}{16}\) 

\(\displaystyle\frac{4}{16}\)

\(\displaystyle\frac{1}{16}\) 


확률변수 \(X\)의 확률질량함수는 \(\displaystyle f(x)=\binom{4}{x}\left(\frac{1}{2}\right)^{4},\,(x=0,\,1,\,\cdots,\,4)\)이고 \(\displaystyle x=\frac{1}{y}-1\)이므로 \(Y\)의 확률질량함수는 \(\displaystyle g(y)=f\left(\frac{1}{y}-1\right)=\binom{4}{\frac{1}{y}-1}\left(\frac{1}{2}\right)^{4},\,\left(y=1,\,\frac{1}{2},\,\cdots,\,\frac{1}{5}\right)\)이다.


확률변수 \(X\)의 확률밀도함수가 \(f_{X}(x)\)이고 \(g(x)\)가 \(f_{X}(x)\)의 정의역에서 증가하거나 감소하는 함수이면, \(Y=g(X)\)의 확률밀도함수는 다음과 같다.$$f_{Y}(y)=f_{X}(g^{-1}(y))\left|\frac{dx}{dy}\right|\,(x=g^{-1}(y))$$

증명:

(i) \(g(x)\)가 단조증가하면$$F_{Y}(y)=P(Y\leq y)=P(g(X)\leq y)=P(X\leq g^{-1}(y))=F_{X}(g^{-1}(y))$$이므로 \(Y\)의 확률밀도함수는$$f_{Y}(y)=\frac{d}{dy}F_{X}(g^{-1}(y))=\frac{d}{dx}F_{X}(x)\frac{dx}{dy}=f_{X}(g^{-1}(y))\frac{dx}{dy}$$이다.

(ii) \(g(x)\)가 단조감소하면$$F_{Y}(y)=P(X\geq g^{-1}(y))=1-P(X\leq g^{-1}(y))=1-F_{X}(g^{-1}(y))$$이므로 \(Y\)의 확률밀도함수는$$f_{Y}(y)=-\frac{d}{dy}F_{X}(g^{-1}(y))=-\frac{d}{dx}F_{X}(x)\frac{dx}{dy}=f_{X}(g^{-1}(y))\left(-\frac{dx}{dy}\right)$$이다.

위 두 결과를 종합하면 \(Y\)의 확률밀도함수는 \(\displaystyle f_{Y}(y)=f_{X}(g^{-1}(y))\left|\frac{dx}{dy}\right|\)이다.


\(X\,\sim\,N(\mu,\,\sigma^{2}),\,X=\ln Y\)일 때, \(\ln Y\,\sim\,N(\mu,\,\sigma^{2})\)이므로 \(Y\)는 로그정규분포(lognormal distribution)를 따른다고 한다. 위의 정리를 적용하면 로그정규분포를 따르는 확률변수 \(Y\)의 확률밀도함수는$$f_{Y}(y)=f_{X}(g^{-1}(y))\frac{dx}{dy}=\frac{1}{\sqrt{2\pi}\sigma y}e^{-\frac{(\ln y-\mu)^{2}}{2\sigma^{2}}}\,(y>0)$$이다.


\(X\,\sim\,N(0,\,1^{2}),\,Z=X^{2}\)일 때, \(Z\)의 확률밀도함수를 구하기 위해서는 먼저 \(Y=|X|\)의 확률밀도함수를 구한 다음 \(Z=Y^{2}(=X^{2})\)의 확률밀도함수를 구한다.

\(Y=|X|\)일 때,$$F_{Y}(y)=P(Y\leq y)=P(|X|\leq y)=P(-y\leq X\leq y)=F(y)-F(-y)$$이므로 \(\displaystyle f_{Y}(y)=\frac{d}{dy}F_{Y}(y)=g(y)+g(-y)\)이다.

그러면 \(\displaystyle f_{Y}(y)=\frac{2}{\sqrt{2\pi}}e^{-\frac{1}{2}y^{2}}\)이고 \(z=y^{2}\)는 \(y>0\)일 때 증가하므로 \(\displaystyle\frac{dy}{dz}=\frac{1}{2\sqrt{z}}\)이고 \(z>0\)일 때$$f_{Z}(z)=\frac{2}{\sqrt{2\pi}}e^{-\frac{1}{2}z}\left|\frac{1}{2\sqrt{z}}\right|=\frac{1}{\sqrt{2\pi z}}e^{-\frac{1}{2}z}$$이며 이외의 경우(\(z\leq0\))에 대해서 \(h(z)=0\)이다. 따라서 \(Z\)의 확률밀도함수는$$f_{Z}(z)=\frac{1}{\sqrt{2\pi z}}e^{-\frac{1}{2}z}\,(z>0)$$이다.


연속확률변수 \(X\)의 확률밀도함수와 분포함수가 각각 \(f_{X}(x)\), \(F_{X}(x)\)일 때, 확률변수 \(Y=F_{X}(X)\)의 확률밀도함수를 구하자.

\(y=F(x)\)를 \(x\)에 대해 미분하면 \(\displaystyle\frac{dy}{dx}=F_{X}'(x)=f_{X}(x)\)이므로 \(f_{X}(x)\neq0\)일 때 \(\displaystyle\frac{dx}{dy}=\frac{1}{\frac{dy}{dx}}=\frac{1}{f_{X}(x)}\)이고 \(0\leq y=F_{X}(x)\leq1\)이므로 \(0<y<1\)일 때 \(\displaystyle f_{Y}(y)=f_{X}(x)\left|\frac{1}{f_{X}(x)}\right|=1\)이고 따라서 \(Y\)는 \(\alpha=0,\,\beta=1\)인 균등분포를 따른다.

이 결과를 확률적분변환(probability integral transformation)이라고 한다. 


2변수 이상의 확률밀도함수에 대해서도 변환을 적용할 수 있다.


확률변수 \(X_{1},\,X_{2}\)가 서로 독립이고 각각 평균이 \(\lambda_{1},\,\lambda_{2}\)인 포아송 분포를 따른다고 하자. 두 확률변수가 서로 독립이므로 이 확률분포의 결합밀도함수는$$f_{X_{1},\,X_{2}}(x_{1},\,x_{2})=\frac{e^{-\lambda_{1}}(\lambda_{1})^{x_{1}}}{x_{1}!}\frac{e^{-\lambda_{2}}(\lambda_{2})^{x_{2}}}{x_{2}!}=\frac{e^{-(\lambda_{1}+\lambda_{2})}(\lambda_{1})^{x_{1}}(\lambda_{2})^{x_{2}}}{x_{1}!x_{2}!}\,(x_{1},\,x_{2}\geq0)$$이고 \(Y=X_{1}+X_{2}\)라고 하면 \(y=x_{1}+x_{2}\)이므로 \(x_{2}=y-x_{1}\)이고 \(Y,\,X_{2}\)의 결합밀도함수는 \(\displaystyle g(y,\,x_{2})=\frac{e^{-(\lambda_{1}+\lambda_{2})}(\lambda_{2})^{x_{2}}(\lambda_{1})^{y-x_{2}}}{x_{2}!(y-x_{2})!}\)이므로 \(Y\)의 주변확률밀도함수는$$\begin{align*}f_{Y_{1}}(y)&=\sum_{x_{2}=0}^{y}{\frac{e^{-(\lambda_{1}+\lambda_{2})}(\lambda_{2})^{x_{2}}(\lambda_{1})^{x_{1}}}{x_{2}!(y-x_{2})!}}\\&=\frac{e^{-(\lambda_{1}+\lambda_{2})}}{y!}\sum_{x_{2}=0}^{y}{\frac{y!}{x_{2}!(y-x_{2})!}(\lambda_{2})^{x_{2}}(\lambda_{1})^{y-x_{2}}}\\&=\frac{e^{-(\lambda_{1}+\lambda_{2})}(\lambda_{1}+\lambda_{2})^{y}}{y!}\end{align*}$$(\(y\geq0\))이다.

 

확률변수 \(X_{1},\,X_{2}\)의 결합밀도함수가$$f_{X_{1},\,X_{2}}(x_{1},\,x_{2})=\begin{cases}e^{-(x_{1}+x_{2})}&\,(x_{1}>0,\,x_{2}>0)\\0&\,(\text{otherwise})\end{cases}$$일 때 \(\displaystyle Y=\frac{X_{1}}{X_{1}+X_{2}}\)의 확률밀도함수를 구하면 \(\displaystyle y=\frac{x_{1}}{x_{1}+x_{2}}\)이므로 \(\displaystyle x_{2}=x_{1}\left(\frac{1}{y}-1\right)\)이고 \(\displaystyle\frac{\partial x_{2}}{\partial y}=-\frac{x_{1}}{y^{2}}\)이므로 \(X_{1},\,Y\)의 결합밀도함수는 \(\displaystyle f_{X_{1},\,Y}(x_{1},\,y)=f_{X_{1},\,X_{2}}(x_{1},\,x_{2})\left|\frac{\partial x_{2}}{\partial y}\right|=\frac{x_{1}}{y^{2}}e^{-\frac{x_{1}}{y}}\)이고 따라서 \(Y\)의 주변확률밀도함수는$$\begin{align*}f_{Y}(y)&=\int_{0}^{\infty}{\frac{x_{1}}{y^{2}}e^{-\frac{x_{1}}{y}}dx_{1}}\\&=\int_{0}^{\infty}{ue^{-u}du}\,\left(u=\frac{x_{1}}{y}\right)\\&=\Gamma(2)=1\end{align*}$$(\(y>0\))이다.


연속확률변수 \(X_{1},\,X_{2}\)에 대한 결합밀도함수를 \(f_{X_{1},\,X_{2}}(x_{1},\,x_{2})\)라 하고, \(Y_{1}=u_{1}(X_{1},\,X_{2})\), \(Y_{2}=u_{2}(X_{1},\,X_{2})\)라고 하자. 일대일 변환 \(y_{1}=u_{1}(x_{1},\,x_{2})\), \(y_{2}=u_{2}(x_{1},\,x_{2})\)에 대하여 \(u_{1},\,u_{2}\)의 역상 \(w_{1},\,w_{2}\)가 존재해서 \(x_{1}=w_{1}(y_{1},\,y_{2})\), \(x_{2}=w_{2}(y_{1},\,y_{2})\)가 \(f_{X_{1},\,X_{2}}(x_{1},\,x_{2})\neq0\)인 \(X_{1},\,X_{2}\)범위에서 정의되면, \(Y_{1},\,Y_{2}\)의 결합밀도함수는 다음과 같다.$$f_{Y_{1},\,Y_{2}}(y_{1},\,y_{2})=f_{X_{1},\,X_{2}}(w_{1}(y_{1},\,y_{2}),\,w_{2}(y_{1},\,y_{2}))|J|\,\left(J=\left|\begin{matrix}\frac{\partial x_{1}}{\partial y_{1}}&\frac{\partial x_{1}}{\partial y_{2}}\\ \frac{\partial x_{2}}{\partial y_{1}}&\frac{\partial x_{2}}{\partial y_{2}}\end{matrix}\right|\right)$$이다.(\(J\)는 야코비안(Jacobian))

증명: 사건 \(A\)의 일대일 변환에 의한 상을 \(B\)라고 하자. 그러면$$\begin{align*}P((X_{1},\,X_{2})\in A)&=\iint_{A}{f_{X_{1},\,X_{2}}(x_{1},\,x_{2})dx_{1}dx_{2}}\\&=\iint_{B}{f_{Y_{1},\,Y_{2}}(w_{1}(y_{1},\,y_{2}),\,w_{2}(y_{1},\,y_{2}))|J|dy_{1}dy_{2}}(=P((Y_{1},\,Y_{2})\in B))\end{align*}$$가 성립한다.


결합밀도함수가$$f_{X_{1},\,X_{2}}(x_{1},\,x_{2})=\begin{cases}e^{-(x_{1}+x_{2})}&\,(x_{1}>0,\,x_{2}>0)\\0&\,(\text{otherwise})\end{cases}$$인 확률변수 \(X_{1},\,X_{2}\)에 대해서 \(\displaystyle Y_{1}=X_{1}+X_{2},\,Y_{2}=\frac{X_{1}}{X_{1}+X_{2}}\)의 결합밀도함수를 구하자. \(\displaystyle y_{1}=x_{1}+x_{2},\,y_{2}=\frac{x_{1}}{x_{1}+x_{2}}\)를 연립해서 \(x_{1},\,x_{2}\)를 구하면 \(x_{1}=y_{1}y_{2},\,x_{2}=y_{1}(1-y_{2})\)이므로 \(\displaystyle J=\left|\begin{matrix}y_{2}&y_{1}\\1-y_{2}&-y_{1}\end{matrix}\right|=-y_{1}\)이고, 이 사상은 일대일이므로 \(x_{1}>0,\,x_{2}>0\)인 영역을 이 일대일 사상에 의해 \(y_{1}>0,\,0<y_{2}<1\)인 영역으로 사상할 수 있고 따라서 위의 정리로부터 \(Y_{1},\,Y_{2}\)의 결합밀도함수는 \(f_{Y_{1},\,Y_{2}}(y_{1},\,y_{2})=e^{-y_{1}}|-y_{1}|=y_{1}e^{-y_{1}}\)이다. 이때 \(Y_{2}\)의 주변밀도함수를 구하면$$f_{Y_{2}}(y_{2})=\int_{0}^{\infty}{f_{Y_{1},\,Y_{2}}(y_{1},\,y_{2})dy_{1}}=\int_{0}^{\infty}{y_{1}e^{-y_{1}}dy_{1}}=\Gamma(2)=1$$이다.


참고자료:

John E Freund's Mathematical Statistics with Applications 8th edition, Irwon Miller, Marylees Miller, Pearson

Introduction to Mathematical Statistics 7th edition, Hogg, McKean, Craig, Pearson

수리통계학, 허문열, 송문섭, 박영사       

반응형
Posted by skywalker222