반응형

[수리통계학] 4. 확률변수와 분포(2)



두 확률변수 \(X,\,Y\)의 결합누적분포함수(joint cumulative distribution function)는$$F(x,\,y)=P(X\leq x,\,Y\leq y)$$로 정의된다.


(a) \(X,\,Y\)가 이산확률변수이면, \(X,\,Y\)의 결합누적분포함수는 \(\displaystyle F(x,\,y)=\sum_{s\leq x}{\sum_{t\leq y}{f(s,\,t)}}\)이고,

(b) \(X,\,Y\)가 연속확률변수이면, \(X,\,Y\)의 의 결합누적분포함수는 \(\displaystyle F(x,\,y)=\int_{-\infty}^{x}{\int_{-\infty}^{y}{f(s,\,t)dt}ds}\)이다.    

 

\(X,\,Y\)가 이산확률변수이고, \(f(x,\,y)\)가 결합확률질량함수일 때, \(X\)가 취하는 값인 \(x\)와 \(Y\)가 취하는 값인 \(y\)에 대해 함수$$g(x)=\sum_{y}{f(x,\,y)},\,h(y)=\sum_{x}{f(x,\,y)}$$를 각각 \(X\)와 \(Y\)의 주변확률질량함수(marginal probability mass function)라고 한다. 


3개의 아스피린과, 4개의 완화제, 2개의 진정제 중에서 2개를 고를 때, \(X\)를 아스피린의 개수, \(Y\)를 진정제의 개수라고 하면, 결합확률질량함수는$$f(x,\,y)=\frac{\displaystyle\binom{3}{x}\binom{2}{y}\binom{4}{2-x-y}}{\displaystyle\binom{9}{2}}\,(x=0,\,1,\,2,\,y=0,\,1,\,2,\,0\leq x+y\leq2)$$이고, 각 경우에 따른 확률은 다음 표와 같다.

 

\(x=0\) 

\(x=1\) 

\(x=2\) 

계 

\(y=0\) 

\(\displaystyle\frac{1}{6}\) 

\(\displaystyle\frac{1}{3}\) 

\(\displaystyle\frac{1}{12}\) 

\(\displaystyle\frac{7}{12}\) 

\(y=1\) 

\(\displaystyle\frac{2}{9}\) 

\(\displaystyle\frac{1}{6}\) 

\(0\) 

\(\displaystyle\frac{7}{18}\) 

\(y=2\) 

\(\displaystyle\frac{1}{36}\) 

\(0\) 

\(0\) 

\(\displaystyle\frac{1}{36}\) 

계 

\(\displaystyle\frac{5}{12}\) 

\(\displaystyle\frac{1}{2}\) 

\(\displaystyle\frac{1}{12}\) 

\(1\) 

열의 합계는 \(X=0,\,1,\,2\)일 확률이고 다음과 같이 나타낼 수 있다.$$g(x)=\sum_{y=0}^{2}{f(x,\,y)}\,(x=0,\,1,\,2)$$ 

같은 방법으로 행의 합계는 \(Y=0,\,1,\,2\)일 확률이고 다음과 같이 나타낼 수 있다.$$h(y)=\sum_{x=0}^{2}{f(x,\,y)}\,(y=0,\,1,\,2)$$


\(X\)와 \(Y\)가 연속확률변수이고 \(f(x,\,y)\)가 결합확률밀도함수일 때, 함수$$g(x)=\int_{-\infty}^{\infty}{f(x,\,y)dy},\,h(y)=\int_{-\infty}^{\infty}{f(x,\,y)dx}\,(-\infty<x,\,y<\infty)$$를 각각 \(X\)와 \(Y\)의 주변확률밀도함수(marginal probability density function)라고 한다.


다음의 결합확률밀도함수$$f(x,\,y)=\begin{cases}\displaystyle\frac{2}{3}(x+2y),&\,(0<x<1,\,0<y<1)\\0,&\,(\text{otherwise})\end{cases}$$에 대해 \(X\)와 \(Y\)의 주변확률밀도함수를 구하면$$\begin{align*}g(x)&=\int_{-\infty}^{\infty}{f(x,\,y)dy}=\int_{0}^{1}{\frac{2}{3}(x+2y)dy}=\frac{2}{3}(x+1)\\h(y)&=\int_{-\infty}^{\infty}{f(x,\,y)dy}=\int_{0}^{1}{\frac{2}{3}(x+2y)dx}=\frac{1}{3}(1+4y)\end{align*}$$이다. 위의 함수는 모두 \(0<x<1,\,0<y<1\)인 경우이고, 그 이외의 경우는 \(0\)이다.


두 이산확률변수 \(X,\,Y\)의 결합확률질량함수를 \(f(x,\,y)\)라 하자.

\(X\)가 취하는 값인 \(x\)와 \(Y\)가 취하는 값인 \(y\)에 대한 \(X,\,Y\)의 조건부확률질량함수(conditional probability mass function)는$$f(x|y)=\frac{f(x,\,y)}{f_{Y}(y)},\,f(y|x)=\frac{f(x,\,y)}{f_{X}(x)}$$이고, 여기서 \(f_{X}(x)(>0)\)와 \(f_{Y}(y)(>0)\)는 각각 \(X\)와 \(Y\)에 대한 주변확률질량함수이다.


앞의 예(아스피린, 진정제, 완화제 문제)에서$$f(X=0|Y=1)=\frac{\frac{2}{9}}{\frac{7}{18}}=\frac{4}{7},\,f(X=1|Y=1)=\frac{\frac{1}{6}}{\frac{7}{18}}=\frac{3}{7},\,f(X=2|Y=1)=\frac{0}{\frac{7}{18}}=0$$이다.


두 연속확률변수 \(X,\,Y\)의 결합확률밀도함수를 \(f(x,\,y)\)라 하자.

\(X\)가 취하는 값인 \(x\)와 \(Y\)가 취하는 값인 \(y\)에 대해서 \(Y=y\)가 주어졌을 때의 \(X\)의 조건부확률밀도함수(conditional probability density function) \(f(x|y)\)와 \(X=x\)가 주어졌을 때의 \(Y\)의 조건부확률밀도함수 \(f(y|x)\)는 다음과 같다.$$f(x|y)=\frac{f(x,\,y)}{h(y)},\,f(y|x)=\frac{f(x,\,y)}{g(x)}\,(g(x)\neq0,\,h(y)\neq0)$$여기서 \(g(x)(>0)\)와 \(h(y)(>0)\)는 각각 \(X\)와 \(Y\)에 대한 주변확률밀도함수이다.


앞의 예(주변확를밀도함수를 구하는 문제)에서 \(Y=y\)로 주어진 \(X\)의 조건부확률밀도함수는$$\begin{align*}f(x|y)&=\frac{f(x,\,y)}{h(y)}=\frac{\frac{2}{3}(x+2y)}{\frac{1}{3}(1+4y)}\\&=\frac{2x+4y}{1+4y}\,(0<x<1)\end{align*}$$이고, 그 이외의 경우는 \(f(x|y)=0\)이다.$$f\left(x|\frac{1}{2}\right)=\frac{2x+4\cdot\frac{1}{2}}{1+4\cdot\frac{1}{2}}=\frac{2}{3}(x+1)$$이므로$$P\left(X\leq\frac{1}{2}|Y=\frac{1}{2}\right)=\int_{0}^{\frac{1}{2}}{\frac{2}{3}(x+1)dx}=\frac{5}{12}$$이다.


확률변수 \(X,\,Y\)가 독립일 필요충분조건은

(a) 이산확률변수의 경우, 결합확률질량함수 \(f(x,\,y)\)가 주변확률질량함수 \(f_{X}(x),\,f_{Y}(y)\)의 곱으로 나타내어지는 것이다. 즉$$f(x,\,y)=f_{X}(x)f_{Y}(y)$$

(b) 연속확률변수의 경우, 결합확률밀도함수 \(f(x,\,y)\)가 주변확률밀도함수 \(g(x),\,h(y)\)의 곱으로 나타내어지는 것이다. 즉$$f(x,\,y)=g(x)h(y)$$


참고자료:

Johh E Freund's Mathematical Statistics with Applications 8th edition, Irwon Miller, Marylees Miller, Pearson

Introduction to Mathematical Statistics 7th edition, Hogg, McKean, Craig, Pearson

수리통계학, 허문열, 송문섭, 박영사  

반응형
Posted by skywalker222