반응형

3. 확률변수와 분포(1)



표본공간 \(S\)의 각 원소들을 실수값으로 대응시키는 함수 \(X\,:\,S\,\rightarrow\,\mathbb{R}\)를 확률변수(random variable)라고 한다. 여기서 확률변수 \(X\)가 \(x\)의 값을 가질 확률을 \(P(X=x)\)로 나타낸다.


예를들어 주사위를 두번 던지는 시행에서 확률변수를 주사위를 던져서 나온 눈의 합이라고 하면, 표본공간은 \(S=\{(i,\,j)\,|\,1\leq i,\,j\leq6\}\), 확률변수는 \(X(i,\,j)=i+j\), 확률변수에 따른 확률은 다음과 같다.

\(x\) 

\(2\) 

\(3\) 

\(4\) 

\(5\) 

\(6\) 

\(7\) 

\(8\) 

\(9\) 

\(10\) 

\(11\) 

\(12\) 

\(P(X=x)\) 

\(\displaystyle\frac{1}{36}\) 

\(\displaystyle\frac{2}{36}\) 

\(\displaystyle\frac{3}{36}\) 

\(\displaystyle\frac{4}{36}\) 

\(\displaystyle\frac{5}{36}\) 

\(\displaystyle\frac{6}{36}\) 

\(\displaystyle\frac{5}{36}\) 

\(\displaystyle\frac{4}{36}\) 

\(\displaystyle\frac{3}{36}\) 

\(\displaystyle\frac{2}{36}\) 

\(\displaystyle\frac{1}{36}\) 


확률변수 \(X\)가 가산개의 원소를 가지면, 이산확률변수(discrete random variable), \(X\)가 구간의 형태로 나타나면, 연속확률변수(continuous random variable)라고 한다.


\(X\)가 이산확률변수일 때, \(X\)가 취하는 모든 값 \(x\)에 대하여 \(f(x)=P(X=x)\)이면, 이 함수 \(f\)를 \(X\)의 확률질량함수(probability mass function, 간단하게 p.m.f)라고 한다. 이 함수 \(f\)가 확률질량함수가 되기 위한 필요충분조건은 다음과 같다.

(a) \(X\)가 취하는 모든 값 \(x\)에 대하여 \(f(x)\geq0\)

(b) \(\displaystyle\sum_{x}{f(x)}=1\) (\(x\)는 \(X\)가 취하는 모든 값)


앞의 예에 대한 확률질량함수는 \(\displaystyle f(x)=\frac{6-|x-7|}{36}\,(x=2,\,3,\,\cdots,\,12)\)이다. 


\(X\)가 연속확률변수일 때, 실수 전체에서 정의된 함수 \(f(x)\)가 \(a\leq b\)인 임의의 \(a,\,b\)에 대하여$$P(a\leq X\leq b)=\int_{a}^{b}{f(x)dx}$$이면, 이 함수 \(f\)를 \(X\)의 확률밀도함수(probability density function, 간단하게 p.d.f.)라고 한다. \(f\)가 다음 조건을 만족하면, \(f\)는 \(X\)의 확률밀도함수이다.

(a) 임의의 \(x\in\mathbb{R}\)에 대하여 \(f(x)\geq0\)

(b) \(\displaystyle\int_{-\infty}^{\infty}{f(x)dx}=1\)


\(X\)의 확률밀도함수가 다음과 같을 때$$1=\int_{-\infty}^{\infty}{f(x)dx}=\int_{0}^{\infty}{ke^{-2x}dx}=\frac{1}{2}k$$이어야 하므로 \(k=2\)이다. 

 

확률변수 \(X\)의 누적분포함수(cumulative distribution function)는$$F_{X}(x)=P_{X}((-\infty,\,x])=P(X\leq x)$$로 정의된다.

 

이산확률변수의 누적분포함수는 \(\displaystyle F_{X}(x)=\sum_{t\leq x}{f(t)}\,(-\infty<x<\infty)\)이고,

연속확률변수의 누적분포함수는 \(\displaystyle F_{X}(x)=\int_{-\infty}^{x}{f(t)dt}\,(-\infty<x<\infty)\)이다.


여기서부터는 확률변수가 두개인 경우를 다루겠다.


두 확률변수 \(X,\,Y\)

(1) 이산확률변수일 때

결합확률질량함수(joint probability mass function)은 \(X,\,Y\)가 취하는 모든 값 \(x,\,y\)에 대한 각 순서쌍 \((x,\,y)\)에 대해 \(f(x,\,y)=P(X=x,\,Y=y)\)이고, 이 \(f(x,\,y)\)가 결합확률질량함수가 될 필요충분조건은 다음과 같다.

(a) 정의역 상의 모든 순서쌍 \((x,\,y)\)에 대해 \(f(x,\,y)\geq0\)

(b) \(\displaystyle\sum_{x}{\sum_{y}{f(x,\,y)}}=1\) \(f(x,\,y)\)는 정의역 상에 있다)

 

(2) 연속확률변수일 때

결합확률밀도함수(joint probability density function)는 다음 식을 만족하는 \(X,\,Y\)가 취하는 모든 값 \(x,\,y\)에 대한 이변수 함수이고, \(A\)가 \(X,\,Y\)의 정의역의 카테시안 곱에 포함될 때$$P((X,Y)\in A)=\iint_{A}{f(x,\,y)dydx}$$

이변수함수 \(f\)가 다음 조건을 만족하면, \(f\)는 \(X,\,Y\)의 결합확률밀도함수이다.

(a) 임의의 \((x,\,y)\in\mathbb{R}^{2}\)에 대하여 \(f(x,\,y)\geq0\)

(b) \(\displaystyle\int_{-\infty}^{\infty}{\int_{-\infty}^{\infty}{f(x,\,y)dy}dx}=1\)


3개의 아스피린, 4개의 완화제, 2개의 진정제가 담긴 병에서 무작위로 2개의 알약을 선택한다. \(X\)와 \(Y\)가 각각 이 병에서 선택한 두 알약에 포함된 아스피린과 진정제의 개수라고 하면, 가능한 순서쌍은$$(2,\,0),\,(0,\,2),\,(1,\,1),\,(1,\,0),\,(0,\,1),\,(0,\,0)$$이고,

전체 경우의 수는 \(\displaystyle\binom{9}{2}=\frac{9!}{2!7!}=36\),

\((2,\,0)\)(아스피린2, 진정제0)의 경우의 수는 \(\displaystyle\binom{3}{2}\binom{4}{0}\binom{2}{0}=3\)

\((0,\,2)\)(아스피린0, 진정제2)의 경우의 수는 \(\displaystyle\binom{3}{0}\binom{4}{0}\binom{2}{2}=1\)

\((1,\,1)\)(아스피린1, 진정제1)의 경우의 수는 \(\displaystyle\binom{3}{1}\binom{4}{0}\binom{2}{1}=6\)

\((1,\,0)\)(아스피린1, 진정제0)의 경우의 수는 \(\displaystyle\binom{3}{1}\binom{4}{1}\binom{2}{0}=12\)

\((0,\,1)\)(아스피린0, 진정제1)의 경우의 수는 \(\displaystyle\binom{3}{0}\binom{4}{1}\binom{2}{1}=8\)

\((0,\,0)\)(아스피린0, 진정제0)의 경우의 수는 \(\displaystyle\binom{3}{0}\binom{4}{2}\binom{2}{0}=6\)

이므로 각 경우에 대한 확률은 다음의 표와 같고

 

\(x=0\) 

\(x=1\) 

\(x=2\) 

\(y=0\)

\(\displaystyle\frac{1}{6}\) 

\(\displaystyle\frac{1}{3}\) 

\(\displaystyle\frac{1}{12}\) 

\(y=1\) 

\(\displaystyle\frac{2}{9}\) 

\(\displaystyle\frac{1}{6}\) 

\(0\) 

\(y=2\) 

\(\displaystyle\frac{1}{36}\) 

\(0\) 

\(0\) 

확률질량함수는 다음과 같다.$$f(x,\,y)=\frac{\displaystyle\binom{3}{x}\binom{2}{y}\binom{4}{2-x-y}}{\displaystyle\binom{9}{x}}\,(x=0,\,1,\,2,\,y=0,\,1,\,2,\,0\leq x,\,y\leq2)$$


\(X\)와 \(Y\)의 결합확률밀도함수가 다음과 같고$$f(x,\,y)=\begin{cases}\displaystyle\frac{3}{5}x(x+y),&\,(0<x<1,\,0<y<2)\\0,&\,(\text{otherwise})\end{cases}$$\(\displaystyle A=\left\{(x,\,y)\,|\,0<x<\frac{1}{2},\,1<y<2\right\}\)일 때, \(P((X,\,Y)\in A)\)(영역 \(A\)에 있을 확률)을 구하면$$\begin{align*}P((X,\,Y)\in A)&=P\left(0<x<\frac{1}{2},\,1<y<2\right)=\int_{1}^{2}{\int_{0}^{\frac{1}{2}}{\frac{3}{5}x(y+x)dx}dy}\\&=\int_{1}^{2}{\left[\frac{3}{10}x^{2}y+\frac{1}{5}x^{3}\right]_{0}^{\frac{1}{2}}dy}=\int_{1}^{2}{\frac{3y+1}{40}dy}\\&=\frac{11}{80}\end{align*}$$이다.


참고자료:

John E Freund's Mathematical Statistics with Applications 8th edition, Irwin Miller, Marylees Miller, Pearson

Introduction to Mathematical Statistics 7th edition, Hogg, McKean, Craig, Pearson

수리통계학, 허문열, 송문섭, 박영사 

반응형
Posted by skywalker222