3. 확률변수와 분포(1)
표본공간 \(S\)의 각 원소들을 실수값으로 대응시키는 함수 \(X\,:\,S\,\rightarrow\,\mathbb{R}\)를 확률변수(random variable)라고 한다. 여기서 확률변수 \(X\)가 \(x\)의 값을 가질 확률을 \(P(X=x)\)로 나타낸다.
예를들어 주사위를 두번 던지는 시행에서 확률변수를 주사위를 던져서 나온 눈의 합이라고 하면, 표본공간은 \(S=\{(i,\,j)\,|\,1\leq i,\,j\leq6\}\), 확률변수는 \(X(i,\,j)=i+j\), 확률변수에 따른 확률은 다음과 같다.
\(x\) |
\(2\) |
\(3\) |
\(4\) |
\(5\) |
\(6\) |
\(7\) |
\(8\) |
\(9\) |
\(10\) |
\(11\) |
\(12\) |
\(P(X=x)\) |
\(\displaystyle\frac{1}{36}\) |
\(\displaystyle\frac{2}{36}\) |
\(\displaystyle\frac{3}{36}\) |
\(\displaystyle\frac{4}{36}\) |
\(\displaystyle\frac{5}{36}\) |
\(\displaystyle\frac{6}{36}\) |
\(\displaystyle\frac{5}{36}\) |
\(\displaystyle\frac{4}{36}\) |
\(\displaystyle\frac{3}{36}\) |
\(\displaystyle\frac{2}{36}\) |
\(\displaystyle\frac{1}{36}\) |
확률변수 \(X\)가 가산개의 원소를 가지면, 이산확률변수(discrete random variable), \(X\)가 구간의 형태로 나타나면, 연속확률변수(continuous random variable)라고 한다.
\(X\)가 이산확률변수일 때, \(X\)가 취하는 모든 값 \(x\)에 대하여 \(f(x)=P(X=x)\)이면, 이 함수 \(f\)를 \(X\)의 확률질량함수(probability mass function, 간단하게 p.m.f)라고 한다. 이 함수 \(f\)가 확률질량함수가 되기 위한 필요충분조건은 다음과 같다.
(a) \(X\)가 취하는 모든 값 \(x\)에 대하여 \(f(x)\geq0\)
(b) \(\displaystyle\sum_{x}{f(x)}=1\) (\(x\)는 \(X\)가 취하는 모든 값)
앞의 예에 대한 확률질량함수는 \(\displaystyle f(x)=\frac{6-|x-7|}{36}\,(x=2,\,3,\,\cdots,\,12)\)이다.
\(X\)가 연속확률변수일 때, 실수 전체에서 정의된 함수 \(f(x)\)가 \(a\leq b\)인 임의의 \(a,\,b\)에 대하여$$P(a\leq X\leq b)=\int_{a}^{b}{f(x)dx}$$이면, 이 함수 \(f\)를 \(X\)의 확률밀도함수(probability density function, 간단하게 p.d.f.)라고 한다. \(f\)가 다음 조건을 만족하면, \(f\)는 \(X\)의 확률밀도함수이다.
(a) 임의의 \(x\in\mathbb{R}\)에 대하여 \(f(x)\geq0\)
(b) \(\displaystyle\int_{-\infty}^{\infty}{f(x)dx}=1\)
\(X\)의 확률밀도함수가 다음과 같을 때$$1=\int_{-\infty}^{\infty}{f(x)dx}=\int_{0}^{\infty}{ke^{-2x}dx}=\frac{1}{2}k$$이어야 하므로 \(k=2\)이다.
확률변수 \(X\)의 누적분포함수(cumulative distribution function)는$$F_{X}(x)=P_{X}((-\infty,\,x])=P(X\leq x)$$로 정의된다.
이산확률변수의 누적분포함수는 \(\displaystyle F_{X}(x)=\sum_{t\leq x}{f(t)}\,(-\infty<x<\infty)\)이고,
연속확률변수의 누적분포함수는 \(\displaystyle F_{X}(x)=\int_{-\infty}^{x}{f(t)dt}\,(-\infty<x<\infty)\)이다.
여기서부터는 확률변수가 두개인 경우를 다루겠다.
두 확률변수 \(X,\,Y\)가
(1) 이산확률변수일 때
결합확률질량함수(joint probability mass function)은 \(X,\,Y\)가 취하는 모든 값 \(x,\,y\)에 대한 각 순서쌍 \((x,\,y)\)에 대해 \(f(x,\,y)=P(X=x,\,Y=y)\)이고, 이 \(f(x,\,y)\)가 결합확률질량함수가 될 필요충분조건은 다음과 같다.
(a) 정의역 상의 모든 순서쌍 \((x,\,y)\)에 대해 \(f(x,\,y)\geq0\)
(b) \(\displaystyle\sum_{x}{\sum_{y}{f(x,\,y)}}=1\) \(f(x,\,y)\)는 정의역 상에 있다)
(2) 연속확률변수일 때
결합확률밀도함수(joint probability density function)는 다음 식을 만족하는 \(X,\,Y\)가 취하는 모든 값 \(x,\,y\)에 대한 이변수 함수이고, \(A\)가 \(X,\,Y\)의 정의역의 카테시안 곱에 포함될 때$$P((X,Y)\in A)=\iint_{A}{f(x,\,y)dydx}$$
이변수함수 \(f\)가 다음 조건을 만족하면, \(f\)는 \(X,\,Y\)의 결합확률밀도함수이다.
(a) 임의의 \((x,\,y)\in\mathbb{R}^{2}\)에 대하여 \(f(x,\,y)\geq0\)
(b) \(\displaystyle\int_{-\infty}^{\infty}{\int_{-\infty}^{\infty}{f(x,\,y)dy}dx}=1\)
3개의 아스피린, 4개의 완화제, 2개의 진정제가 담긴 병에서 무작위로 2개의 알약을 선택한다. \(X\)와 \(Y\)가 각각 이 병에서 선택한 두 알약에 포함된 아스피린과 진정제의 개수라고 하면, 가능한 순서쌍은$$(2,\,0),\,(0,\,2),\,(1,\,1),\,(1,\,0),\,(0,\,1),\,(0,\,0)$$이고,
전체 경우의 수는 \(\displaystyle\binom{9}{2}=\frac{9!}{2!7!}=36\),
\((2,\,0)\)(아스피린2, 진정제0)의 경우의 수는 \(\displaystyle\binom{3}{2}\binom{4}{0}\binom{2}{0}=3\)
\((0,\,2)\)(아스피린0, 진정제2)의 경우의 수는 \(\displaystyle\binom{3}{0}\binom{4}{0}\binom{2}{2}=1\)
\((1,\,1)\)(아스피린1, 진정제1)의 경우의 수는 \(\displaystyle\binom{3}{1}\binom{4}{0}\binom{2}{1}=6\)
\((1,\,0)\)(아스피린1, 진정제0)의 경우의 수는 \(\displaystyle\binom{3}{1}\binom{4}{1}\binom{2}{0}=12\)
\((0,\,1)\)(아스피린0, 진정제1)의 경우의 수는 \(\displaystyle\binom{3}{0}\binom{4}{1}\binom{2}{1}=8\)
\((0,\,0)\)(아스피린0, 진정제0)의 경우의 수는 \(\displaystyle\binom{3}{0}\binom{4}{2}\binom{2}{0}=6\)
이므로 각 경우에 대한 확률은 다음의 표와 같고
|
\(x=0\) |
\(x=1\) |
\(x=2\) |
\(y=0\) |
\(\displaystyle\frac{1}{6}\) |
\(\displaystyle\frac{1}{3}\) |
\(\displaystyle\frac{1}{12}\) |
\(y=1\) |
\(\displaystyle\frac{2}{9}\) |
\(\displaystyle\frac{1}{6}\) |
\(0\) |
\(y=2\) |
\(\displaystyle\frac{1}{36}\) |
\(0\) |
\(0\) |
확률질량함수는 다음과 같다.$$f(x,\,y)=\frac{\displaystyle\binom{3}{x}\binom{2}{y}\binom{4}{2-x-y}}{\displaystyle\binom{9}{x}}\,(x=0,\,1,\,2,\,y=0,\,1,\,2,\,0\leq x,\,y\leq2)$$
\(X\)와 \(Y\)의 결합확률밀도함수가 다음과 같고$$f(x,\,y)=\begin{cases}\displaystyle\frac{3}{5}x(x+y),&\,(0<x<1,\,0<y<2)\\0,&\,(\text{otherwise})\end{cases}$$\(\displaystyle A=\left\{(x,\,y)\,|\,0<x<\frac{1}{2},\,1<y<2\right\}\)일 때, \(P((X,\,Y)\in A)\)(영역 \(A\)에 있을 확률)을 구하면$$\begin{align*}P((X,\,Y)\in A)&=P\left(0<x<\frac{1}{2},\,1<y<2\right)=\int_{1}^{2}{\int_{0}^{\frac{1}{2}}{\frac{3}{5}x(y+x)dx}dy}\\&=\int_{1}^{2}{\left[\frac{3}{10}x^{2}y+\frac{1}{5}x^{3}\right]_{0}^{\frac{1}{2}}dy}=\int_{1}^{2}{\frac{3y+1}{40}dy}\\&=\frac{11}{80}\end{align*}$$이다.
참고자료:
John E Freund's Mathematical Statistics with Applications 8th edition, Irwin Miller, Marylees Miller, Pearson
Introduction to Mathematical Statistics 7th edition, Hogg, McKean, Craig, Pearson
수리통계학, 허문열, 송문섭, 박영사
'확률및통계 > 수리통계학' 카테고리의 다른 글
[수리통계학] 6. 이산확률변수와 관련된 분포들 (0) | 2018.11.21 |
---|---|
[수리통계학] 5. 기댓값과 적률, 공분산, 조건부기댓값 (0) | 2018.11.20 |
[수리통계학] 4. 확률변수와 분포(2) (0) | 2018.11.19 |
[수리통계학] 2. 확률 (0) | 2018.11.17 |
[수리통계학] 1. 표본공간과 사건, 순열과 조합, 이항계수 (0) | 2018.11.16 |