반응형

6. 이산확률변수와 관련된 분포들



이산확률변수 \(X\)의 확률질량함수가 다음과 같을 때, \(X\)는 이산형 균등분포(discrete uniform distribution)를 따른다고 한다.$$f(x)=\frac{1}{n}\,(x=x_{1},\,\cdots,\,x_{n})$$여기서 \(i\neq j\)이면, \(x_{i}\neq x_{j}\)이다. 이때$$\begin{align*}\mu&=E(X)=\sum_{i=1}^{n}{\frac{x_{i}}{n}}\\ \sigma^{2}&=\text{Var}(X)=\sum_{i=1}^{n}{(x_{i}-\mu)^{2}\frac{1}{k}}\,\end{align*}$$이다.


한 실행이 결과가 두 가지 뿐(예를들어 성공 또는 실패)이면, 성공한 횟수는 베르누이 분포(Bernoulli distribution)을 따른다고 하고 이 시행을 베르누이 시행(Bernoulli trial)이라고 한다. 이산확률변수 \(X\)의 확률질량함수가 다음과 같을 때, \(X\)는 베르누이분포를 따른다고 한다.$$f(x)=p^{x}(1-p)^{1-x},\,(x=0,\,1)$$여기서 \(p\)는 성공의 확률이고, \(1-p\)는 실패의 확률이고, 성공의 경우 \(X=1\), 실패의 경우 \(X=0\)이다. 이때$$\begin{align*}\mu&=E(X)=1\cdot p+0\cdot(1-p)=p\\ \sigma^{2}&=\text{Var}(X)=(1-p)^{2}p+(0-p)^{2}(1-p)=p(1-p)\end{align*}$$이다. 참고로 \(M_{X}(t)=(1-p)+pe^{t}\)이다.


베르누이 시행을 \(n\)번 한다고 하자. 즉, \(X_{1},\,\cdots,\,X_{n}\)이 서로 독립이고 성공확률이 \(p\)인 베르누이 시행일 때,$$X=\sum_{i=1}^{n}{X_{i}}$$는 \(n\)회의 베르누이 시행에서의 성공횟수이고, \(X=x\)일 경우의 수가$$\binom{n}{x}=\frac{n!}{x!(n-x)!}$$이고, 각 경우에 대한 확률은$$p^{x}(1-p)^{n-x}$$이므로, \(X\)의 확률질량함수는$$f(x)=\binom{n}{x}p^{x}(1-p)^{n-x}$$이다.

따라서 확률변수 \(X\)의 확률질량함수가 다음과 같을 때, \(X\)는 이항분포(binomial distribution)를 따른다고 하고 \(X\,\sim\,B(n,\,p)\)로 나타낸다.$$f(x)=\binom{n}{x}p^{x}(1-p)^{n-x},\,(x=0,\,1,\,\cdots,\,n)$$이항정리에 의해 이항분포의 확률들의 합은 \(1\)이 된다. 이때$$\begin{align*}\mu&=E(X)=\sum_{i=1}^{n}{E(X_{i})}=np\\ \sigma^{2}&=\text{Var}(X)=\sum_{i=1}^{n}{\text{Var}(X_{i})}=np(1-p)\\ M_{X}(t)&=(pe^{t}+(1-p))^{n}\end{align*}$$이다. 적률생성함수의 식은 이항정리로부터 성립한다.


\(X\)를 동전을 \(100\)번 던지는 시행에서 앞면이 나오는 횟수라 하면, \(\displaystyle X\,\sim\,B\left(100,\,\frac{1}{2}\right)\)이고,$$\begin{align*}E(X)&=100\cdot\frac{1}{2}=50\\ \text{Var}(X)&=100\cdot\frac{1}{2}\cdot\frac{1}{2}=25\\ M_{X}(t)&=\left(\frac{1}{2}e^{t}+\frac{1}{2}\right)^{100}=\frac{(e^{t}+1)^{100}}{2^{100}}\end{align*}$$이다.


\(n\)의 값이 커지면 이항정리를 이용하여 확률을 계산하는 것이 어렵게 된다. \(np=\lambda\)라 하고 \(n\,\rightarrow\,\infty\)일 때, 이항분포의 확률질량함수가$$\begin{align*}\binom{n}{x}p^{x}(1-p)^{x}&=\frac{n(n-1)\cdots(n-x+1)}{x!}\left(\frac{\lambda}{n}\right)^{x}\left(1-\frac{\lambda}{n}\right)\\&=\left(1-\frac{1}{n}\right)\left(1-\frac{2}{n}\right)\cdots\left(1-\frac{x-1}{n}\right)\frac{\lambda^{x}}{x!}\left(1-\frac{\lambda}{n}\right)^{n}\left(1-\frac{\lambda}{n}\right)^{-x}\end{align*}$$이고,$$\begin{align*}\lim_{n\,\rightarrow\,\infty}{\left(1-\frac{1}{n}\right)\left(1-\frac{2}{n}\right)\cdots\left(1-\frac{x-1}{n}\right)}&=1\\ \lim_{n\,\rightarrow\,\infty}{\left(1-\frac{\lambda}{n}\right)^{-x}}&=1\\ \lim_{n\,\rightarrow\,\infty}{\left(1-\frac{\lambda}{n}\right)^{-n}}=e^{-\lambda}\end{align*}$$이므로 이항분포의 확률질량함수는$$f(x)=\frac{\lambda^{x}e^{-\lambda}}{x!}$$가 된다. 따라서 확률변수 \(X\)의 확률질량함수가 다음과 같으면, 확률변수 \(X\)는 평균이 \(\lambda\)인 포아송분포(poisson distribution)를 따른다고 한다.$$f(x)=\frac{\lambda^{x}e^{-\lambda}}{x!}\,(x=0,\,1,\,\cdots)$$

(\(n=150,\,p=0.05\)인 이항분포와 \(\lambda=np=7.5\)인 포아송분포와의 비교. 포아송분포의 확률과 이항분포의 확률은 거의 비슷하다.)


모 보험회사의 통계자료에 따르면 특정 암으로 한 사람이 1년 동안 사망할 확률이 0.001%라고 한다. 이 보험회사의 회원 20만명 중에서 이 특정 암으로 1년 동안 5명 이상 사망할 확률을 구하자. 확률변수 \(X\)를 20만명 중 특정 암으로 사망한 사람의 수라고 하면, \(X\,\sim\,B(200,000,\,0.00001)\)이다. 그러나 수치가 너무 크기 때문에 포아송분포를 이용하여 구하는게 좋다.$$E(X)=200,000\cdot0.00001=2$$이므로 5명 이상 사망할 확률은$$P(X\geq5)=1-P(X\leq 4)=1-0.947=0.053$$이다.


참고자료:

John E Freund's Mathematical Statistics with Applications 8th edition, Irwon Miller, Marylees Miller, Pearson

Introduction to Mathematical Statistics 7th edition, Hogg, McKean, Craig, Pearson

수리통계학, 허문열, 송문섭, 박영사 

반응형
Posted by skywalker222