반응형

2. 확률



고전적 확률:


표본공간 \(S\)의 경우의 수가 \(n\)이고, 사건 \(A\subset S\)가 일어나는 경우의 수가 \(k\)일 때, 사건 \(A\)가 일어날 확률(probability)은$$P(A)=\frac{k}{n}$$이다.


통계적 확률:  


사건 \(A\)가 일어나는 경우의 수가 \(k\)이고, \(n\)번 시행했을 때, 사건 \(A\)가 일어날 확률은$$P(A)=\lim_{n\,\rightarrow\,\infty}{\frac{k}{n}}$$이다.


공리적 확률:


\(S\)를 표본공간이라 하자. 


(A1) \(A\subset S\)에 대하여 \(P(A)\geq0\)

(A2) \(P(S)=1\)

(A3) 상호배반인 사건 \(A_{1},\,A_{2},\,A_{3},\,\cdots\)에 대하여$$P\left(\bigcup_{i=1}^{\infty}{A_{i}}\right)=\sum_{i=1}^{\infty}{P(A_{i})}$$


확률의 공리(공리적 확률)로부터 다음 명제들이 성립한다.(\(S\)는 표본공간)


(1) 모든 \(A\subset S\)에 대하여 \(P(A^{c})=1-P(A)\)이다.

(2) \(P(\emptyset)=0\)

(3) \(A,\,B\subset S\)이고 \(A\subset B\)이면, \(P(A)\leq P(B)\)

(4) 모든 \(A\subset S\)에 대하여 \(0\leq P(A)\leq1\)

(5) \(A,\,B\subset S\)에 대하여 \(P(A\cup B)=P(A)+P(B)-P(A\cap B)\)

(6) \(A,\,B,\,C\subset S\)에 대하여$$P(A\cup B\cup C)=P(A)+P(B)+P(C)-P(A\cap B)-P(B\cap C)-P(C\cap A)+P(A\cap B\cap C)$$

증명:

(1) \(A\cup A^{c}=S\)이므로 (A2)에 의해 \(1=P(S)=P(A\cup A^{c})\)이고, \(A\cap A^{c}=\emptyset\)이므로 (A3)에 의해 \(P(A\cup A^{c})=P(A)+P(A^{c})\)이다. 따라서 \(1=P(A)+P(A^{c})\)이고, \(P(A^{c})=1-P(A)\)이다.

(2) \(S=S\cup\emptyset\)이므로 (A2)에 의해 \(1=P(S)=P(S\cup\emptyset)\)이고, \(S\cap\emptyset=\emptyset\)이므로 (A3)에 의해 \(1=P(S)+P(\emptyset)\)이고, \(P(S)=1\)이므로 따라서 \(P(\emptyset)=1-P(S)=1-1=0\)이다.

(3) \(B=A\cup(A^{c}\cap B)\)이고 \(A\cap(A^{c}\cap B)=\emptyset\) (A3)으로부터$$P(B)=P(A)+P(A^{c}\cap B)$$이다.

(A1)로부터 \(P(A^{c}\cap B)\geq0\)이므로, 따라서 \(P(A)\leq P(B)\)이다.   

(4) \(\phi\subset A\subset S\)이므로 (3)에 의해 $$0=P(\emptyset)\leq P(A)\leq P(\emptyset)=P(S)=1$$이다.

(5)$$A\cup B=A\cup(A^{c}\cap B),\,B=(A\cap B)\cup(A^{c}\cap B)$$이고 이때 \(A\cap(A^{c}\cap B)=0\), \((A\cap B)\cap(A^{c}\cap B)=\emptyset\)이다. 그러면 (A3)으로부터$$\begin{align*}&P(A\cup B)=P(A)+P(A^{c}\cap B)\\&P(B)=P(A\cap B)+P(A^{c}\cap B)\end{align*}$$이고, 이 두식을 서로 빼면 등식 \(P(A\cup B)=P(A)+P(B)-P(A\cap A)\)을 얻는다.

(6) (독자에게 맡긴다)


어느 도시에서 한 세대(가구)이 TV, 컴퓨터, 아니면 둘 다 모두 소유하고 있을할 확률이 각각 \(0.76,\,0.40,\,0.30\)이다. 한 세대가 TV와 컴퓨터중 적어도 하나를 소유하고 있을 확률을 구하자. \(A\)를 한 세대가 TV를 소유하는 사건, \(B\)를 컴퓨터를 소유하는 사건이라고 하자. 한 세대가 TV와 컴퓨터 중 적어도 하나를 소유하는 사건은 \(A\cup B\)이고, \(P(A)=0.76,\,P(B)=0.40,\,P(A\cap B)=0.30\)이므로$$P(A\cup B)=P(A)+P(B)-P(A\cap B)=0.76+0.40-0.30=0.86$$이다. 

 

\(\{A_{n}\}\)을 사건들의 집합이라 하자. 그러면

(a) \(A_{n}\subset A_{n+1}\)이면, \(\displaystyle\lim_{n\,\rightarrow\,\infty}{P(C_{n})}=\lim_{n\,\rightarrow\,\infty}{P\left(\lim_{n\,\rightarrow\,\infty}{C_{n}}\right)}=P\left(\bigcup_{n=1}^{\infty}{C_{n}}\right)\)

(b) \(A_{n+1}\subset A_{n}\)이면, \(\displaystyle\lim_{n\,\rightarrow\,\infty}{P(C_{n})}=\lim_{n\,\rightarrow\,\infty}{P\left(\lim_{n\,\rightarrow\,\infty}{C_{n}}\right)}=P\left(\bigcap_{n=1}^{\infty}{C_{n}}\right)\)

증명:

(a) \(D_{n}=C_{n}-C_{n-1},\,C_{0}=\emptyset\)이라 하자. 그러면 \(D_{n}\)은 서로소이고 \(\displaystyle C_{n}=\bigcup_{k=1}^{n}{D_{k}}\), \(C_{1}=D_{1}\)이므로$$\bigcup_{n=1}^{\infty}{D_{n}}=\bigcup_{n=1}^{\infty}{C_{n}}$$이고, \(P(D_{n})=P(C_{n})-P(C_{n-1})\)이므로\((\because\,C_{n-1}\subset C_{n})\)$$\begin{align*}P\left(\lim_{n\,\rightarrow\,\infty}{C_{n}}\right)&=P\left(\bigcup_{n=1}^{\infty}{C_{n}}\right)=P\left(\bigcup_{n=1}^{\infty}{D_{n}}\right)\\&=\lim_{n\,\rightarrow\,\infty}{\left(P(D_{1})+\sum_{k=1}^{n}{\{P(C_{k})-P(C_{k-1})\}}\right)}\\&=\lim_{n\,\rightarrow\,\infty}{P(C_{n})}\end{align*}$$이다.

(b) \(F_{n}=C_{1}-C_{n}\)이라 하자. 그러면 \(F_{n}\subset F_{n+1}\)이고, \(P(F_{n})=P(C_{1})-P(C_{n})\)이다.$$\bigcup_{n=1}^{\infty}{F_{n}}=C_{1}-\bigcap_{n=1}^{\infty}{C_{n}}$$이므로$$\begin{align*}P(C_{1})&=P\left(\bigcup_{n=1}^{\infty}{F_{n}}\right)+P\left(\bigcap_{n=1}^{\infty}{C_{n}}\right)\\&=\lim_{n\,\rightarrow\,\infty}{\{P(C_{1})-P(C_{n})\}}+P\left(\bigcap_{n=1}^{\infty}{C_{n}}\right)\end{align*}$$이고 따라서 \(\displaystyle\lim_{n\,\rightarrow\,\infty}{P(C_{n})}=P\left(\lim_{n\,\rightarrow\,\infty}{C_{n}}\right)=P\left(\bigcap_{n=1}^{\infty}{C_{n}}\right)\)이다.


표본공간 \(S\)의 부분집합인 사건 \(A\)가 일어난 상황에서 사건 \(B(\subset A)\)가 일어날 확률은 주어진 사건 \(A\)에 대한 사건 \(B\)의 조건부확률(conditional probability)이라 하고, 다음과 같이 정의하는데 이때 \(P(A)>0\)이다.$$P(B|A)=\frac{P(A\cap B)}{P(A)}$$

조건부확률의 의미는 사건 \(A\)가 일어난 상황에서만 고려한다면 \(A\)이외의 일은 무시되므로 \(A\)를 새로운 표본공간으로 볼 수 있다. 이때 사건 \(B\)가 일어났다면, 사건 \(A\)가 일어난 상황에서 사건 \(B\)의 조건부확률은 \(P(A\cap B)\)를 \(P(A)\)로 나눈 값이다.


어떤 역무원이 과거의 근무 경험으로부터 어떤 열차가 정시에 도착할 확률이 \(0.80\)이고, 그 열차가 역을 정시에 도착하고 출발해서 종착역에 정시에 도착할 확률이 \(0.64\)라고 주장했다. 이 주장에서의 어떤 열차가 정시도착했을 때, 정시에 종착역에 도착할 확률을 구하자.

\(A\)를 어떤 열차가 정시에 도착하는 사건, \(B\)를 열차가 역을 출발해서 정시에 종착역에 도착하는 사건이라고 하자. 그러면 열차가 역에 정시에 도착했을 때, 정시에 종착역에 도착하는 사건은 \(B|A\), \(P(A)=0.80,\,P(A\cap B)=0.64\)이므로$$P(B|A)=\frac{P(A\cap B)}{P(A)}=\frac{0.64}{0.80}=0.08$$이다.


냉동트럭에 적재된 201개의 냉동참치 중에서 16마리는 특등품이라고 한다. 두마리의 참치를 아무거나 고른다고 하면(비복원추출), 두마리가 모두 특등품 참치일 확률을 구하자. \(A_{1}\)을 처음으로 특등품 참치를 고르는 사건이라 하고, \(A_{2}\)를 두번째로 특등품 참치를 고르는 사건이라고 하자. 그러면 두 마리 모두 특등품일 사건은 \(A_{1}\cap A_{2}\), $$P(A_{1})=\frac{16}{201},\,P(A_{2}|A_{1})=\frac{15}{200}$$이므로 따라서$$P(A_{1}\cap A_{2})=P(A_{2}|A_{1})P(A_{1})=\frac{15}{200}\cdot\frac{16}{201}=\frac{240}{40200}=\frac{2}{335}$$이다.


서로 다른 사건 \(A\), \(B\)에 대하여 사건 \(A\)의 발생이 사건 \(B\)의 확률에 영향을 주지 않으면, 즉 \(P(B|A)=P(B)\)이면, 사건 \(A,\,B\)는 서로 독립(independent)이라 한다. \(P(A|B)=P(A)\)이어도 사건은 독립이고 따라서 사건 \(A\)와 \(B\)가 독립일 필요충분조건은$$P(A\cap B)=P(A)\cap P(B)$$이다.


주사위를 두번 던질 때, 눈의 합이 \(7\)이 되는 경우는$$(1,\,6),\,(2,\,5),\,(3,\,4),\,(4,\,3),\,(5,\,2),\,(6,\,1)$$이고, 따라서 눈의 합이 \(7\)이 될 확률은$$6\cdot\frac{1}{6}\cdot\frac{1}{6}=\frac{1}{6}$$이다.


사건 \(A\), \(B\)가 독립이면, \(A^{c},\,B\), \(A,\,B^{c}\), \(A^{c},\,B^{c}\)도 독립이다.


\(n\)개의 사건 \(A_{1},\,A_{2},\,\cdots,\,A_{n}\)이 쌍으로 독립(pairwise independent)일 필요충분조건은 다음 식이 성립하는 경우이다.$$P(A_{1}\cap\cdots\cap A_{n})=P(A_{1})\cdots P(A_{n})$$이다. 이때 주의 할 점은 3개 이상의 사건들은 독립이 아니어도 쌍으로 독립이 가능하다.


아래 그림의 벤대이어그램에 있는 사건 \(A,\,B,\,C\)에 대해 \(A,\,B\)가 독립, \(B,\,C\)가 독립, \(C,\,A\)가 독립, \(\displaystyle P(A)=P(B)=P(C)=\frac{1}{2},\,P(A\cap B\cap C)=\frac{1}{4}\)라 하자.

$$P(A)P(B)P(C)=\frac{1}{8}\neq\frac{1}{4}=P(A\cap B\cap C)$$이므로 \(A,\,B,\,C\)는 독립이 아니다. 이것은 3개 이상의 사건이 독립이 아니어도 쌍으로 독립이 가능하다는 것을 뜻한다.


전체 확률의 규칙(rule for total probability)


사건 \(A_{1},\,\cdots,\,A_{n}\)이 표본공간 \(S\)의 한 분할, 즉 \(\displaystyle S=\sum_{k=1}^{n}{A_{k}},\,A_{i}\cap A_{j}=\emptyset\,(i\neq j)\)이라고 하자. 임의의 사건 \(B\)에 대하여 다음 식이 성립한다.$$P(B)=\sum_{k=1}^{n}{P(B|A_{k})P(A_{k})}$$


전체 확률의 규칙으로부터 다음의 베이즈 정리를 얻는다.


베이즈 정리(Bayes' theorem)


사건 \(A_{1},\,\cdots,\,A_{n}\)이 표본공간 \(S\)의 한 분할이고, \(i=1,\,\cdots,\,n\)에 대하여 \(P(B_{i})\neq0\)이면, \(P(B)\neq0\)인 임의의 사건 \(B\subset S\)에 대해$$P(A_{r}|B)=\frac{P(A_{r}\cap B)}{P(B)}=\frac{P(B|A_{r})P(A_{r})}{\displaystyle\sum_{i=1}^{n}{P(A_{i}|B)}P(A_{i})}$$이다.


50세 이상의 성인의 8%가 당뇨병 환자라고 한다. 건강검진에서 당뇨병 환자의 95%를 당뇨병 환자로 정확하게 진단하고, 당뇨병이 없는 모든 사람들의 2%를 당뇨병 환자로 오진한다.

(1) 건강검진이 50세 이상의 성인을 당뇨병으로 진단할 확률을 구하자. 당뇨 환자인 사건을 \(D\), 당뇨를 진단하는 사건을 \(T\)라고 하면 \(P(D)=0.08,\,P(T|D)=0.95,\,P(T|D^{c})=0.02\)이므로$$\begin{align*}P(T)&=P(T|D)P(D)+P(T|D^{c})P(D^{c})\\&=0.95\cdot0.08+0.02\cdot0.92\\&=0.0944\end{align*}$$이다.

(2) 건강검진에서 당뇨병이 있다고 검진받은 50세 이상의 사람이 실제로 당뇨병 환자일 확률을 구하면$$\begin{align*}P(D|T)&=\frac{P(D\cap T)}{P(T)}\\&=\frac{P(T|D)P(D)}{P(T)}\\&=\frac{0.95\cdot0.08}{0.0944}\\&=0.805\end{align*}$$이다.


참고자료:

John E Freund's Mathematical Statistics with Applications 8th edition, Irwon Miller, Marylees Miller, Pearson

Introduction to Mathematical Statistics 7th edition, Hogg, McKean, Craig, Pearson

수리통계학, 허문열, 송문섭, 박영사       

반응형
Posted by skywalker222