[기초통계학] 3. 확률
실험에서 나타날 수 있는 모든 결과들의 모임을 표본공간(sample space)이라 하고 \(\Omega\)로 나타낸다. 표본공간을 구성하는 개개의 결과를 근원사건(elementary outcomes), 표본공간의 부분집합으로 어떤 특성을 갖는 결과들의 모임(근원사건들의 집합)을 사건(event)이라고 한다. 근원사건은 \(\omega_{1},\,\omega_{2},\,...\), 사건은 \(A,\,B,\,...\)로 나타낸다.
표본공간은 유한집합, 가산무한집합(셀 수 있는 집합), 비가산집합(셀 수 없는 집합)중 하나이다.
동일한 조건 하에서 한 가지 실험을 반복할 때 전체 실험횟수에서 그 사건이 일어날 것으로 예상되는 횟수의 비율을 사건의 확률(probability)이라고 한다. 사건을 \(A\)라고 하면, 사건 \(A\)가 일어날 확률을 \(P(A)\)로 나타낸다. 확률은 전체에 대한 비율이므로 0과 1사이의 값을 가져야 하고, 사건 \(A\)가 일어나려면 \(A\)에 속한 근원사건이 하나 일어나야 하므로 \(A\)가 일어날 확률은 \(A\)상의 근원사건이 일어날 확률의 합이 되어야 한다. 또한 표본공간은 모든 가능한 결과들의 모임이므로 표본공간에 있는 근원사건은 하나는 반드시 일어나야 하므로 근원사건의 확률은 1이다. 이를 다음과 같이 정리할 수 있다.
확률의 법칙
(1) 모든 사건 \(A\)에 대해 \(0\leq P(A)\leq1\)
(2) \(\displaystyle P(A)=\sum_{\omega_{i}\in A}{P(\omega_{i})}\)
(3) \(\displaystyle P(\Omega)=\sum_{\omega_{i}\in\Omega}{P(\omega_{i})}=1\)
확률의 계산에는 다음의 두 가지가 있다.
1(확률의 고전적 해석). 표본공간 \(\Omega\)가 \(k\)개의 원소로 이루어져 있고 각 근원사건이 일어날 가능성이 동일(equally likely)하다고 하자. 그러면 근원사건 중 하나가 일어날 확률은 \(\displaystyle\frac{1}{k}\)이고, 사건 \(A\)가 \(m\)개의 근원사건으로 이루어져 있다면 사건 \(A\)가 일어날 확률은 다음과 같이 \(\Omega\)에 속하는 근원사건의 개수를 \(A\)에 속하는 근원사건의 개수로 나눈 값이다.$$P(A)=\frac{m}{k}$$2(확률의 상대도수에 의한 해석). 동일한 실험을 \(N\)번 반복하면 사건 \(A\)의 상대도수는 \(N\)번의 시행 중 \(A\)가 일어난 횟수를 \(N\)으로 나눈 값이고, \(N\)이 충분히 커지면 상대도수는 일정한 값으로 수렴하고, 그 수렴값이 사건 \(A\)가 일어날 확률 \(P(A)\)이다.
다음은 사건들의 기본적인 연산들을 정리한 것이다.
여사건: 사건 \(A\)의 여사건은 \(A\)에 포함되지 않은 근원사건들의 집합, 즉 \(A\)의 여집합 \(A^{c}\)이다.
합사건: 사건 \(A,\,B\)의 합사건은 \(A\) 또는 \(B\)에 포함되는 근원사건들의 집합으로 \(A\cup B\)이다.
곱사건: 사건 \(A,\,B\)의 곱사건은 \(A\)와 \(B\)에 동시에 포함되는 근원사건들의 집합으로 \(A\cap B\)이다.
배반사건: 동시에 일어날 수 없는 사건으로 \(A\)와 \(B\)가 배반사건이면, \(A\cap B=\emptyset\)이다.
사건 \(A\)와 여사건 \(A\)는 배반사건이고, \(A\cup A^{c}=\Omega\)이므로 다음의 식이 성립한다.$$1=P(\Omega)=P(A\cup A^{c})=P(A)+P(A^{c})$$따라서 사건 \(A\)의 여사건 \(A^{c}\)가 일어날 확률은 다음과 같다.$$P(A^{c})=1-P(A)$$이 식을 이용하여 \(P(\emptyset)=0\)이 됨을 알 수 있다.
사건 \(A\)와 \(B\)의 합사건 \(A\cup B\)는 \(A\) 또는 \(B\)에 속하는 근원사건들로 구성되어 있고, \(P(A)+P(B)\)에는 \(A\)와 \(B\)에 동시에 속하는(곱사건) \(P(A\cap P)\)가 중복으로 더해져 있다. 그러므로 합사건의 확률은 다음과 같다.$$P(A\cup B)=P(A)+P(B)-P(A\cap B)$$\(A\)와 \(B\)가 배반사건이면 \(A\cap B=\emptyset\)이므로 다음의 등식이 성립한다.$$P(A\cup B)=P(A)+P(B)$$사건 \(B\)가 주어졌을 때 사건 \(A\)의 조건부확률(conditional probability)은 \(P(B)\neq0\)이라는 가정 하에서 다음과 같이 정의된다.$$P(A|B)=\frac{P(A\cap B)}{P(B)}$$사건 \(A\)를 추출한 한 사람이 고혈압 증상을 갖고있는 사건, 사건 \(B\)를 추출한 한 사람이 비만일 사건이라 하자.
|
비만 |
정상 |
정상 이하 |
계 |
고혈압 |
0.10 |
0.08 |
0.02 |
0.20 |
정상혈압 |
0.15 |
0.45 |
0.20 |
0.80 |
계 |
0.25 |
0.53 |
0.22 |
1.00 |
전체의 20%가 고혈압이므로 \(P(A)=0.2\)이고, 임의로 추출된 한 사람이 비만일 때 고혈압을 가질 확률은 다음과 같은 조건부확률이다.$$P(A|B)=\frac{P(A\cap B)}{P(B)}=\frac{0.10}{0.10+0.15}=\frac{0.10}{0.25}=0.4$$조건부확률의 정의에서$$P(A\cap B)=P(A|B)P(B)$$이고, 사건 \(B\)가 사건 \(A\)의 발생에 영향을 주지 않으면, 즉 \(P(A|B)=P(A)\)이면, 사건 \(A\)와 사건 \(B\)는 서로 독립(independence)이라고 하고, 다음의 식을 만족한다.$$P(A\cap B)=P(A)P(B)$$표본공간 \(\Omega\)가 \(n\)개의 사건 \(A_{1},\,...,\,A_{n}\)으로 분할(partition)된다고 하자. 사건 \(B\)가 일어났다는 조건 하에서 사건 \(A_{i}\)가 일어날 확률은 다음과 같다.$$\begin{align*}P(A_{i}|B)&=\frac{P(B\cap A_{i})}{P(A_{i})}\\&=\frac{P(B\cap A_{i})}{P(B\cap A_{i})+\cdots+P(B\cap A_{i})}\\&=\frac{P(B|A_{i})P(A_{i})}{P(A_{1})P(B|A_{1})+\cdots+P(A_{n})P(B|A_{n})}\end{align*}$$여기서 분할은 \(A_{1},\,...,\,A_{n}\)들이 서로 배반사건이고, \(A_{1}\cup\cdots\cup A_{n}=\Omega\)임을 뜻한다. 이 정리를 베이즈 정리(Bayes' theorem)라고 한다.
어느 병원에서 입원한 환자들을 대상으로 결핵의 감염여부를 확인하기 위한 반응검사를 실시했다. 임상실험 결과 조사대상자 중 실제로 결핵에 감염된 사람의 비율은 10%, 결핵에 감염되지 않은 사람의 비율은 90%이다. 결핵에 감염된 사람 중 반응검사 결과 양성(+)으로 나타나는 경우가 95%, 결핵에 감염되지 않은 사람 중 반응검사 결과 양성으로 나타나는 경우가 10%라고 한다. 이 병원에 입원한 환자 중 한 사람에게 반응검사를 실시한 결과 양성 반응이 나타났을 때 실제로 결핵에 감염될 확률을 구하면 결핵에 감염된 사람들의 집단을 \(I\)라고 하면 주어진 조건으로부터 다음의 확률을 구할 수 있다.$$P(E)=0.1,\,P(E^{c})=0.9,\,P(+|E)=0.95,\,P(+|E^{c})=0.1$$구하고자 하는 확률은 \(P(E|+)\)이고 다음의 계산(베이즈 정리)으로부터 구할 수 있다.$$\begin{align*}P(E|+)&=\frac{P(E\cap+)}{P(+)}=\frac{P(E\cap+)}{P(E\cap+)+P(E^{c}\cap+)}\\&=\frac{P(+|E)P(E)}{P(+|E)P(E)+P(+|E^{c})P(E^{c})}\\&=\frac{0.95\times0.1}{0.95\times0.1+0.1\times0.9}=\frac{0.095}{0.185}=0.51\end{align*}$$
참고자료:
통계학의 이해 8판, 이용구, 김삼용, 율곡출판사
통계학-엑셀을 이용한 분석, 김진경 외 5인, 자유아카데미
'확률및통계 > 기초통계학' 카테고리의 다른 글
[기초통계학] 6. 연속확률분포 (0) | 2020.05.16 |
---|---|
[기초통계학] 5. 이산확률분포 (0) | 2020.04.10 |
[기초통계학] 4. 확률변수, 확률분포 (0) | 2020.04.09 |
[기초통계학] 2. 기술통계 (0) | 2020.04.07 |
[기초통계학] 1. 통계학이란 무엇인가? (0) | 2020.04.06 |