[금융통계학] 2. 확률과 확률변수
확률
확률을 정의하기 위해서는 표본공간(sample space)과 사건(event)을 정의해야 한다. 표본공간은 어떤 임의의 실험(random experiment)(또는 시행(trial))에서 가능한 결과들의 집합이고, 사건은 표본공간의 부분집합으로써 특정한 실험이 일어나는 결과들의 집합이다.
동전던지기를 한 번 시행했을 때, 결과는 앞면(H) 또는 뒷면(T) 뿐이므로 이 실험의 표본공간은 \(S=\{H,\,T\}\)이고, 동전던지기를 두 번 시행했을 때, 결과는 HH, HT, TH, TT이므로, 이 실험의 표본공간은 \(S=\{HH,\,HT,\,TH,\,TT\}\)이다. 두 경우 모두 이산형 표본공간이다.
주가는 전일 대비 상하 15% 범위 이내로 움직이도록 제한되어있다. 그러면 어느 기업의 주가의 단순수익률의 표본공간은 \(S=\{r\,|\,-15\text{%}\leq r\leq15\text{%}\}\)이고, 연속형 표본공간이다.
표본공간 \(S\)의 두 사건 \(A,\,B\)에 대하여 합사건을 \(A\cup B\), 곱사건을 \(A\cap B\), 여사건을 \(A^{c}\), 배반사건(상호 배반)을 \(A\cup B,\,A\cap B=\emptyset\)으로 정의한다.
표본공간 \(S\)의 원소가 \(n\)개이고, 사건 \(A\)의 원소의 개수가 \(k\)개 이면, 사건 \(A\)가 일어날 확률(probability)은$$P(A)=\frac{k}{n}$$이다. 이것은 확률의 고전적 정의이다.
고전적 확률의 정의를 이용하여 동전을 두 번 던졌을 때, 앞면이 두 번 나올 확률을 계산하자. 이 사건을 \(A\)라고 하면, \(A=\{HH\}\), \(S=\{HH,\,HT,\,TH,\,TT\}\)이므로 \(\displaystyle P(A)=\frac{1}{4}\)이다.
표본공간 \(S\) 의 부분집합인 사건 \(A\)에 대한 확률 \(P(A)\)는 다음의 세 공리들을 만족시킨다.
(1) \(0\leq P(A)\leq1\)
(2) \(P(S)=1\)
(3) 배반사건 \(A_{1},\,A_{2},\,\cdots,\,A_{i},\,\cdots\)에 대하여$$P\left(\bigcup_{i=1}^{\infty}{A_{i}}\right)=\sum_{i=1}^{\infty}{P(A_{i})}$$이 성질들을 공리적 확률이라고 한다.
표본공간 \(S\)와 사건 \(A,\,B\)에 대하여 다음 성질들이 성립한다.
(1) \(P(A^{c})=1-P(A)\)
(2) \(P(A-B)=P(A\cap B^{c})=P(A)-P(A\cap B)\)
(3) \(P(A\cup B)=P(A)+P(B)-P(A\cap B)\)
공리적 확률의 성질을 이용하여 위의 성질들을 증명할 수 있다.
(1): \(S=A\cup A^{c}\)이고, \(A\)와 \(A^{c}\)는 배반사건이므로$$1=P(S)=P(A\cup A^{c})=P(A)+P(A^{c})$$이고 따라서 \(P(A^{c})=1-P(A)\)이다.
(2): \(A=(A\cap B)\cup(A\cap B^{c})\)이고 \(A\cap B\)와 \(A\cap B^{c}\)는 배반사건이므로$$P(A)=P((A\cap B)\cup(A\cap B^{c}))=P(A\cap B)+P(A\cap B^{c})$$이고 따라서 \(P(A-B)=P(A\cap B^{c})=P(A)-P(A\cap B)\)이다.
(3): \(A\cup B=(A\cap B^{c})\cup B\)이고 \(A\cap B^{c}\)와 \(B\)는 배반사건이므로$$P(A\cup B)=P(A\cap B^{c})+P(B)$$이고, (2)에 의해 \(P(A\cap B^{c})=P(A)-P(A\cap B)\)이므로 따라서 \(P(A\cup B)=P(A)+P(B)-P(A\cap B)\)이다.
(3)을 다음과 같이 확장할 수 있다.$$P(A\cup B\cup C)=P(A)+P(B)+P(C)-P(A\cap B)-P(B\cap C)-P(A\cap C)+P(A\cap B\cap C)$$
어느 은행의 예금자 중에서 예금 비율이 5%이상 증가한 예금자의 비율은 20%이고, 예금자 중에서 대출이 5%이상 증가한 예금자의 비율은 30%, 예금 비율이 5%이상 증가하고 대출이 5%이상 증가한 예금자의 비율은 10%이다.
은행 예금자 중에서 예금 비율이 5%이상 증가하는 사건을 \(A\), 예금자 중에서 대출이 5%이상 증가하는 사건을 \(B\)라고 하자. 그러면$$P(A)=0.2,\,P(B)=0.3,\,P(A\cap B)=0.1$$이므로$$P(A\cup B)=P(A)+P(B)-P(A\cap B)=0.4$$이다.
표본공간 \(S\)와 사건 \(A,\,B\)에 대하여 사건 \(B\)가 일어났다는 조건 하에서 사건 \(A\)가 발생할 확률을 사건 \(B\)에서의 사건 \(A\)의 조건부 확률(conditional probability)이라 하고,$$P(A|B)=\frac{P(A\cap B)}{P(B)}$$로 정의된다. 이때$$P(A\cap B)=P(A)P(B|A)=P(B)P(A|B)$$가 성립하고 이것을 다음과 같이 확장할 수 있다.$$P(A\cap B\cap C)=P(A)P(B|A)P(C|A\cap B)$$
경제활동이 위축될 통계적 확률이 18%, 이 상황에서 장기채권의 수익률이 하락할 확률이 76%라고 한다.
경제활동이 위축되는 사건을 \(A\), 장기채권의 수익률이 하락하는 사건을 \(B\)라고 하면,$$P(A)=0.18,\,P(B|A)=0.76$$이므로$$P(A\cap B)=P(A)P(B|A)=0.137$$이다.
두 사건 \(A,\,B\)에 대하여 \(P(A|B)=P(A)\) 또는 \(P(B|A)=P(B)\)이면, 두 사건 \(A,\,B\)를 독립(independent)이라고 한다. 즉, 사건 \(A\)(\(B\))가 일어날 확률이 사건 \(B\)(\(A\))에 관계없이 일정하면, \(A\)와 \(B\)는 독립이라고 하고 이때 다음 등식이 성립한다.$$P(A\cap B)=P(A)P(B)$$
사건 \(A\)에서의 사건 \(B\)의 조건부 확률은 \(P(B|A)\)이고, 다음과 같이 나타낼 수 있다.$$P(B|A)=\frac{P(A\cap B)}{P(A)}=\frac{P(A|B)P(B)}{P(A|B)P(B)+P(A|B^{c})P(B^{c})}$$
이 식을 다음과 같이 확장할 수 있다. \(B_{1},\,\cdots,\,B_{n}\)을 표본공간의 분할이라 하자. 그러면 사건 \(A\)에서의 사건 \(B_{k}\)의 조건부 확률은$$P(B_{k}|A)=\frac{P(A\cap B_{k})}{P(A)}=\frac{P(A|B_{k})P(B_{k})}{\displaystyle\sum_{i=1}^{n}{P(A|B_{i})P(B_{i})}}$$이고, 이것을 베이즈 정리(Bayes' theorem)라고 한다.
어느 산업단지에 입주한 기업등 중의 5%가 도산한다고 한다. 모 은행에서 이 산업단지에 입주한 기업들의 도산 가능성을 조사하기 위해 신용평가기관을 통해 조사한 결과, 최근 1년간 도산한 기업 중 불량으로 판정된 기업은 95%, 최근 1년간 도산하지 않은 기업 중 우량으로 판정된 기업은 90%이다.
기업이 도산하는 사건을 \(B\), 도산하지 않는 사건을 \(B^{c}\), 신용평가기관의 조사 결과 불량으로 판정되는 사건을 \(N\), 우량으로 판정되는 사건을 \(G\)라고 하면,$$P(B)=0.05,\,P(B^{c})=0.95,\,P(N|B)=0.95,\,P(G|B)=0.05,\,P(N|B^{c})=0.1,\,P(G|B^{c})=0.9$$이다.
그러면 이 산업단지에 입주한 기업의 신용평가 조사결과가 불량으로 판정되었을 때, 도산할 확률은$$\begin{align*}P(B|N)&=\frac{P(B\cap N)}{P(N)}=\frac{P(N|B)P(B)}{P(N|B)P(B)+P(N|B^{c})P(B^{c})}\\&=\frac{0.95\cdot0.05}{0.95\cdot0.05+0.10\cdot0.95}=\frac{1}{3}\end{align*}$$이고, 신용평가 조사결과가 우량으로 판정되었을 때, 도산하지 않을 확률을$$\begin{align*}P(B^{c}|G)&=\frac{P(B^{c}\cap G)}{P(G)}=\frac{P(G|B^{c})P(B^{c})}{P(G|B)P(G)+P(G|B^{c})P(B^{c})}\\&=\frac{0.90\cdot0.95}{0.05\cdot0.05+0.90\cdot0.95}=\frac{342}{343}\end{align*}$$이다.
확률변수
확률변수(random variable)는 표본공간에 있는 실험(또는 실행)의 결과를 숫자로 나타내는 함수이다. 즉 확률변수는 표본공간의 각 원소들을 실수로 대응하는 함수이다. 확률변수는 특정한 값으로 나타낼 수 있는 이산(discrete)확률변수와 일정한 범위 안에서 연속적인 값을 취하는 연속(continuous)확률변수로 구분된다. 동전 앞면의 수는 이산확률변수이고, 키, 몸무게, 시간은 연속확률변수이다. 참고로 연속확률변수가 하나의 가질 확률은 0이다.
이산확률변수 \(X\)의 확률분포가 다음과 같다고 하자.
\(X\) |
\(x_{1}\) |
\(x_{2}\) |
\(\cdots\) |
\(x_{n}\) |
계 |
\(P(X=x_{i})\) |
\(p_{1}\) |
\(p_{2}\) |
\(\cdots\) |
\(p_{n}\) |
\(1\) |
\(P(X=x_{i})=p_{i}\)를 확률질량함수(probability mass function)라고 하고, 이때 \(\displaystyle\sum_{i=1}^{n}{P(X=x_{i})}=1\)이다.
연속확률변수 \(X\)의 경우는 \(P(x\leq X\leq x+dx)=f(x)dx\)인 함수 \(f(x)(\geq0)\)를 연속확률변수 \(X\)의 확률밀도함수(probability density function)라고 하고, 이때$$\int_{-\infty}^{\infty}{f(x)dx}=1,\,P(a\leq X\leq b)=\int_{a}^{b}{f(x)dx}$$이다.
확률변수 \(X\)의 누적분포함수(cumulative distribution function)을 다음과 같이 정의한다.$$F(x)=P(X\leq x)$$\(X\)가 이산확률변수이면,$$F(x)=P(X\leq x)=\sum_{t\leq x}{P(X=t)}$$연속확률변수이면,$$F(x)=P(X\leq x)=\int_{-\infty}^{x}{f(t)dt}$$이다.
참고자료:
기초 금융통계, 박유성, 김기환, 자유아카데미
금융인을 위한 통계분석, 이긍희, 한국금융연수원
재무위험관리사(1: 금융통계학), 금융투자교육원, 한국금융투자협회
'확률및통계 > 금융통계학' 카테고리의 다른 글
[금융통계학] 6. 가설검정 (0) | 2019.02.14 |
---|---|
[금융통계학] 5. 표본통계량의 분포 (0) | 2019.02.13 |
[금융통계학] 4. 확률분포 (0) | 2019.02.12 |
[금융통계학] 3. 기댓값과 분산, 공분산, 포트폴리오 (0) | 2019.02.11 |
[금융통계학] 1. 기초 이론 (0) | 2019.01.16 |