반응형

[금융통계학] 2. 확률과 확률변수



확률


확률을 정의하기 위해서는 표본공간(sample space)과 사건(event)을 정의해야 한다. 표본공간은 어떤 임의의 실험(random experiment)(또는 시행(trial))에서 가능한 결과들의 집합이고, 사건은 표본공간의 부분집합으로써 특정한 실험이 일어나는 결과들의 집합이다.

동전던지기를 한 번 시행했을 때, 결과는 앞면(H) 또는 뒷면(T) 뿐이므로 이 실험의 표본공간은 \(S=\{H,\,T\}\)이고, 동전던지기를 두 번 시행했을 때, 결과는 HH, HT, TH, TT이므로, 이 실험의 표본공간은 \(S=\{HH,\,HT,\,TH,\,TT\}\)이다. 두 경우 모두 이산형 표본공간이다.

주가는 전일 대비 상하 15% 범위 이내로 움직이도록 제한되어있다. 그러면 어느 기업의 주가의 단순수익률의 표본공간은 \(S=\{r\,|\,-15\text{%}\leq r\leq15\text{%}\}\)이고, 연속형 표본공간이다.

표본공간 \(S\)의 두 사건 \(A,\,B\)에 대하여 합사건을 \(A\cup B\), 곱사건을 \(A\cap B\), 여사건을 \(A^{c}\), 배반사건(상호 배반)을 \(A\cup B,\,A\cap B=\emptyset\)으로 정의한다.


표본공간 \(S\)의 원소가 \(n\)개이고, 사건 \(A\)의 원소의 개수가 \(k\)개 이면, 사건 \(A\)가 일어날 확률(probability)은$$P(A)=\frac{k}{n}$$이다. 이것은 확률의 고전적 정의이다.

고전적 확률의 정의를 이용하여 동전을 두 번 던졌을 때, 앞면이 두 번 나올 확률을 계산하자. 이 사건을 \(A\)라고 하면, \(A=\{HH\}\), \(S=\{HH,\,HT,\,TH,\,TT\}\)이므로 \(\displaystyle P(A)=\frac{1}{4}\)이다.


표본공간 \(S\) 의 부분집합인 사건 \(A\)에 대한 확률 \(P(A)\)는 다음의 세 공리들을 만족시킨다.

(1) \(0\leq P(A)\leq1\)

(2) \(P(S)=1\)

(3) 배반사건 \(A_{1},\,A_{2},\,\cdots,\,A_{i},\,\cdots\)에 대하여$$P\left(\bigcup_{i=1}^{\infty}{A_{i}}\right)=\sum_{i=1}^{\infty}{P(A_{i})}$$이 성질들을 공리적 확률이라고 한다.


표본공간 \(S\)와 사건 \(A,\,B\)에 대하여 다음 성질들이 성립한다.

(1) \(P(A^{c})=1-P(A)\)

(2) \(P(A-B)=P(A\cap B^{c})=P(A)-P(A\cap B)\)

(3) \(P(A\cup B)=P(A)+P(B)-P(A\cap B)\)

공리적 확률의 성질을 이용하여 위의 성질들을 증명할 수 있다.

(1): \(S=A\cup A^{c}\)이고, \(A\)와 \(A^{c}\)는 배반사건이므로$$1=P(S)=P(A\cup A^{c})=P(A)+P(A^{c})$$이고 따라서 \(P(A^{c})=1-P(A)\)이다.

(2): \(A=(A\cap B)\cup(A\cap B^{c})\)이고 \(A\cap B\)와 \(A\cap B^{c}\)는 배반사건이므로$$P(A)=P((A\cap B)\cup(A\cap B^{c}))=P(A\cap B)+P(A\cap B^{c})$$이고 따라서 \(P(A-B)=P(A\cap B^{c})=P(A)-P(A\cap B)\)이다.

(3): \(A\cup B=(A\cap B^{c})\cup B\)이고 \(A\cap B^{c}\)와 \(B\)는 배반사건이므로$$P(A\cup B)=P(A\cap B^{c})+P(B)$$이고, (2)에 의해 \(P(A\cap B^{c})=P(A)-P(A\cap B)\)이므로 따라서 \(P(A\cup B)=P(A)+P(B)-P(A\cap B)\)이다.

(3)을 다음과 같이 확장할 수 있다.$$P(A\cup B\cup C)=P(A)+P(B)+P(C)-P(A\cap B)-P(B\cap C)-P(A\cap C)+P(A\cap B\cap C)$$


어느 은행의 예금자 중에서 예금 비율이 5%이상 증가한 예금자의 비율은 20%이고, 예금자 중에서 대출이 5%이상 증가한 예금자의 비율은 30%, 예금 비율이 5%이상 증가하고 대출이 5%이상 증가한 예금자의 비율은 10%이다.

은행 예금자 중에서 예금 비율이 5%이상 증가하는 사건을 \(A\), 예금자 중에서 대출이 5%이상 증가하는 사건을 \(B\)라고 하자. 그러면$$P(A)=0.2,\,P(B)=0.3,\,P(A\cap B)=0.1$$이므로$$P(A\cup B)=P(A)+P(B)-P(A\cap B)=0.4$$이다.


표본공간 \(S\)와 사건 \(A,\,B\)에 대하여 사건 \(B\)가 일어났다는 조건 하에서 사건 \(A\)가 발생할 확률을 사건 \(B\)에서의 사건 \(A\)의 조건부 확률(conditional probability)이라 하고,$$P(A|B)=\frac{P(A\cap B)}{P(B)}$$로 정의된다. 이때$$P(A\cap B)=P(A)P(B|A)=P(B)P(A|B)$$가 성립하고 이것을 다음과 같이 확장할 수 있다.$$P(A\cap B\cap C)=P(A)P(B|A)P(C|A\cap B)$$


경제활동이 위축될 통계적 확률이 18%, 이 상황에서 장기채권의 수익률이 하락할 확률이 76%라고 한다.

경제활동이 위축되는 사건을 \(A\), 장기채권의 수익률이 하락하는 사건을 \(B\)라고 하면,$$P(A)=0.18,\,P(B|A)=0.76$$이므로$$P(A\cap B)=P(A)P(B|A)=0.137$$이다.


두 사건 \(A,\,B\)에 대하여 \(P(A|B)=P(A)\) 또는 \(P(B|A)=P(B)\)이면, 두 사건 \(A,\,B\)를 독립(independent)이라고 한다. 즉, 사건 \(A\)(\(B\))가 일어날 확률이 사건 \(B\)(\(A\))에 관계없이 일정하면, \(A\)와 \(B\)는 독립이라고 하고 이때 다음 등식이 성립한다.$$P(A\cap B)=P(A)P(B)$$


사건 \(A\)에서의 사건 \(B\)의 조건부 확률은 \(P(B|A)\)이고, 다음과 같이 나타낼 수 있다.$$P(B|A)=\frac{P(A\cap B)}{P(A)}=\frac{P(A|B)P(B)}{P(A|B)P(B)+P(A|B^{c})P(B^{c})}$$

이 식을 다음과 같이 확장할 수 있다. \(B_{1},\,\cdots,\,B_{n}\)을 표본공간의 분할이라 하자. 그러면 사건 \(A\)에서의 사건 \(B_{k}\)의 조건부 확률은$$P(B_{k}|A)=\frac{P(A\cap B_{k})}{P(A)}=\frac{P(A|B_{k})P(B_{k})}{\displaystyle\sum_{i=1}^{n}{P(A|B_{i})P(B_{i})}}$$이고, 이것을 베이즈 정리(Bayes' theorem)라고 한다.


어느 산업단지에 입주한 기업등 중의 5%가 도산한다고 한다. 모 은행에서 이 산업단지에 입주한 기업들의 도산 가능성을 조사하기 위해 신용평가기관을 통해 조사한 결과, 최근 1년간 도산한 기업 중 불량으로 판정된 기업은 95%, 최근 1년간 도산하지 않은 기업 중 우량으로 판정된 기업은 90%이다.

기업이 도산하는 사건을 \(B\), 도산하지 않는 사건을 \(B^{c}\), 신용평가기관의 조사 결과 불량으로 판정되는 사건을 \(N\), 우량으로 판정되는 사건을 \(G\)라고 하면,$$P(B)=0.05,\,P(B^{c})=0.95,\,P(N|B)=0.95,\,P(G|B)=0.05,\,P(N|B^{c})=0.1,\,P(G|B^{c})=0.9$$이다.

그러면 이 산업단지에 입주한 기업의 신용평가 조사결과가 불량으로 판정되었을 때, 도산할 확률은$$\begin{align*}P(B|N)&=\frac{P(B\cap N)}{P(N)}=\frac{P(N|B)P(B)}{P(N|B)P(B)+P(N|B^{c})P(B^{c})}\\&=\frac{0.95\cdot0.05}{0.95\cdot0.05+0.10\cdot0.95}=\frac{1}{3}\end{align*}$$이고, 신용평가 조사결과가 우량으로 판정되었을 때, 도산하지 않을 확률을$$\begin{align*}P(B^{c}|G)&=\frac{P(B^{c}\cap G)}{P(G)}=\frac{P(G|B^{c})P(B^{c})}{P(G|B)P(G)+P(G|B^{c})P(B^{c})}\\&=\frac{0.90\cdot0.95}{0.05\cdot0.05+0.90\cdot0.95}=\frac{342}{343}\end{align*}$$이다.


확률변수


확률변수(random variable)는 표본공간에 있는 실험(또는 실행)의 결과를 숫자로 나타내는 함수이다. 즉 확률변수는 표본공간의 각 원소들을 실수로 대응하는 함수이다. 확률변수는 특정한 값으로 나타낼 수 있는 이산(discrete)확률변수와 일정한 범위 안에서 연속적인 값을 취하는 연속(continuous)확률변수로 구분된다. 동전 앞면의 수는 이산확률변수이고, 키, 몸무게, 시간은 연속확률변수이다. 참고로 연속확률변수가 하나의 가질 확률은 0이다.


이산확률변수 \(X\)의 확률분포가 다음과 같다고 하자.

\(X\) 

\(x_{1}\) 

\(x_{2}\) 

\(\cdots\) 

\(x_{n}\) 

계 

\(P(X=x_{i})\) 

\(p_{1}\) 

\(p_{2}\) 

\(\cdots\) 

\(p_{n}\) 

\(1\) 

\(P(X=x_{i})=p_{i}\)를 확률질량함수(probability mass function)라고 하고, 이때 \(\displaystyle\sum_{i=1}^{n}{P(X=x_{i})}=1\)이다.


연속확률변수 \(X\)의 경우는 \(P(x\leq X\leq x+dx)=f(x)dx\)인 함수 \(f(x)(\geq0)\)를 연속확률변수 \(X\)의 확률밀도함수(probability density function)라고 하고, 이때$$\int_{-\infty}^{\infty}{f(x)dx}=1,\,P(a\leq X\leq b)=\int_{a}^{b}{f(x)dx}$$이다.


확률변수 \(X\)의 누적분포함수(cumulative distribution function)을 다음과 같이 정의한다.$$F(x)=P(X\leq x)$$\(X\)가 이산확률변수이면,$$F(x)=P(X\leq x)=\sum_{t\leq x}{P(X=t)}$$연속확률변수이면,$$F(x)=P(X\leq x)=\int_{-\infty}^{x}{f(t)dt}$$이다.


참고자료:

기초 금융통계, 박유성, 김기환, 자유아카데미

금융인을 위한 통계분석, 이긍희, 한국금융연수원

재무위험관리사(1: 금융통계학), 금융투자교육원, 한국금융투자협회       

반응형
Posted by skywalker222