[기초통계학] 4. 확률변수, 확률분포
확률변수(random variable)은 각각의 근원사건들을 실수로 대응시키는 함수, 즉 표본공간에서 실수로의 함수 \(X:\Omega\,\rightarrow\,\mathbb{R}\)이다.
'확률변수'에서 '확률'의 의미는 실험에 앞서 어떤 값을 갖게 될지 알 수 없는 불확실성을 표현한 것이다.
확률변수의 값이 유한이거나 가산무한인 경우를 이산확률변수(discrete random variable), 연속적인 구간에 속하는 모든 값을 다 가질 수 있는(비가산) 경우를 연속확률변수(continuous random variable)라고 한다.
확률분포(probability distribution)는 확률변수가 갖는 값들과 그에 대응하는 확률값을 나타낸 것으로 표 또는 수식으로 표현된다. 보통 확률변수 \(X\)의 분포라고 한다.
확률변수 \(X\)가 \(n\)개의 값 \(x_{1},\,...,\,x_{n}\)를 가질 때 이 값들에 대응하는 확률을 \(f(x_{1}),\,...,\,f(x_{n})\)라고 하면 \(X\)의 확률분포를 다음의 표로 나타낼 수 있다.
\(X\) |
\(x_{1}\) |
\(x_{2}\) |
\(\cdots\) |
\(x_{n}\) |
계 |
확률 \(f(x)\) |
\(f(x_{1})\) |
\(f(x_{2})\) |
\(\cdots\) |
\(f(x_{n})\) |
1 |
여기서 \(f(x)\)는 확률변수 \(X\)가 값 \(x\)를 가질 확률 \(P(X=x)\)를 나타내므로 0과 1사이의 값을 가져야 하고 모든 가능한 \(x\)값에 대해 그 합이 1이어야 한다. 이러한 함수 \(f(x)\)를 \(X\)의 확률질량함수(probability mass function)라고 한다.
연속확률변수 \(X\)는 주어진 구간의 모든 값을 가지므로 각 \(x\)값에 확률을 대응시키는 방법으로 나타내기가 어려워 주어진 구간에서 확률이 어떻게 분포하는가를 나타내는 함수를 이용한다. 그 함수를 \(X\)의 확률밀도함수(probability density function)라고 하고, 다음의 조건들을 만족한다.
(1) 모든 \(x\)값에 대해 \(f(x)\geq0\)
(2) \(\displaystyle P(a\leq X\leq b)=\int_{a}^{b}{f(x)dx}\)
(3) \(\displaystyle P(-\infty<X<\infty)=\int_{-\infty}^{\infty}{f(x)dx}=1\)
연속확률변수 \(X\)에 대해 특정한 값 \(x\)를 가질 확률은 0이다. 즉 \(P(X=x)=0\), 따라서 임의의 \(a\)부터 \(b\)까지의 구간의 확률은 다음이 성립한다.$$P(a\leq X\leq b)=P(a\leq X<b)=P(a<X\leq b)=P(a<X<b)$$기댓값(expected value) 또는 평균(mean)은 확률분포에서 분포의 무게중심으로 확률값을 가중치로 하는 확률변수의 가능한 값에 대한 가중평균(weighted average)이라고 할 수 있다. 확률변수 \(X\)의 기댓값을 \(E(X)\)로 나타내고, 다음과 같이 계산한다.
1. 이산확률변수 \(X\)가 \(x_{1},\,...,\,x_{n}\)을 값으로 갖고, \(X\)의 확률질량함수가 \(f(x)\)일 때 \(X\)의 기댓값 \(E(X)\)는 다음과 같다.$$E(X)=\sum_{i=1}^{n}{x_{i}f(x_{i})}$$2. 연속확률변수 \(X\)의 확률밀도함수가 \(f(x)\)일 때 \(X\)의 기댓값 \(E(X)\)는 다음과 같다.$$E(X)=\int_{-\infty}^{\infty}{xf(x)dx}$$\(X,\,Y\)를 확률변수, \(a,\,b\)를 상수라 할 때 다음의 성질들이 성립한다.
(1) \(E(a)=a\)(상수의 기댓값은 자기자신이다)
(2) \(E(aX+b)=aE(X)+b\)
(3) \(E(aX+bY)=aE(X)+bE(Y)\)
평균은 확률의 무게중심이고, 분산(variance)은 확률분포의 흩어진 정도를 측정하는 척도이다. 분산이 클 수록 자료들이 평균에서 멀리 흩어져 있고, 분산이 적을 수록 평균에 밀집해 있다. 확률변수 \(X\)의 분산은 편차의 제곱 \((X-\mu)^{2}\,(E(X)=\mu)\)의 기댓값이고, \(\text{Var}(X)\)로 나타내며 다음과 같이 계산한다.
1. 이산확률변수 \(X\)가 \(x_{1},\,...,\,x_{n}\)을 값으로 갖고, \(X\)의 기댓값이 \(\mu\), 확률질량함수가 \(f(x)\)일 때 \(X\)의 분산 \(\text{Var}(X)\)는 다음과 같이 계산한다.$$\text{Var}(X)=E((X-\mu)^{2})=\sum_{i=1}^{n}{(x_{i}-\mu)^{2}f(x_{i})}$$2. 연속확률변수 \(X\)의 확률밀도함수가 \(f(x)\)일 때 \(X\)의 분산 \(\text{Var}(X)\)는 다음과 같이 계산한다.$$\text{Var}(X)=E((X-\mu)^{2})=\int_{-\infty}^{\infty}{(x-\mu)^{2}f(x)dx}$$정의대로 분산을 계산한다면 복잡할 것이다. 분산에 있는 편차의 제곱을 풀어서 계산하면$$\begin{align*}E((X-\mu)^{2})&=E(X^{2}-2\mu X+\mu^{2})\\&=E(X^{2})-2\mu E(X)+\mu^{2}\\&=E(X^{2})-2\mu\cdot\mu+\mu^{2}\,(\because\,E(X)=\mu)\\&=E(X^{2})-\mu^{2}\end{align*}$$그러면 다음의 등식을 얻고, 이 등식을 이용하여 간단히 분산을 계산할 수 있다.$$\text{Var}(X)=E(X^{2})-\mu^{2}$$이산확률변수의 경우 \(\displaystyle E(X^{2})=\sum_{i=1}^{n}{x_{i}^{2}f(x_{i})}\), 연속확률변수의 경우 \(\displaystyle E(X^{2})=\int_{-\infty}^{\infty}{x^{2}f(x)dx}\)로 계산한다.
확률변수 \(X\)의 분산 \(\text{Var}(X)\)의 양의 제곱근을 표준편차(standard deviation)라고 하고 \(\sigma(X)\)로 나타낸다. 즉, 다음이 성립한다.$$\sigma(X)=\sqrt{\text{Var}(X)}$$확률변수 \(X\)와 상수 \(a,\,b\)에 대해 다음이 성립한다.$$\text{Var}(aX+b)=a^{2}\text{Var}(X),\,\sigma(aX+b)=|a|\sigma(X)$$두 확률변수 \(X\)와 \(Y\)의 결합확률분포(joint probability distribution)는 \(X\)가 취하는 값과 \(Y\)가 취하는 값의 각 쌍에 대응하는 확률이다. \(X\)와 \(Y\)가 이산확률변수로 \(X\)가 갖는 값을 \(x_{1},\,...,\,x_{m}\), \(Y\)가 갖는 값을 \(y_{1},\,...,\,y_{n}\)이라 할 때 \(X\)와 \(Y\)의 결합확률분포는 모든 \(1\leq i\leq m\), \(1\leq j\leq n\)에 다음과 같이 정의된다.$$f(x_{i},\,y_{j})=P(X=x_{i},\,Y=y_{j})$$이 값들을 다음의 표로 나타낼 수 있고, \(f(x_{i},\,y_{j})=P(X=x_{i},\,Y=y_{j})\)를 결합확률질량함수(joint probability mass function)라고 한다.
\(X\)\\(Y\) |
\(y_{1}\) |
\(y_{2}\) |
\(\cdots\) |
\(y_{n}\) |
\(x_{1}\) |
\(f(x_{1},\,y_{1})\) |
\(f(x_{1},\,y_{2})\) |
\(\cdots\) |
\(f(x_{1},\,y_{n})\) |
\(x_{2}\) |
\(f(x_{2},\,y_{1})\) |
\(f(x_{2},\,y_{2})\) |
\(\cdots\) |
\(f(x_{2},\,y_{n})\) |
\(\vdots\) |
\(\vdots\) |
\(\vdots\) |
\(\ddots\) |
\(\vdots\) |
\(x_{m}\) |
\(f(x_{m},\,y_{1})\) |
\(f(x_{m},\,y_{2})\) |
\(\cdots\) |
\(f(x_{m},\,y_{n})\) |
\(f(x_{i},\,y_{j})\)가 결합확률질량함수이면, 0보다 커야 하고, 확률의 정의에 의해 총 확률의 합이 다음과 같이 1이어야 한다.$$\sum_{i=1}^{m}{\sum_{j=1}^{n}{f(x_{i},\,y_{j})}}=1$$두 확률변수의 결합확률분포로부터 각각의 확률변수에 대한 분포를 구할 수 있다. 각각의 확률변수에 대한 분포를 주변확률분포(marginal probability distribution)라고 정의하고 앞의 확률변수 \(X\)와 \(Y\)의 주변확률분포를 다음과 같이 정의한다.$$\begin{align*}f_{X}(x_{i})&=P(X=x_{i})=\sum_{j=1}^{n}{f(x_{i},\,y_{i})}\\f_{Y}(y_{j})&=P(Y=y_{j})=\sum_{i=1}^{m}{f(x_{i},\,y_{j})}\end{align*}$$다음은 2교대근무를 시행하는 공장의 근로자들의 결근률에 대해 조사했다. \(X\)를 아침 근무조의 결근자수, \(Y\)를 같은 날 저녁근무조의 결근자수라 하자. 조사한 결근자들의 결근률은 다음과 같다고 한다.
\(x\)\\(y\) |
0 |
1 |
2 |
3 |
행의 합계 |
0 |
0.05 |
0.05 |
0.10 |
0.00 |
0.20 |
1 |
0.05 |
0.10 |
0.25 |
0.10 |
0.50 |
2 |
0.00 |
0.15 |
0.10 |
0.05 |
0.30 |
열의 합계 |
0.10 |
0.30 |
0.45 |
0.15 |
1.00 |
이 표에서$$f(0,\,0)=0.05,\,f(2,\,3)=0.05,\,f(1,\,3)=0.10$$이고, 다음이 성립한다.$$\begin{align*}f_{X}(0)&=P(X=0)=0.05+0.05+0.10+0.00=0.20\\f_{X}(1)&=P(X=1)=0.05+0.10+0.25+0.10=0.50\\f_{X}(2)&=P(X=2)=0.00+0.15+0.10+0.05=0.30\\\end{align*}$$주변확률분포에서 \(X\)의 기댓값과 분산을 \(\mu_{X}\), \(\sigma_{X}^{2}\), \(Y\)의 기댓값과 분산을 \(\mu_{Y}\), \(\sigma_{Y}^{2}\)라고 하면 다음과 같이 구할 수 있다.$$\begin{align*}\mu_{X}&=\sum_{i=1}^{m}{x_{i}f_{X}(x_{i})}\\ \sigma_{X}^{2}&=\sum_{i=1}^{m}{(x_{i}-\mu_{X})^{2}f_{X}(x_{i})}=\sum_{i=1}^{m}{x_{i}^{2}f(x_{i})}-\mu_{X}^{2}\\ \mu_{Y}&=\sum_{j=1}^{n}{y_{j}f_{Y}(y_{j})}\\ \sigma_{Y}^{2}&=\sum_{j=1}^{n}{(y_{j}-\mu_{Y})^{2}f_{Y}(y_{j})}=\sum_{j=1}^{n}{y_{j}^{2}f_{Y}(y_{j})}-\mu_{Y}^{2}\end{align*}$$확률변수 \(X\)와 \(Y\)의 공분산(covariance)을 다음과 같이 정의한다.$$\begin{align*}\text{Cov}(X,\,Y)&=E((X-\mu_{X})(Y-\mu_{Y}))\\&=E(XY)-\mu_{X}\mu_{Y}\end{align*}$$이때 \(\displaystyle E(XY)=\sum_{i=1}^{m}{\sum_{j=1}^{n}{x_{i}y_{j}f(x_{i},\,y_{j})}}\)이다.
공분산은 음의 값을 가질 수 있고, 공분산의 부호는 두 확률변수의 관계의 방향을 나타낸다.
확률변수 \(X\), \(Y\)와 상수 \(a,\,b\)에 대해 다음이 성립하고$$\text{Cov}(aX,\,bY)=ab\text{Cov}(X,\,Y)$$상관계수(correlation coefficient)는 두 변수 사이의 관계의 밀접도를 나타내고, 확률변수 \(X\), \(Y\)에 대해 \(\sigma_{X}^{2}\), \(\sigma_{Y}^{2}\)가 각각 \(X\)와 \(Y\)의 분산, \(\sigma_{XY}\)가 \(X\)와 \(Y\)의 공분산이라고 하면, 다음과 같이 정의한다.$$\rho=\text{Corr}(X,\,Y)=\frac{\text{Cov}(X,\,Y)}{\sigma_{X}\sigma_{Y}}=\frac{\sigma_{XY}}{\sigma_{X}\sigma_{Y}}$$상관계수는 공분산을 \(\sigma_{X}\sigma_{Y}\)의 곱으로 나눈 값으로 \(-1\leq\rho\leq1\)이고, 0이 아닌 상수 \(a,\,b\)에 대해 다음이 성립한다.$$\text{Corr}(aX,\,bY)=\frac{ab}{|ab|}\text{Corr}(X,\,Y)$$앞에서 다룬 공장 근로자들의 결근율에서$$\begin{align*}\mu_{X}&=0\times0.2+1\times0.5+2\times0.3=1.1\\ \mu_{Y}&=0\times0.1+1\times0.3+2\times0.45+3\times0.15=1.65\\ \sigma_{X}^{2}&=1^{2}\times0.5+2^{2}\times0.3-1.1^{2}=0.49\\ \sigma_{Y}^{2}&=1^{2}\times0.3+2^{2}\times0.45+3^{2}\times0.15-1.65^{2}=0.7275\\E(XY)&=f(1,\,1)+2f(1,\,2)+3f(1,\,3)+2f(2,\,1)+4f(2,\,2)+6f(2,\,3)\\&=0.1+0.5+0.3+0.3+0.4+0.3=1.9\end{align*}$$(\(E(XY)\)의 계산에서 0이 포함된 부분은 적지 않았다)이므로 공분산은$$\text{Cov}(X,\,Y)=E(XY)-\mu_{X}\mu_{Y}=1.9-1.1\times0.65=0.085$$이고 상관계수는$$\text{Corr}(X,\,Y)=\frac{\text{Cov}(X,\,Y)}{\sigma_{X}\sigma_{Y}}=\frac{0.085}{\sqrt{0.49}\sqrt{0.7275}}=0.1424$$이다.
참고자료:
통계학의 이해 8판, 이용구, 김삼용, 율곡출판사
통계학-엑셀을 이용한 분석, 김진경 외 5인, 자유아카데미
'확률및통계 > 기초통계학' 카테고리의 다른 글
[기초통계학] 6. 연속확률분포 (0) | 2020.05.16 |
---|---|
[기초통계학] 5. 이산확률분포 (0) | 2020.04.10 |
[기초통계학] 3. 확률 (0) | 2020.04.08 |
[기초통계학] 2. 기술통계 (0) | 2020.04.07 |
[기초통계학] 1. 통계학이란 무엇인가? (0) | 2020.04.06 |