반응형

[기초통계학] 4. 확률변수, 확률분포



확률변수(random variable)은 각각의 근원사건들을 실수로 대응시키는 함수, 즉 표본공간에서 실수로의 함수 \(X:\Omega\,\rightarrow\,\mathbb{R}\)이다. 

'확률변수'에서 '확률'의 의미는 실험에 앞서 어떤 값을 갖게 될지 알 수 없는 불확실성을 표현한 것이다.


확률변수의 값이 유한이거나 가산무한인 경우를 이산확률변수(discrete random variable), 연속적인 구간에 속하는 모든 값을 다 가질 수 있는(비가산) 경우를 연속확률변수(continuous random variable)라고 한다. 

확률분포(probability distribution)는 확률변수가 갖는 값들과 그에 대응하는 확률값을 나타낸 것으로 표 또는 수식으로 표현된다. 보통 확률변수 \(X\)의 분포라고 한다.


확률변수 \(X\)가 \(n\)개의 값 \(x_{1},\,...,\,x_{n}\)를 가질 때 이 값들에 대응하는 확률을 \(f(x_{1}),\,...,\,f(x_{n})\)라고 하면 \(X\)의 확률분포를 다음의 표로 나타낼 수 있다.

\(X\) 

\(x_{1}\) 

\(x_{2}\) 

\(\cdots\) 

\(x_{n}\) 

계 

확률 \(f(x)\) 

\(f(x_{1})\) 

\(f(x_{2})\) 

\(\cdots\) 

\(f(x_{n})\) 

여기서 \(f(x)\)는 확률변수 \(X\)가 값 \(x\)를 가질 확률 \(P(X=x)\)를 나타내므로 0과 1사이의 값을 가져야 하고 모든 가능한 \(x\)값에 대해 그 합이 1이어야 한다. 이러한 함수 \(f(x)\)를 \(X\)의 확률질량함수(probability mass function)라고 한다. 


연속확률변수 \(X\)는 주어진 구간의 모든 값을 가지므로 각 \(x\)값에 확률을 대응시키는 방법으로 나타내기가 어려워 주어진 구간에서 확률이 어떻게 분포하는가를 나타내는 함수를 이용한다. 그 함수를 \(X\)의 확률밀도함수(probability density function)라고 하고, 다음의 조건들을 만족한다.

(1) 모든 \(x\)값에 대해 \(f(x)\geq0\) 

(2) \(\displaystyle P(a\leq X\leq b)=\int_{a}^{b}{f(x)dx}\) 

(3) \(\displaystyle P(-\infty<X<\infty)=\int_{-\infty}^{\infty}{f(x)dx}=1\) 

연속확률변수 \(X\)에 대해 특정한 값 \(x\)를 가질 확률은 0이다. 즉 \(P(X=x)=0\), 따라서 임의의 \(a\)부터 \(b\)까지의 구간의 확률은 다음이 성립한다.$$P(a\leq X\leq b)=P(a\leq X<b)=P(a<X\leq b)=P(a<X<b)$$기댓값(expected value) 또는 평균(mean)은 확률분포에서 분포의 무게중심으로 확률값을 가중치로 하는 확률변수의 가능한 값에 대한 가중평균(weighted average)이라고 할 수 있다. 확률변수 \(X\)의 기댓값을 \(E(X)\)로 나타내고, 다음과 같이 계산한다.

1. 이산확률변수 \(X\)가 \(x_{1},\,...,\,x_{n}\)을 값으로 갖고, \(X\)의 확률질량함수가 \(f(x)\)일 때 \(X\)의 기댓값 \(E(X)\)는 다음과 같다.$$E(X)=\sum_{i=1}^{n}{x_{i}f(x_{i})}$$2. 연속확률변수 \(X\)의 확률밀도함수가 \(f(x)\)일 때 \(X\)의 기댓값 \(E(X)\)는 다음과 같다.$$E(X)=\int_{-\infty}^{\infty}{xf(x)dx}$$\(X,\,Y\)를 확률변수, \(a,\,b\)를 상수라 할 때 다음의 성질들이 성립한다.

(1) \(E(a)=a\)(상수의 기댓값은 자기자신이다)

(2) \(E(aX+b)=aE(X)+b\) 

(3) \(E(aX+bY)=aE(X)+bE(Y)\)

평균은 확률의 무게중심이고, 분산(variance)은 확률분포의 흩어진 정도를 측정하는 척도이다. 분산이 클 수록 자료들이 평균에서 멀리 흩어져 있고, 분산이 적을 수록 평균에 밀집해 있다. 확률변수 \(X\)의 분산은 편차의 제곱 \((X-\mu)^{2}\,(E(X)=\mu)\)의 기댓값이고, \(\text{Var}(X)\)로 나타내며 다음과 같이 계산한다. 

1. 이산확률변수 \(X\)가 \(x_{1},\,...,\,x_{n}\)을 값으로 갖고, \(X\)의 기댓값이 \(\mu\), 확률질량함수가 \(f(x)\)일 때 \(X\)의 분산 \(\text{Var}(X)\)는 다음과 같이 계산한다.$$\text{Var}(X)=E((X-\mu)^{2})=\sum_{i=1}^{n}{(x_{i}-\mu)^{2}f(x_{i})}$$2. 연속확률변수 \(X\)의 확률밀도함수가 \(f(x)\)일 때 \(X\)의 분산 \(\text{Var}(X)\)는 다음과 같이 계산한다.$$\text{Var}(X)=E((X-\mu)^{2})=\int_{-\infty}^{\infty}{(x-\mu)^{2}f(x)dx}$$정의대로 분산을 계산한다면 복잡할 것이다. 분산에 있는 편차의 제곱을 풀어서 계산하면$$\begin{align*}E((X-\mu)^{2})&=E(X^{2}-2\mu X+\mu^{2})\\&=E(X^{2})-2\mu E(X)+\mu^{2}\\&=E(X^{2})-2\mu\cdot\mu+\mu^{2}\,(\because\,E(X)=\mu)\\&=E(X^{2})-\mu^{2}\end{align*}$$그러면 다음의 등식을 얻고, 이 등식을 이용하여 간단히 분산을 계산할 수 있다.$$\text{Var}(X)=E(X^{2})-\mu^{2}$$이산확률변수의 경우 \(\displaystyle E(X^{2})=\sum_{i=1}^{n}{x_{i}^{2}f(x_{i})}\), 연속확률변수의 경우 \(\displaystyle E(X^{2})=\int_{-\infty}^{\infty}{x^{2}f(x)dx}\)로 계산한다.  

확률변수 \(X\)의 분산 \(\text{Var}(X)\)의 양의 제곱근을 표준편차(standard deviation)라고 하고 \(\sigma(X)\)로 나타낸다. 즉, 다음이 성립한다.$$\sigma(X)=\sqrt{\text{Var}(X)}$$확률변수 \(X\)와 상수 \(a,\,b\)에 대해 다음이 성립한다.$$\text{Var}(aX+b)=a^{2}\text{Var}(X),\,\sigma(aX+b)=|a|\sigma(X)$$두 확률변수 \(X\)와 \(Y\)의 결합확률분포(joint probability distribution)는 \(X\)가 취하는 값과 \(Y\)가 취하는 값의 각 쌍에 대응하는 확률이다. \(X\)와 \(Y\)가 이산확률변수로 \(X\)가 갖는 값을 \(x_{1},\,...,\,x_{m}\), \(Y\)가 갖는 값을 \(y_{1},\,...,\,y_{n}\)이라 할 때 \(X\)와 \(Y\)의 결합확률분포는 모든 \(1\leq i\leq m\), \(1\leq j\leq n\)에 다음과 같이 정의된다.$$f(x_{i},\,y_{j})=P(X=x_{i},\,Y=y_{j})$$이 값들을 다음의 표로 나타낼 수 있고, \(f(x_{i},\,y_{j})=P(X=x_{i},\,Y=y_{j})\)를 결합확률질량함수(joint probability mass function)라고 한다.

\(X\)\\(Y\)

\(y_{1}\) 

\(y_{2}\) 

\(\cdots\) 

\(y_{n}\) 

\(x_{1}\) 

\(f(x_{1},\,y_{1})\) 

\(f(x_{1},\,y_{2})\) 

\(\cdots\) 

\(f(x_{1},\,y_{n})\) 

\(x_{2}\) 

\(f(x_{2},\,y_{1})\) 

\(f(x_{2},\,y_{2})\) 

\(\cdots\) 

\(f(x_{2},\,y_{n})\) 

\(\vdots\) 

\(\vdots\) 

\(\vdots\) 

\(\ddots\) 

\(\vdots\) 

\(x_{m}\) 

\(f(x_{m},\,y_{1})\) 

\(f(x_{m},\,y_{2})\) 

\(\cdots\) 

\(f(x_{m},\,y_{n})\) 

\(f(x_{i},\,y_{j})\)가 결합확률질량함수이면, 0보다 커야 하고, 확률의 정의에 의해 총 확률의 합이 다음과 같이 1이어야 한다.$$\sum_{i=1}^{m}{\sum_{j=1}^{n}{f(x_{i},\,y_{j})}}=1$$두 확률변수의 결합확률분포로부터 각각의 확률변수에 대한 분포를 구할 수 있다. 각각의 확률변수에 대한 분포를 주변확률분포(marginal probability distribution)라고 정의하고 앞의 확률변수 \(X\)와 \(Y\)의 주변확률분포를 다음과 같이 정의한다.$$\begin{align*}f_{X}(x_{i})&=P(X=x_{i})=\sum_{j=1}^{n}{f(x_{i},\,y_{i})}\\f_{Y}(y_{j})&=P(Y=y_{j})=\sum_{i=1}^{m}{f(x_{i},\,y_{j})}\end{align*}$$다음은 2교대근무를 시행하는 공장의 근로자들의 결근률에 대해 조사했다. \(X\)를 아침 근무조의 결근자수, \(Y\)를 같은 날 저녁근무조의 결근자수라 하자. 조사한 결근자들의 결근률은 다음과 같다고 한다.

\(x\)\\(y\) 

행의 합계 

0.05 

0.05 

0.10 

0.00 

0.20 

0.05 

0.10 

0.25 

0.10 

0.50 

0.00 

0.15 

0.10 

0.05 

0.30 

열의 합계 

0.10 

0.30 

0.45 

0.15 

1.00 

이 표에서$$f(0,\,0)=0.05,\,f(2,\,3)=0.05,\,f(1,\,3)=0.10$$이고, 다음이 성립한다.$$\begin{align*}f_{X}(0)&=P(X=0)=0.05+0.05+0.10+0.00=0.20\\f_{X}(1)&=P(X=1)=0.05+0.10+0.25+0.10=0.50\\f_{X}(2)&=P(X=2)=0.00+0.15+0.10+0.05=0.30\\\end{align*}$$주변확률분포에서 \(X\)의 기댓값과 분산을 \(\mu_{X}\), \(\sigma_{X}^{2}\), \(Y\)의 기댓값과 분산을 \(\mu_{Y}\), \(\sigma_{Y}^{2}\)라고 하면 다음과 같이 구할 수 있다.$$\begin{align*}\mu_{X}&=\sum_{i=1}^{m}{x_{i}f_{X}(x_{i})}\\ \sigma_{X}^{2}&=\sum_{i=1}^{m}{(x_{i}-\mu_{X})^{2}f_{X}(x_{i})}=\sum_{i=1}^{m}{x_{i}^{2}f(x_{i})}-\mu_{X}^{2}\\ \mu_{Y}&=\sum_{j=1}^{n}{y_{j}f_{Y}(y_{j})}\\ \sigma_{Y}^{2}&=\sum_{j=1}^{n}{(y_{j}-\mu_{Y})^{2}f_{Y}(y_{j})}=\sum_{j=1}^{n}{y_{j}^{2}f_{Y}(y_{j})}-\mu_{Y}^{2}\end{align*}$$확률변수 \(X\)와 \(Y\)의 공분산(covariance)을 다음과 같이 정의한다.$$\begin{align*}\text{Cov}(X,\,Y)&=E((X-\mu_{X})(Y-\mu_{Y}))\\&=E(XY)-\mu_{X}\mu_{Y}\end{align*}$$이때 \(\displaystyle E(XY)=\sum_{i=1}^{m}{\sum_{j=1}^{n}{x_{i}y_{j}f(x_{i},\,y_{j})}}\)이다. 

공분산은 음의 값을 가질 수 있고, 공분산의 부호는 두 확률변수의 관계의 방향을 나타낸다. 

확률변수 \(X\), \(Y\)와 상수 \(a,\,b\)에 대해 다음이 성립하고$$\text{Cov}(aX,\,bY)=ab\text{Cov}(X,\,Y)$$상관계수(correlation coefficient)는 두 변수 사이의 관계의 밀접도를 나타내고, 확률변수 \(X\), \(Y\)에 대해 \(\sigma_{X}^{2}\), \(\sigma_{Y}^{2}\)가 각각 \(X\)와 \(Y\)의 분산, \(\sigma_{XY}\)가 \(X\)와 \(Y\)의 공분산이라고 하면, 다음과 같이 정의한다.$$\rho=\text{Corr}(X,\,Y)=\frac{\text{Cov}(X,\,Y)}{\sigma_{X}\sigma_{Y}}=\frac{\sigma_{XY}}{\sigma_{X}\sigma_{Y}}$$상관계수는 공분산을 \(\sigma_{X}\sigma_{Y}\)의 곱으로 나눈 값으로 \(-1\leq\rho\leq1\)이고, 0이 아닌 상수 \(a,\,b\)에 대해 다음이 성립한다.$$\text{Corr}(aX,\,bY)=\frac{ab}{|ab|}\text{Corr}(X,\,Y)$$앞에서 다룬 공장 근로자들의 결근율에서$$\begin{align*}\mu_{X}&=0\times0.2+1\times0.5+2\times0.3=1.1\\ \mu_{Y}&=0\times0.1+1\times0.3+2\times0.45+3\times0.15=1.65\\ \sigma_{X}^{2}&=1^{2}\times0.5+2^{2}\times0.3-1.1^{2}=0.49\\ \sigma_{Y}^{2}&=1^{2}\times0.3+2^{2}\times0.45+3^{2}\times0.15-1.65^{2}=0.7275\\E(XY)&=f(1,\,1)+2f(1,\,2)+3f(1,\,3)+2f(2,\,1)+4f(2,\,2)+6f(2,\,3)\\&=0.1+0.5+0.3+0.3+0.4+0.3=1.9\end{align*}$$(\(E(XY)\)의 계산에서 0이 포함된 부분은 적지 않았다)이므로 공분산은$$\text{Cov}(X,\,Y)=E(XY)-\mu_{X}\mu_{Y}=1.9-1.1\times0.65=0.085$$이고 상관계수는$$\text{Corr}(X,\,Y)=\frac{\text{Cov}(X,\,Y)}{\sigma_{X}\sigma_{Y}}=\frac{0.085}{\sqrt{0.49}\sqrt{0.7275}}=0.1424$$이다. 


참고자료:

통계학의 이해 8판, 이용구, 김삼용, 율곡출판사

통계학-엑셀을 이용한 분석, 김진경 외 5인, 자유아카데미   

반응형
Posted by skywalker222