반응형

[기초통계학] 5. 이산확률분포



모집단에서 관심을 갖는 수치를 모수(parameter)라고 한다. 모수는 확률분포의 특성을 나타내는 값이고, 모든 확률분포는 모수에 의해 어떤 형태인지 결정된다. 따라서 확률분포에 대해 설명하려면 그 확률분포의 모수가 무엇인지 파악해야 한다. 


베르누이 분포(Bernoulli distribution)는 베르누이 시행(Bernoulli trial)의 결과에 대한 확률분포이고, 베르누이 시행은 실험에서 결과가 둘 중 하나로 나타나는 실험이다. 즉, 

(1) 각 시행은 성공, 실패의 두 결과만을 갖는다. 

(2) 각 시행에서 성공할 확률은 \(p\), 실패할 확률은 \(1-p\)로 그 값이 일정하다.

(3) 각 시행은 서로 독립으로 각 시행의 결과가 다른 시행의 결과에 영향을 미치지 않는다. 

확률변수 \(X\)의 확률질량함수가 다음과 같을 때 \(X\)를 베르누이 확률변수라 하고, 모수는 \(p\)뿐이며, \(X\,\sim\,\text{Be}(p)\)로 나타낸다.$$P(X=x)=p^{x}(1-p)^{1-x}\,(x=0,\,1)$$베르누이 확률분포에서 기댓값은 다음 계산에 의해 \(E(X)=p\)이고$$E(X)=\sum_{i=0}^{1}{x_{i}p_{i}}=0\times(1-p)+1\times p=p$$다음의 식을 이용하여$$E(X^{2})=\sum_{i=0}^{1}{x_{i}^{2}p_{i}}=0^{2}\times(1-p)+1^{2}\times p=p$$분산을 다음과 같이 구할 수 있고 \(\text{Var}(X)=p(1-p)\)이다.$$\begin{align*}\text{Var}(X)&=E(X^{2})-\{E(X)\}^{2}\\&=p-p^{2}\\&=p(1-p)\end{align*}$$다음은 베르누이 시행의 예시들이다.

-동전 던지기: 결과는 앞면(H)과 뒷면(T) 두 가지 뿐이다.

-대학입시: 결과는 합격(P)과 불합격(F) 두 가지 뿐이다.

-활쏘기: 결과는 성공(S)과 실패(F) 두 가지 뿐이다.

-복원추출: 매번 시행되는 추출은 서로 독립이므로 베르누이 시행을 따르나 비복원추출은 전 단계의 결과의 영향을 받으므로 독립이 아니다. 그러나 모집단의 크기가 표본에 비해 상당히 크면, 독립성의 위반은 아주 작아진다. 


이항분포(binomial distribution)는 성공의 확률이 \(p\)인 베르누이 시행을 독립적으로 \(n\)번 반복했을 때 나타나는 결과에서 성공의 횟수 \(X\)의 확률분포로 모수가 \(n\), \(p\)인 이항분포라 하고 \(X\,\sim\,B(n,\,p)\)로 나타낸다. 

\(n\)번의 시행 중에서 \(x\)번 성공했다고 하면, \(x\)번 성공하는 경우의 수는 \(\displaystyle\binom{n}{x}=\frac{n!}{x!(n-x)!}\)이므로 확률변수 \(X\)의 분포가 \(X\,\sim\,B(n,\,p)\)일 때, \(x=0,\,1,\,...,\,n\)에 대하여 \(X\)의 확률질량함수는 다음과 같다.$$P(X=x)=\binom{n}{x}p^{x}(1-p)^{n-x}$$확률변수 \(X\)가 \(X\,\sim\,B(n,\,p)\)일 때 \(X\)의 기댓값, 분산, 표준편차는 다음과 같다.$$E(X)=np,\,\text{Var}(X)=npq,\,\sigma(X)=\sqrt{npq}\,(q=1-p)$$기하분포(geometric distribution)는 성공의 확률이 \(p\)인 베르누이 시행을 첫 성공이 나타날 때까지 실행한 횟수인 \(X\)의 확률분포로 \(X\,\sim\,G(p)\)로 나타낸다. \(x\)번째에서 최초로 성공했다고 하면, \(x-1\)번 실패를 했으므로 \(X\,\sim\,G(p)\)일 때, \(X\)의 확률질량함수는 다음과 같다.$$P(X=x)=q^{x-1}p\,(q=1-p,\,x=1,\,2,\,...)$$\(X\,\sim\,G(p)\)일 때 \(X\)의 평균과 분산은 다음과 같다.$$E(X)=\frac{1}{p},\,\text{Var}(X)=\frac{1-p}{p^{2}}$$연속된 시간 상에서 발생하는 어떤 사건이 이산적으로 발생하는 경우 그 사건의 발생횟수를 측정하는 확률분포를 포아송분포(poisson distribution)이라고 한다. 다음은 포아송분포의 예시들이다.

-119에 시간당 걸려오는 전화 횟수

-어느 지역에 11월 중 폐업한 업체의 수

-한 야구경기에서 한 팀의 실책의 수

-일본에서 발생하는 진도 4 이상의 지진의 횟수

-프러시아 기병 중 매년 말에 머리를 치어 사망하는 병사의 수


포아송분포는 매 순간 사건이 일어나지만 사건 발생 확률은 아주 작은 경우에 주로 이용된다. 연속적인 시간에서 매 순간의 일어날 확률 대신 단위시간에 일어날 것으로 예상되는 평균 발생횟수를 이용해 주어진 시간에 실제로 발생하는 사건의 횟수에 관한 문제를 다루는 확률모형이다. 포아송분포를 적용하려면 다음의 세 가지 가정을 만족해야 한다.

1. 주어진 구간에서 사건의 평균 발생횟수의 확률분포는 구간의 시작점과는 무고나하고 구간의 길이의 영향만을 받는다.

2. 한 순간에 2회 이상의 사건이 발생할 확률은 0에 가깝다.

3. 한 구간에서 발생한 사건의 횟수는 겹치지 않는 다른 구간에서 발생하는 사건의 수에 영향을 받지 않는다. 


위의 세 가지 가정을 만족하는 경우 평균적으로 \(m\)회 발생하는 사건의 발생횟수 \(X\)의 확률질량함수는 다음과 같고 이러한 확률질량함수를 갖는 분포를 포아송분포라고 한다.$$P(X=x)=\frac{e^{-m}m^{x}}{x!}\,(x=0,\,1,\,...)$$어느 시골에서 11시~12시 사이에 버스가 평균 6대 온다고 한다. 10분 동안 두 번 올 확률을 구하면 1시간(60분)에 평균 6대의 버스가 오기 때문에 10분에 평균 1대의 버스가 온다고 할 수 있고, 따라서 10분 동안 두 번 올 확률은 \(\displaystyle P(X=2)=\frac{e^{-1}1^{2}}{2!}=\frac{1}{2e}\)이다. 

포아송분포의 평균과 분산은 다음과 같다.$$E(X)=m,\,\text{Var}(X)=m$$

참고자료:

통계학개론 8판, 이용구, 김삼용, 율곡출판사

통계학-엑셀을 이용한 분석, 김진경 외 6인, 자유아카데미  

반응형
Posted by skywalker222