[기초통계학] 5. 이산확률분포
모집단에서 관심을 갖는 수치를 모수(parameter)라고 한다. 모수는 확률분포의 특성을 나타내는 값이고, 모든 확률분포는 모수에 의해 어떤 형태인지 결정된다. 따라서 확률분포에 대해 설명하려면 그 확률분포의 모수가 무엇인지 파악해야 한다.
베르누이 분포(Bernoulli distribution)는 베르누이 시행(Bernoulli trial)의 결과에 대한 확률분포이고, 베르누이 시행은 실험에서 결과가 둘 중 하나로 나타나는 실험이다. 즉,
(1) 각 시행은 성공, 실패의 두 결과만을 갖는다.
(2) 각 시행에서 성공할 확률은 p, 실패할 확률은 1−p로 그 값이 일정하다.
(3) 각 시행은 서로 독립으로 각 시행의 결과가 다른 시행의 결과에 영향을 미치지 않는다.
확률변수 X의 확률질량함수가 다음과 같을 때 X를 베르누이 확률변수라 하고, 모수는 p뿐이며, X∼Be(p)로 나타낸다.P(X=x)=px(1−p)1−x(x=0,1)베르누이 확률분포에서 기댓값은 다음 계산에 의해 E(X)=p이고E(X)=1∑i=0xipi=0×(1−p)+1×p=p다음의 식을 이용하여E(X2)=1∑i=0x2ipi=02×(1−p)+12×p=p분산을 다음과 같이 구할 수 있고 Var(X)=p(1−p)이다.Var(X)=E(X2)−{E(X)}2=p−p2=p(1−p)다음은 베르누이 시행의 예시들이다.
-동전 던지기: 결과는 앞면(H)과 뒷면(T) 두 가지 뿐이다.
-대학입시: 결과는 합격(P)과 불합격(F) 두 가지 뿐이다.
-활쏘기: 결과는 성공(S)과 실패(F) 두 가지 뿐이다.
-복원추출: 매번 시행되는 추출은 서로 독립이므로 베르누이 시행을 따르나 비복원추출은 전 단계의 결과의 영향을 받으므로 독립이 아니다. 그러나 모집단의 크기가 표본에 비해 상당히 크면, 독립성의 위반은 아주 작아진다.
이항분포(binomial distribution)는 성공의 확률이 p인 베르누이 시행을 독립적으로 n번 반복했을 때 나타나는 결과에서 성공의 횟수 X의 확률분포로 모수가 n, p인 이항분포라 하고 X∼B(n,p)로 나타낸다.
n번의 시행 중에서 x번 성공했다고 하면, x번 성공하는 경우의 수는 \displaystyle\binom{n}{x}=\frac{n!}{x!(n-x)!}이므로 확률변수 X의 분포가 X\,\sim\,B(n,\,p)일 때, x=0,\,1,\,...,\,n에 대하여 X의 확률질량함수는 다음과 같다.P(X=x)=\binom{n}{x}p^{x}(1-p)^{n-x}확률변수 X가 X\,\sim\,B(n,\,p)일 때 X의 기댓값, 분산, 표준편차는 다음과 같다.E(X)=np,\,\text{Var}(X)=npq,\,\sigma(X)=\sqrt{npq}\,(q=1-p)기하분포(geometric distribution)는 성공의 확률이 p인 베르누이 시행을 첫 성공이 나타날 때까지 실행한 횟수인 X의 확률분포로 X\,\sim\,G(p)로 나타낸다. x번째에서 최초로 성공했다고 하면, x-1번 실패를 했으므로 X\,\sim\,G(p)일 때, X의 확률질량함수는 다음과 같다.P(X=x)=q^{x-1}p\,(q=1-p,\,x=1,\,2,\,...)X\,\sim\,G(p)일 때 X의 평균과 분산은 다음과 같다.E(X)=\frac{1}{p},\,\text{Var}(X)=\frac{1-p}{p^{2}}연속된 시간 상에서 발생하는 어떤 사건이 이산적으로 발생하는 경우 그 사건의 발생횟수를 측정하는 확률분포를 포아송분포(poisson distribution)이라고 한다. 다음은 포아송분포의 예시들이다.
-119에 시간당 걸려오는 전화 횟수
-어느 지역에 11월 중 폐업한 업체의 수
-한 야구경기에서 한 팀의 실책의 수
-일본에서 발생하는 진도 4 이상의 지진의 횟수
-프러시아 기병 중 매년 말에 머리를 치어 사망하는 병사의 수
포아송분포는 매 순간 사건이 일어나지만 사건 발생 확률은 아주 작은 경우에 주로 이용된다. 연속적인 시간에서 매 순간의 일어날 확률 대신 단위시간에 일어날 것으로 예상되는 평균 발생횟수를 이용해 주어진 시간에 실제로 발생하는 사건의 횟수에 관한 문제를 다루는 확률모형이다. 포아송분포를 적용하려면 다음의 세 가지 가정을 만족해야 한다.
1. 주어진 구간에서 사건의 평균 발생횟수의 확률분포는 구간의 시작점과는 무고나하고 구간의 길이의 영향만을 받는다.
2. 한 순간에 2회 이상의 사건이 발생할 확률은 0에 가깝다.
3. 한 구간에서 발생한 사건의 횟수는 겹치지 않는 다른 구간에서 발생하는 사건의 수에 영향을 받지 않는다.
위의 세 가지 가정을 만족하는 경우 평균적으로 m회 발생하는 사건의 발생횟수 X의 확률질량함수는 다음과 같고 이러한 확률질량함수를 갖는 분포를 포아송분포라고 한다.P(X=x)=\frac{e^{-m}m^{x}}{x!}\,(x=0,\,1,\,...)어느 시골에서 11시~12시 사이에 버스가 평균 6대 온다고 한다. 10분 동안 두 번 올 확률을 구하면 1시간(60분)에 평균 6대의 버스가 오기 때문에 10분에 평균 1대의 버스가 온다고 할 수 있고, 따라서 10분 동안 두 번 올 확률은 \displaystyle P(X=2)=\frac{e^{-1}1^{2}}{2!}=\frac{1}{2e}이다.
포아송분포의 평균과 분산은 다음과 같다.E(X)=m,\,\text{Var}(X)=m
참고자료:
통계학개론 8판, 이용구, 김삼용, 율곡출판사
통계학-엑셀을 이용한 분석, 김진경 외 6인, 자유아카데미
'확률및통계 > 기초통계학' 카테고리의 다른 글
[기초통계학] 7. 통계적 추론(1) (0) | 2020.05.17 |
---|---|
[기초통계학] 6. 연속확률분포 (0) | 2020.05.16 |
[기초통계학] 4. 확률변수, 확률분포 (0) | 2020.04.09 |
[기초통계학] 3. 확률 (0) | 2020.04.08 |
[기초통계학] 2. 기술통계 (0) | 2020.04.07 |