반응형

[기초통계학] 6. 연속확률분포



연속확률변수 \(X\)는 구간의 모든 값을 가질 수 있기 때문에 \(X\)가 갖는 값(\(x\))들을 모두 나열해 각각에 확률을 대응하는 이산확률분포의 방법을 적용할 수 없다. 따라서 연속확률변수 \(X\)의 확률분포는 확률의 밀도를 나타내는 \(X\)의 확률밀도함수에 의해 결정된다.


다음을 만족하는 함수 \(f(x)\)를 \(X\)의 확률밀도함수(probability density function)라고 한다. 

(1) 모든 \(x\)값에 대해 \(f(x)\geq0\) 

(2) \(\displaystyle P(a\leq X\leq b)=\int_{a}^{b}{f(x)dx}\) 

(3) \(\displaystyle P(-\infty<X<\infty)=\int_{-\infty}^{\infty}{f(x)dx}=1\)  


이산확률변수에서는 확률의 총합이 1이지만 연속확률변수에서는 전체 영역에 대한 확률밀도함수의 적분값이 1이다. 위의 조건 (2)에 의해 한 점에서의 확률은 0이므로 따라서 임의의 구간 \([a,\,b]\)에서의 확률은 다음과 같다.$$P(a\leq X\leq b)=P(a\leq X<b)=P(a<X\leq b)=P(a<X<b)$$정규분포(normal distribution)는 통계에서 가장 중요한 확률분포이고 대부분의 통계분석은 수집된 자료가 정규분포를 따른다고 전제한다. 또한 나중에 다룰 통계적 추론과 추정, 검정을 하기 위해서도 정규분포를 알아야 한다.

정규분포는 확률밀도함수가 실수 전체에서 정의되어있고, 분포의 형태가 다음과 같이 기댓값 \(\mu=0\)을 대칭으로 하는 종 모양이다.

정규분포를 따르는 확률변수 \(X\)의 확률밀도함수의 평균이 \(\mu\), 분산이 \(\sigma^{2}\)일 때, 이것을 \(X\,\sim\,N(\mu,\,\sigma^{2})\)로 나타내고, 그 확률밀도함수는 다음과 같다.$$f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}}$$위의 정규분포 확률밀도함수의 그래프는 기댓값이 0, 즉 \(\mu=0\)인 경우이고, 위의 그래프로부터 다음의 결과를 얻는다.$$\begin{align*}P(\mu-\sigma\leq X\leq\mu+\sigma)&=0.6827\\P(\mu-2\sigma\leq X\leq\mu+2\sigma)&=0.9545\\P(\mu-3\sigma\leq X\leq\mu+3\sigma)&=0.9973\end{align*}$$정규분포에서 평균(기댓값)이 0이고 분산이 1인 정규분포를 표준정규분포(standard normal distribution)이라고 하고, 표준정규분포의 확률변수를 \(Z\)로 나타내며 이때 \(Z\,\sim\,N(0,\,1^{2})\)이다. 

표준정규분포의 확률밀도함수는 \(x=0\)에 대해 대칭이므로 임의의 실수 \(z\)에 대해 \(P(Z\leq-z)=P(Z\geq z)\), \(\displaystyle P(Z\geq0)=\frac{1}{2}\)이고, \(Z\)는 연속확률분포이므로 \(P(Z\leq z)=1-P(Z\leq-z)\)이다.

표준정규분포를 따르는 확률변수 \(Z\)에 대해 확률값이 알려져 있기 때문에 다음의 표준화 과정을 통해 확률을 계산한다. 


정규분포를 따르는 확률변수 \(X\)에 대해 \(X\,\sim\,N(\mu,\,\sigma^{2})\)에 대해 다음과 같이 표준화된 확률변수$$Z=\frac{X-\mu}{\sigma}$$는 평균이 0이고, 분산이 1인 표준정규분포를 따른다. 즉 \(N\,\sim\,N(0,\,1^{2})\)


위의 사실을 이용하여 \(X\,\sim\,N(\mu,\,\sigma^{2})\)인 확률변수 \(X\)에 대한 확률 \(P(a\leq X\leq b)\)를 다음과 같이 표준화하여 확률을 계산할 수 있다.$$P(a\leq X\leq b)=P\left(\frac{a-\mu}{\sigma}\leq Z\leq\frac{b+\mu}{\sigma}\right)$$예를들어 \(X\,\sim\,N(60,\,16)\)일 때 \(P(55\leq X\leq 63)\)을 계산하면 다음과 같다.$$\begin{align*}P(55\leq X\leq63)&=P\left(\frac{55-60}{4}\leq\frac{X-60}{4}\leq\frac{63-60}{4}\right)\\&=P(-1.25\leq Z\leq0.75)\\&=P(Z\leq0.75)-P(Z\leq-1.25)\\&=0.7734-0.1056\\&=0.6678\end{align*}$$이항분포의 정규분포근사


확률변수 \(X\)가 모수 \(n\), \(p\)를 갖는 이항분포(즉 \(X\,\sim\,B(n,\,p)\))를 따르면 \(X\)의 평균과 분산은 각각 다음과 같다.$$E(X)=np,\,\text{Var}(X)=np(1-p)$$여기서 \(n\)이 충분히 크고 \(p\)가 0이나 1에 가깝지 않을 때(\(\displaystyle\frac{1}{2}\)에 가까울 때, 즉 \(np\)와 \(n(1-p)\)가 모두 클 때) 이항분포는 평균 \(np\)와 분산 \(np(1-p)\)를 갖는 정규분포와 근사적으로 동일하다고 할수 있다. 

\(X\,\sim\,B(n,\,p)\)일 때 \(X=x\)일 확률은 \(X\)가 구간 \(\displaystyle\left(x-\frac{1}{2},\,x+\frac{1}{2}\right)\)에서의 확률과 비슷하다. 예를들어 \(\displaystyle X\,\sim\,B\left(10,\,\frac{1}{2}\right)\)일 때$$\begin{align*}P(X=5)&=\binom{10}{5}\left(\frac{1}{2}\right)^{5}\left(\frac{1}{2}\right)^{5}\\&=0.246\\P(4.5\leq X\leq 5.5)&=P\left(\frac{4.5-5}{\sqrt{2.5}}\leq\frac{X-np}{\sqrt{np(1-p)}}\leq\frac{5.5-5}{\sqrt{2.5}}\right)\\&=P(-0.316\leq Z\leq0.316)\\&=2P(0\leq Z\leq0.316)\\&=2\cdot0.1236\\&=0.2472\end{align*}$$이다.

위에서처럼 정규분포를 이용해 이항분포의 그사확률을 구할 때 0.5를 더하고 뺌으로써 이산확률분포의 확률을 연속확률분포를 이용해서 구하는 데 따르는 수정이라 해서 이러한 과정을 연속성 수정(continuity correction)이라고 한다. 


참고자료:

통계학-엑셀을 이용한 분석, 김진경 외 5인, 자유아카데미    

통계학개론 8판, 이용구, 김삼용, 율곡출판사

https://en.wikipedia.org/wiki/Normal_distribution

반응형
Posted by skywalker222