반응형

[수리통계학] 12. 점추정(적률법, 최대우도법)



점추정(point estimation)은 모집단의 모수를 추정하기 위해 통계량의 값을 사용하는 것이고 통계량의 값을 점추정값(point estimate)이라고 하며, 통계량 자체를 점추정량(point estimator)이라고 한다. 점추정에는 적률법과 최대우도법이 있다.


적률법


모집단에서 추출한 확률표본 \(X_{1},\,X_{2},\,\cdots,\,X_{n}\)들의 집합에 대하여 모집단의 \(r\)차 적률을 \(\mu_{r}=E(X^{r})\,(r\in\mathbb{N})\), 표본의 \(r\)차 적률을 \(\displaystyle\hat{\mu_{r}}=\frac{1}{n}\sum_{i=1}^{n}{X_{i}^{r}\,(r\in\mathbb{N})}\)으로 정의하고, 모집단의 적률과 표본의 적률을 사용하여 \(\mu_{r}=\hat{\mu_{r}}\,(r\in\mathbb{N})\)을 해당 모수에 대해 풀어 추정량을 구하는 방법을 적률법(method of moment)이라고 한다.


평균이 \(\mu\)이고 분산이 \(\sigma^{2}\)인 정규모집단에서 추출한 크기가 \(n\)인 확률표본 \(X_{1},\,X_{2},\,\cdots,\,X_{n}\)에 대하여$$\mu_{1}=E(X)=\mu,\,\mu_{2}=E(X^{2})=\sigma^{2}+\{E(X)\}^{2}$$이고$$\hat{\mu_{1}}=\frac{1}{n}\sum_{i=1}^{n}{X_{i}},\,\hat{\mu_{2}}=\frac{1}{2}\sum_{i=1}^{n}{X_{i}^{2}}$$이므로 \(\mu_{1}=\hat{\mu_{1}},\,\mu_{2}=\hat{\mu_{2}}\)라 하고 이것을 \(\mu,\,\hat{\sigma^{2}}\)에 대해 풀면$$\begin{align*}\hat{\mu}&=\overline{X}\\ \hat{\sigma^{2}}&=\hat{\mu_{2}}-\hat{\mu_{1}}=\frac{1}{n}\sum_{i=1}^{n}{X_{i}^{2}}-\overline{X}^{2}\\&=\frac{1}{n}\sum_{i=1}^{n}{(X_{i}-\overline{X})^{2}}\end{align*}$$이다.


어느 유명한 1인 식당에서 식사하려는 사람들이 많아 선착순으로 번호표를 배부했다. 어떤 사람이 현재 몇명 기다리고 있는가를 알기 위해 대기인원 중 \(n\)명을 임의로 추출해 번호를 확인한 결과 \(X_{1},\,X_{2},\,\cdots,\,X_{n}\)이었다. 현재 대기인원을 \(\theta\)라고 하면 각 \(X_{i}\)는 \(\{X_{1},\,X_{2},\,\cdots,\,X_{n}\}\)의 값을 \(\displaystyle\frac{1}{\theta}\)의 확률로 취하는 이산형 균등분포를 따른다고 할 수 있고$$E(X)=\sum_{i=1}^{\theta}{\frac{i}{\theta}}=\frac{1+2+\cdots+\theta}{\theta}=\frac{1+\theta}{2}$$이다. \(\displaystyle\frac{1+\theta}{2}=\overline{X}\)를 \(\theta\)에 대해 풀면 적률법에 의한 \(\theta\)의 추정량은 \(\hat{\theta}=2\overline{X}-1\)이다. 번호가 2, 3, 10인 3명을 조사하면 \(\displaystyle\overline{x}=\frac{2+3+10}{3}=5\)이고 \(\hat{\theta}=2\cdot5-1=9\)이다. 그러나 한 사람의 번호가 10이기 때문에 \(\theta\)는 적어도 10 이상이 되어야 한다. 이것은 적률법으로 구한 추정량이 타당하지 않음을 보여준다. 


최대우도법


어떤 상자 안에 3개의 공이 있고, 공의 색은 흰색 또는 검정색이다. 이 상자에서 2개의 공을 비복원 추출해보니 모두 흰색이었다. 나머지 공의 색은 아직 모르는 상태이다. 이 상황에서 다음의 두 가지 결론을 내릴 수 있다.

1. 나머지 하나도 흰공이다.(흰공 3개)

2. 나머지 하나는 검은공이다.(흰공 2개, 검은공 1개)

1의 경우 3개가 모두 흰공이면 관측된 2개가 모두 흰공일 확률은 1이다. 2의 경우 3개 중 1개가 검은 공이라면 이 중 비복원으로 추출한 2개가 모두 흰 공일 확률은 \(\displaystyle\frac{\binom{2}{2}\binom{1}{0}}{\binom{3}{2}}=\frac{1}{3}\)이다.

따라서 흰공이 2개라는 결론보다는 흰공이 3개라는 결론이 더욱 타당한 결과이다. 


위의 방법을 최대우도법(maximum likelihood method)이라고 한다.


\(n\)개의 관측된 표본값 \(x_{1},\,x_{2},\,\cdots,\,x_{n}\)에 대한 결합밀도함수 \(L(\theta)=f(x_{1},\,\cdots,\,x_{n}\,;\,\theta)\)를 \(\theta\)의 함수로 간주할 때 \(L(\theta)\)를 우도함수(likelihood function)라고 한다. 우도함수 \(L(\theta)\)를 최대로 하는 \(\theta\)의 추정량 \(\hat{\theta}\)를 \(\theta\)의 최대우도추정량(maximum likelihood estimator, MLE)이라고 한다.


앞의 예에서 \(\theta\)를 검은공의 개수라고 하면 \(3-\theta\)개의 공이 흰색이므로 2개의 공을 비복원 추출했을 때 모두 흰색일 확률은$$L(\theta)=f(x=2\,;\,\theta)=\frac{\binom{3-\theta}{2}\binom{\theta}{0}}{\binom{3}{2}}=\begin{cases}1&\,(\theta=0)\\ \frac{1}{3}&\,(\theta=1)\end{cases}$$이고 따라서 \(\theta=0\)(검은 공이 0개)일 때 \(L(\theta)\)가 최대이고 \(\hat{\theta}=0\)가 최대우도추정량이다.


관측된 표본값 \(x_{1},\,x{2},\,\cdots,\,x_{n}\)이 확률표본일 경우$$L(\theta)=f(x_{1}\,;\,\theta)f(x_{2}\,;\,\theta)\cdots f(x_{n}\,;\,\theta)$$이고 우도함수에 로그를 취한 함수 \(l(\theta)=\ln L(\theta)\)를 이용하여 최대우도추정량 \(\hat{\theta}\)를 구한다. 이때 \(\hat{\theta}\)는$$\frac{\partial l(\theta)}{\partial\theta}=0$$을 만족하는 값이다.


확률표본 \(X_{1},\,X_{2},\,\cdots,\,X_{n}\)들의 확률밀도함수가 지수분포라고 하면, 우도함수의 로그를 취한 함수는$$l(\theta)=\ln\left(\prod_{i=1}^{n}{\frac{1}{\theta}e^{-\frac{x_{i}}{\theta}}}\right)=-n\ln\theta-\frac{1}{\theta}\sum_{i=1}^{n}{x_{i}}$$이고$$\frac{\partial l(\theta)}{\partial\theta}=-\frac{n}{\theta}+\frac{1}{\theta^{2}}\sum_{i=1}^{n}{x_{i}}$$이므로 \(\displaystyle\theta=\frac{1}{n}\sum_{i=1}^{n}{x_{i}}=\overline{x}\)일 때 \(\displaystyle\frac{\partial l(\theta)}{\partial\theta}=0\)이고 따라서 \(\hat{\theta}=\overline{X}\)가 최대우도추정량이다.


\(\overline{X}\)가 베르누이 시행의 결과가 성공이면 1의 값을 갖고, 실패이면 0의 값을 갖는다고 하자. \(\theta\,(0<\theta<1)\)가 성공의 확률이면 확률질량함수는$$p(x\;\,\theta)=\theta^{x}(1-\theta)^{1-x}\,(x=0,\,1)$$이다. 만약 \(X_{1},\,X_{2},\,\cdots,\,X_{n}\)이 앞의 \(X\)에 대한 확률표본이면 그 우도함수는$$L(\theta)=\prod_{i=1}^{n}{p(x_{i}\,;\,)}=\theta^{\displaystyle\sum_{i=1}^{n}{x_{i}}}(1-\theta)^{\displaystyle n-\sum_{i=1}^{n}{x_{i}}}\,(x_{i}=0,\,1)$$이고 로그를 취하면$$l(\theta)=\left(\sum_{i=1}^{n}{x_{i}}\right)\ln\theta+\left(n-\sum_{i=1}^{n}{x_{i}}\right)\ln(1-\theta)\,(x_{i}=0,\,1)$$이므로$$\frac{\partial l(\theta)}{\partial\theta}=\frac{1}{\theta}\sum_{i=1}^{n}{x_{i}}-\frac{1}{1-\theta}\left(n-\sum_{i=1}^{n}{x_{i}}\right)$$이고 따라서 최대우도추정량은 \(\displaystyle\hat{\theta}=\frac{1}{n}\sum_{i=1}^{n}{x_{i}}\)이다.


\(X\,\sim\,N(\mu,\,\sigma^{2})\)라고 하자. 이때 \(\theta=(\mu,\,\sigma)\)는 벡터이다. \(X\)의 확률표본 \(X_{1},\,X_{2},\,\cdots,\,X_{n}\)에 대하여 우도함수는$$L(\mu,\,\sigma)=\prod_{i=1}^{n}{\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_{i}-\mu)^{2}}{2\sigma^{2}}}}$$이고 로그를 취하면$$l(\mu,\,\sigma)=-\frac{n}{2}\ln2\pi-n\ln\sigma-\frac{1}{2}\sum_{i=1}^{n}{\left(\frac{x_{i}-\mu}{\sigma}\right)^{2}}$$이므로$$\begin{align*}\frac{\partial l(\mu,\,\sigma)}{\partial\mu}&=-\sum_{i=1}^{n}{\left(\frac{x_{i}-\mu}{\sigma}\right)}\left(-\frac{1}{\sigma}\right)\\ \frac{\partial l(\mu,\,\sigma)}{\partial\sigma}&=-\frac{n}{\sigma}+\frac{1}{\sigma^{3}}\sum_{i=1}^{n}{(x_{i}-\mu)^{2}}\end{align*}$$이고 이 두 편도함수를 \(0\)이 되게 하는 최대우도추정량은$$\hat{\mu}=\overline{X},\,\hat{\sigma^{2}}=\frac{1}{n}\sum_{i=1}^{n}{(X_{i}-\overline{X})^{2}}$$이다.


\(X_{1},\,X_{2},\,\cdots,\,X_{n}\)이 \(\alpha=0,\,\beta=\theta\)인 균등분포를 따르는 모집단에서 추출한 확률표본이라고 하자. 각 \(X_{i}\)에 대한 확률밀도함수는$$f(x_{i}\,;\,\theta)=\begin{cases}\frac{1}{\theta}&\,(0<x_{i}<\theta)\\0&\,(\text{otherwise})\end{cases}$$이므로$$L(\theta)=\prod_{i=1}^{n}{f(x_{i}\,;\,\theta)}=\frac{1}{\theta^{n}}$$이고 이 우도함수의 값은 \(\theta\)의 값이 작을 수록 증가하기 때문에 \(\theta\)를 가능한 작게 선택해야 한다. 따라서 \(\displaystyle\hat{\theta}=\max_{1\leq i\leq n}\{x_{i}\}\)가 최대우도추정량이다.


참고자료:

John E Freund's Mathematical Statistics with Applications 8th edition, Irwon Miller, Marylees Miller, Pearson

Introduction to Mathematical Statistics 7th edition, Hogg, McKean, Craig, Pearson

수리통계학, 허문열, 송문섭, 박영사            

반응형
Posted by skywalker222