반응형

오차론



오차(error)는 측정값(measured value, 실험값)이 참값(true value, 이론값)을 벗어난 정도, 즉 참값이 \(t\)인 양을 측정해 \(x_{i}\)라는 측정치를 얻었다면, 이 두 값의 차 \(\epsilon_{i}\)를 측정오차라고 한다.$$\epsilon_{i}=|x_{i}-t|$$오차 \(\epsilon_{i}\)를 참값 \(t\)로 나눈 것을 상대오차(relative error)라 하고 \(e_{i}\)로 나타내며 다음과 같다.$$e_{i}=\frac{\epsilon_{i}}{t}=\frac{|x_{i}-t|}{t}$$다음은 측정오차의 종류와 이에 따른 설명이다.

(1) 계통오차(systematic error): 측정기기의 미비한 점으로 인한 오차로서 그 크기를 추정할 수 있고, 보정할 수 있는 오차.

-계기오차(instrumental error): 사용된 기계의 부정확성으로 인한 오차.

-환경오차(environmental error): 환경적 요소(예: 온도, 습도)로 인해 일어나는 오차

-이론오차(theoretical error): 이론적 근사에 따른 오차

-개인오차(personal error): 실험자 개인의 고유한 습성으로 측정상 또는 조정상 발생한 오차

(2) 과실오차(erratic error): 잘못된 실험방법에 의해 발생하는 오차. 주로 계기의 취급 부주의로 발생한다.

(3) 우연오차(random error): 오차의 원인을 해석할 수 없기 때문에 보정이 불가능한 오차. 그렇기 때문에 우연오차에 의해 가중되는 오차를 최소화하기 위해 서는 측정의 횟수를 가능한 한 많이 증가시키는 것이다. 이 측정결과들로부터 얻은 평균값을 측정값으로 사용함으로써 보다 신뢰할 수 있는 실험결과를 얻을 수 있다.   


측정값에서 자리만을 나타내기 위해 사용하는 0을 자릿수, 자릿수가 아닌 모든 숫자를 유효숫자(significant figure)라고 한다. 자릿수로서 반드시 0만 사용될 수 있으나 0이라고 해서 항상 자릿수는 아니다. 

'서울 운동장에 관중이 약 8,000명 모였다'라고 할 때 8은 유효숫자이고, 0은 자릿수이다.

'법률로서 정해진 우리 학교의 학생 정원수는 3,000명이다'라고 할 때 모든 0은 유효숫자이다.

어떤 측정값이 57.4라고 하면 이것을 표시하는데 3개의 숫자가 사용되었기 때문에 유효숫자는 5, 7, 4로 3개이다. 57.40은 57.4와 같은 값이지만 의미가 다르다. 57.4의 유효숫자는 3개인 반면 57.40의 유효숫자는 4개로 이때 소숫점 첫째 자리(4)는 정확한 값, 둘째 자리(0)는 반올림한 값을 갖는다는 의미이다.

이 사실로부터 유효숫자가 많은 측정값의 정밀도가 높고, 측정값의 크기는 유효숫자가 많고 적음에 아무 관계가 없음을 뜻한다.

 

측정한 값을 1과 10 사이의 수와 10의 거듭제곱의 곱으로 나타내는 표기법을 과학적 표기법(scientific notation)(또는 표준꼴)이라고 한다. 

예: 0.00412를 과학적 표기법으로 나타내면 \(4.12\times10^{-3}\)이고, 유효숫자는 4, 1, 2(3자리 유효숫자)이다. 

유효숫자를 나타내기 위해 과학적 표기법으로 나타낼 때에는 항상 정수부분이 한 자리가 되도록 조정한다.    

예: 170000에 대해

유효숫자가 2개이면, \(1.7\times10^{5}\)

유효숫자가 3개이면, \(1.70\times10^{5}\)

유효숫자가 4개이면, \(1.700\times10^{5}\)

예: 진공에서의 광속 \(c\)에 대해

4자리의 유효숫자로 나타내면 \(c=2.998\times10^{10}\text{cm/s}\) 

3자리의 유효숫자로 나타내면 \(c=3.00\times10^{10}\text{cm/s}\) 


측정값들 사이의 사칙연산의 결과는 유효숫자가 작은 것을 기준으로 나타낸다.

-덧셈과 뺄셈: 소숫점 이하 유효숫자가 적은 수를 기준으로 반올림한다.

예: 4.5+0.3352=4.8352이고, 4.5는 2자리의 유효숫자, 0.3352는 4자리의 유효숫자로 나타내어져있다. 이 두 수를 더한 결과를 2자리의 유효숫자로 나타내기 위해 소수 둘째 자리에서 반올림하면 4.8을 결과로 얻는다.

-곱셈과 나눗셈: 유효숫자의 개수가 가장 적은 수를 기준으로 반올림한다.

예: 4.5×0.3352=1.50840이고, 소수 둘째 자리에서 반올림하면 1.5를 결과로 얻는다.  

예: 340.2÷25.3=13.4466..... 이고, 소수 둘째 자리에서 반올림하면 13.4를 결과로 얻는다.

*측정값이 아니더라도 \(\pi,\,\sqrt{2}\)같은 무한소수의 연산도 측정값의 유효숫자에 알맞는 것을 선택한다. 


실험이 진행되는 동안 임의의 물리량에 대한 측정값은 오차로 인해 매번 측정할 때마다 다른 값을 가지게 되며, 이들 측정값들은 다양한 분포특성을 보인다. 주어진 분포특성을 대표하는 값으로 평균(mean), 중앙값(median), 최빈값(mode)이 있다.

-평균(산술평균-arithmetical mean): \(n\)개의 측정값 \(x_{1},\,...,\,x_{n}\)이 주어지면, 그 평균 \(\overline{x}\)는 다음과 같이 이들의 합을 측정횟수 \(n\)으로 나눈 값이다.$$\overline{x}=\frac{1}{n}\sum_{i=1}^{n}{x_{i}}=\frac{x_{1}+\cdots+x_{n}}{n}$$만약 측정값 \(x_{i}\)에 대응하는 가중치가 \(w_{i}\,(i=1,\,2,\,...,\,n)\)이면, 그 평균 \(\overline{x}\)는 다음과 같다.$$\overline{x}=\frac{\displaystyle\sum_{i=1}^{n}{w_{i}x_{i}}}{\displaystyle\sum_{i=1}^{n}{w_{i}}}=\frac{w_{1}x_{1}+w_{2}x_{2}+\cdots+w_{n}x_{n}}{w_{1}+w_{2}+\cdots+w_{n}}$$-중앙값: 측정값 전체를 크기의 순서로 나열했을 때 중앙에 위치하는 값으로 \(M_{e}\)로 나타내며 측정값의 개수 \(n\)이 홀수일 때는 \(\displaystyle\frac{n+1}{2}\)번째의 측정값, \(n\)이 짝수일 때는 \(\displaystyle\frac{n}{2}\)번째와 \(\displaystyle\frac{n+2}{2}\)번째의 측정값의 산술평균을 취한다.

-최빈값: 가장 빈도가 높은 측정값으로 \(M_{o}\)로 나타낸다. 도수분포곡선이 대칭형에 가까울 때 평균 \(\overline{x}\)와 중앙값 \(M_{e}\), 최빈값 \(M_{o}\)사이에 다음의 관계가 성립하며$$\overline{x}-M_{o}=3(\overline{x}-M_{e})$$이 관계식을 피어슨(Pearson)의 실험식이라고 한다. 


측정값 전체가 흩어져 있는 정도를 표시하는 값을 산포(dispersion)라고 한다. 이를 정량적으로 표시하는 양으로 범위(range), 평균편차(mean deviation), 표준편차(standard deviation), 분산(variance)이 있고, 주로 평균편차가 많이 이용된다.

-범위: 측정값 중 최댓값과 최솟값의 차이로, 측정값의 너비라고 한다. 신뢰도는 높지 못하지만 추정이 빠르고 쉽다. 

-편차: 측정에 있어서 참값을 알 수 없는 경우가 대부분으로, 이러한 경우 참값 대신 평균값을 많이 사용한다. 측정값 \(x_{i}\)에 대한 편차 \(d_{i}\)는 다음과 같다.$$d_{i}=x_{i}-\overline{x}$$-평균편차: 편차의 절댓값의 제곱에 대한 평균으로, \(\alpha\)로 나타내며 평균으로부터 얼마나 흩어졌는가를 나타낸다. 측정값의 개수(측정한 횟수)가 \(n\)일 때 평균편차는 다음과 같다.$$\alpha=\frac{1}{n}\sum_{i=1}^{n}{|d_{i}|}=\frac{1}{n}\sum_{i=1}^{n}{|x_{i}-\overline{x}|}$$-표준편차:

(1) 참값 \(t\)가 알려져 있는 경우: 표준편차(오차) \(\sigma\)는 다음과 같이 오차의 제곱의 합의 평균에 대한 제곱근으로 정의한다.$$\sigma=\sqrt{\frac{1}{n}\sum_{i=1}^{n}{(x_{i}-t)^{2}}}$$(2) 참값 \(t\)가 알려져 있지 않은 경우: 참값이나 이론값(기댓값)등을 모르는 일반 실험에 있어서 참값 \(t\) 대신 평균값 \(\overline{x}\)로 대치해 편차의 제곱의 합의 평균에 대한 제곱근으로 정의하고, 이 때의 표준편차 \(\sigma_{0}\)는 다음과 같이 나타낸다.$$\sigma_{0}=\sqrt{\frac{1}{n}\sum_{i=1}^{n}{d_{i}^{2}}}=\sqrt{\frac{1}{n}\sum_{i=1}^{n}{(x_{i}-\overline{x})^{2}}}$$여기서 \(n\)개의 측정값들의 집합에서 평균 \(\overline{x}\)를 셈했기 때문에 집합의 갯수 \(n\)은 실질적으로 \(n-1\)이 되고, 따라서 통계이론에서 오차와 편차 사이에 다음의 등식이 성립한다.$$\frac{1}{n}\sum_{i=1}^{n}{\epsilon_{i}^{2}}=\frac{1}{n-1}\sum_{i=1}^{n}{d_{i}^{2}}$$이 관계로부터 \(\sigma_{t}\)와 \(\sigma_{0}\)사이의 관계는 다음과 같다.$$\sigma_{t}=\sqrt{\frac{n}{n-1}}\sigma_{0}=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}{d_{i}^{2}}}$$따라서 실험에서 사용하는 표준편차 \(\sigma\)와 분산 \(\sigma^{2}\)는 다음과 같다.$$\begin{align*}\sigma&=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}{(x_{i}-\overline{x})^{2}}}\\ \sigma^{2}&=\frac{1}{n-1}\sum_{i=1}^{n}{(x_{i}-\overline{x})^{2}}\end{align*}$$표준편차 \(\sigma\)와 평균 \(\overline{x}\)의 비 \(\displaystyle\frac{\sigma}{\overline{x}}\)를 변동계수(coefficient of variation)로 정의하고, 변동계수는 보통 백분율로 나타낸다.


확률분포


측정량 \(X\)를 \(n\)번 측정한다고 하자. 측정된 값 중 하나인 \(x_{i}\)에 대한 확률 \(p_{i}\)가 정해져 있다고 할 때, 이 측정량 \(X\)를 확률변수라 하고, \(X\)가 갖는 값 \(x_{i}\)와 이에 따른 확률 \(p_{i}\)와의 관계를 나타낸 것을 \(X\)의 확률분포 또는 확률함수라고 한다. 


이산확률변수의 평균과 표준편차


확률변수 \(X\)가 취하는 값이 \(x_{1},\,x_{2},\,...,\,x_{n}\)이고 \(X\)가 이들 값을 취하는 확률이 각각 \(p_{1},\,p_{2},\,...,\,p_{n}\)일 때, 측정량 \(X\)의 평균을 \(\overline{x}\) , 표준편차를 \(\sigma\)라고 하면 다음이 성립한다.$$\overline{x}=\sum_{i=1}^{n}{x_{i}p_{i}},\,\sigma=\sqrt{\sum_{i=1}^{n}{(x_{i}-\overline{x})^{2}p_{i}}}$$이항분포


1회의 시행 T에서 성공할 확률을 \(p\), 일어나지 않을 사건을 \(q=1-p\)라 하자. T를 \(n\)번의 독립시행(복원추출)할 때 \(x\)번 성공할 확률은 다음과 같다.$$P(X=x)=\binom{n}{x}p^{r}q^{n-x}\,\left(\binom{n}{x}=\frac{n!}{x!(n-x)!},\,n!=n\times(n-1)\times\cdots\times2\times1\right)$$여기서 \(X\)는 성공의 횟수를 나타내는 확률변수이고, 위의 식은 \(X\)에 대한 확률질량함수이다. 따라서 분포는 \(n,\,x,\,p\)의 세 모수에 의해 결정되고, 이 \(X\)의 확률분포를 이항분포(binomial distribution)라고 한다. 이항분포의 정의로부터$$\sum_{x=0}^{n}{P(X=x)}=\sum_{x=0}^{n}{\binom{n}{x}p^{x}q^{n-x}}=(p+q)^{n}=1$$이고, 또한 다음이 성립한다.

평균: \(\displaystyle\overline{x}=\sum_{x=0}^{n}{n\binom{n}{x}p^{x}q^{n-x}}=np\)

표준편차: \(\displaystyle\begin{align*}\sigma&=\sqrt{\sum_{x=0}^{n}{(x-\overline{x})^{2}}P(X=x)}\\&=\sqrt{\sum_{x=0}^{n}{x^{2}\binom{n}{x}p^{x}q^{n-x}}-n^{2}p^{2}}\\&=\sqrt{npq}\end{align*}\) 

분산: \(\sigma^{2}=npq\)

예: 흰공 2개와 파란공 3개가 들어있는 주머니에서 구를 1개 꺼내서 색을 확인하고 주머니 속에 다시 넣는다고 하자. 이 시행을 10번 시행할 때, 흰공이 나올 확률은 \(\displaystyle p=\frac{2}{2+3}=\frac{2}{5}\)이므로 흰공이 나오는 횟수에 대한 평균 \(\overline{x}\)와 표준편차 \(\sigma\)는 다음과 같다.$$\begin{align*}\overline{x}&=10\times\frac{2}{5}=4\\ \sigma&=\sqrt{10\times\frac{2}{5}\left(1-\frac{2}{5}\right)}=\sqrt{10\times\frac{2}{5}\times\frac{3}{5}}=1.549\end{align*}$$포아송분포


이항분포에서 \(n\,\rightarrow\,\infty\), \(p\,\rightarrow\,0\), \(np=m\)(상수)이면, 포아송분포(Poisson distribution)는 다음과 같이 정의되고, 모수 \(n\)과 \(m\)에 의해 결정된다.$$P(X=x)=\frac{m^{n}e^{-m}}{n!}$$여기서 \(X\)는 성공의 횟수를 나타내는 확률변수이고, 위의 식은 \(X\)에 대한 확률질량함수이다. 포아송분포는 원자핵의 붕괴와 광자 통계에서 주로 사용된다.

이 분포의 평균과, 분산, 표준편차는 각각 다음과 같다.$$\overline{x}=m,\,\sigma^{2}=m,\,\sigma=\sqrt{m}$$예: 방사성 토륨(Th)의 어떤 표본이 1분당 1.5개의 비율로 \(\alpha\)입자를 방출한다고 한다.2분동안 방출되는 \(\alpha\)입자의 수를 셀 때의 평균은 \(2\times1.5=3\)이고, 이때 \(x\)개의 입자를 관측할 확률은 다음과 같다.$$P(X=x)=\frac{3^{x}e^{-3}}{x!}$$정규분포(가우스분포) 


이항분포(시행횟수: \(n\), 평균: \(m\), 표준편차: \(\sigma\))와 포아송분포(시행횟수: \(x\), 평균: \(m\), 표준편차: \(\sigma(=\sqrt{m})\))에서 시행횟수(실험 자료의 수)가 충분히 클 경우, 다음의 확률밀도함수를 갖는 정규분포로 근사시키는 것이 가능하다.$$f(x)=\frac{h}{\sqrt{m}}e^{-h^{2}(x-m)^{2}}=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-m)^{2}}{2\sigma^{2}}}$$여기서 \(\displaystyle h\left(=\frac{1}{\sqrt{2}\sigma}\right)\)는 정밀도, \(m\)은 참값(이론값) 또는 평균, \(\sigma\)는 표준편차이고, 모수 \(h\)(또는 \(\sigma\))와 \(m\)에 의해 이 분포가 결정된다.

\(f(x)\)는 평균이 \(m\)인 분포에서 오차(편차)가 \(x-m\)으로 나타나는 확률이고, 따라서 이러한 분포를 정규분포라고 한다.

정규분포는 자연현상을 기술하는 자료들의 가장 일반적인 분포형태로 대부분의 자료들이 평균의 주변에 분포하며, 평균으로부터 멀어질 수 록 자료의 수가 급감한다. 또한 평균을 기준으로 좌우대칭이며, 여러번의 측정을 할 때 우연오차만을 고려하면, 측정값들은 참값 또는 평균 근처에서 정규분포를 갖고, 이때 참값 또는 평균(\(m\))으로부터 표준편차 만큼의 거리 안에 측정값들의 약 68%가 분포한다. 즉, 다음이 성립한다.$$\begin{align*}P([m-\sigma,\,m+\sigma])&=\int_{m-\sigma}^{m+\sigma}{\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-m)^{2}}{2\sigma^{2}}}dx}\\&=\int_{-1}^{1}{\frac{1}{\sqrt{2\pi}}e^{-\frac{z^{2}}{2}}dz}\\&=0.68\end{align*}$$이것은 한 측정량을 100번 측정해서 100개의 측정값을 얻었을 때, 68개는 구간 \([m-\sigma,\,m+\sigma]\)안에 있고, 나머지 32개는 이 구간 바깥에 있음을 뜻한다. 이와 같이 측정값 \(x\)는 신뢰구간 \([m-\sigma,\,m+\sigma]\)안에서 신뢰계수(confidence coefficient) 68%로 존재한다고 한다.

 \(\displaystyle P([m-c\sigma,\,m+c\sigma])=\int_{m-c\sigma}^{m+c\sigma}{\frac{1}{\sqrt{2\pi}}e^{-\frac{(x-m)^{2}}{2\sigma^{2}}}dx}=\int_{-c}^{c}{\frac{1}{\sqrt{2\pi}}e^{-\frac{z^{2}}{2}}dz}\)

신뢰계수(%) 

\(P([-0.6745\sigma,\,0.6745\sigma])=0.5000\) 

50% 

\(P([-\sigma,\,\sigma])=0.6827\) 

68% 

\(P([-2\sigma,\,2\sigma])=0.9554\) 

95% 

\(P([-3\sigma,\,3\sigma])=0.9974\) 

99.7%(100%) 

일반적으로 실험에서 주로 사용되는 신뢰계수는 50%와 68%이다.   

 

정규분포곡선은 표준편차가 커질수록 다음과 같이 완만해진다.

*이항분포에서 정규분포의 근사: 이항분포에서 확률 \(p\)가 일정하고 \(n\,\rightarrow\,\infty\)이면, 다음이 성립한다.$$f(x)=\frac{n!}{(n-x)!x!}\simeq\frac{1}{\sqrt{2\pi npq}}e^{-\frac{(x-np)^{2}}{2npq}}\,(q=1-p)$$평균의 표준편차


표준편차가 \(\sigma\)인 한 물리량을 1회에 \(n\)번 반복 측정하면 매회 얻어지는 측정값에 대한 평균과 표준편차는 일반적으로 달라진다. 평균 \(\overline{x}\)의 표준편차를 \(\sigma_{m}\)이라고 하면, \(\sigma\)와 \(\sigma_{m}\), \(n\)사이의 관계는 다음과 같다.$$\sigma_{m}^{2}=\frac{\sigma^{2}}{n},\,\sigma_{m}=\frac{\sigma}{\sqrt{n}}=\sqrt{\frac{1}{n(n-1)}\sum_{i=1}^{n}{(x_{i}-\overline{x})^{2}}}$$여기서의 \(\sigma_{m}\)을 표준오차라고 한다.


통계처리한 측정값의 표시


실험에서 얻은 측정값은 다음과 같이 "평균±표준오차"의 형태로 나타낸다.  

측정값=평균±표준오차=\(m\pm\sigma_{m}\)(68% 신뢰도)

측정값=평균±표준오차=\(m\pm0.6745\sigma_{m}\)(50% 신뢰도)

보통 이공계 실험에서 신뢰계수를 50%로 잡아 측정값을 나타낸다. 


포아송분포와 정규분포의 적용한계


포아송분포와 정규분포는 모두 이항분포에서 극한을 취해 얻을 수 있는 분포이므로 그 극한 연결성에서 대체적인 적용 한계가 측정횟수 \(n\)과 확률 \(p\)에 의해 다음과 같이 정해진다.

포아송분포: \(n>100\), \(p>0.05\), \(np=m\)(상수, 작은 것이 바람직하다) 

정규분포: \(n>30\), \(p>0.05\)가 바람직하다.

이공계 실험에서 한 물리량에 대한 측정값을 얻으려고 할 때는 우연오차만 고려하기 때문에 \(n>30\)이 바람직한 하한선이지만 일반물리실험 같은 초보적 실험에서는 \(n>10\)이 현실적인 하한선이다.          


예: 작은 백금(Pt) 덩어리의 질량을 천칭으로 10번 측정해서 다음의 표와 같은 측정값을 얻었다.

 시행횟수(\(n\))

측정값(\(x_{i}\)) 

편차(\(d_{i}\)) 

편차의 제곱(\(d_{i}^{2}\)) 

14.35g 

-0.01 

\(0.01\times10^{-2}\)

14.42g

0.06 

0.36 

14.37g 

0.01 

0.01 

14.36g 

0.00 

0.00 

14.34g 

-0.02 

0.04 

14.35g 

-0.01 

0.01 

14.36g 

0.00 

0.00 

14.33g 

-0.03 

0.09 

14.35g 

-0.01 

0.01 

10 

14.38g 

0.02 

0.04 

 

\(X_{i}=14.36\) 

 

\(\sum d_{i}^{2}=0.57\times10^{-2}\) 

위의 자료로부터

1. 평균: \(\displaystyle\overline{x}=\frac{1}{10}\sum_{i=1}^{10}{x_{i}}=14.36\text{g}\) 

2. 표준편차: \(\displaystyle\sigma=\sqrt{\frac{1}{10-1}\sum_{i=1}^{10}{d_{i}^{2}}}=\sqrt{\frac{0.57\times10^{-2}}{9}}=0.025\text{g}\)

3. 표준오차(신뢰계수 68%): \(\displaystyle\sigma_{m}=\frac{\sigma}{\sqrt{10}}=0.008\text{g}\) 

4. 확률오차(신뢰계수 50%): \(\rho=0.6745\sigma_{m}=0.005\) 

5. 변동계수(백분율 표기): \(\displaystyle\frac{\sigma}{\overline{x}}\times100(\text{%})=\frac{0.025}{14.36}\times100(\text{%})=0.2\text{%}\) 

따라서 구하는 질량은 \(14.36\pm0.005\text{g}\)이나 유효 자릿수를 고려하면 \(14.36\pm10.01\text{g}\) 또는 \(14.36\pm0.17\text{%g}\)이다. 


참고자료:

이, 공대생을 위한 일반물리학 실험, 경기대학교 일반물리학실험 교재편찬위원회, 북스힐

http://phome.postech.ac.kr/user/edulab/2016phy103/error.pdf

http://genphysics.uos.ac.kr/docs/exp_doc/error/erroran.htm      

반응형
Posted by skywalker222