[기초통계학] 4. 확률변수, 확률분포
확률변수(random variable)은 각각의 근원사건들을 실수로 대응시키는 함수, 즉 표본공간에서 실수로의 함수 X:Ω→R이다.
'확률변수'에서 '확률'의 의미는 실험에 앞서 어떤 값을 갖게 될지 알 수 없는 불확실성을 표현한 것이다.
확률변수의 값이 유한이거나 가산무한인 경우를 이산확률변수(discrete random variable), 연속적인 구간에 속하는 모든 값을 다 가질 수 있는(비가산) 경우를 연속확률변수(continuous random variable)라고 한다.
확률분포(probability distribution)는 확률변수가 갖는 값들과 그에 대응하는 확률값을 나타낸 것으로 표 또는 수식으로 표현된다. 보통 확률변수 X의 분포라고 한다.
확률변수 X가 n개의 값 x1,...,xn를 가질 때 이 값들에 대응하는 확률을 f(x1),...,f(xn)라고 하면 X의 확률분포를 다음의 표로 나타낼 수 있다.
X |
x1 |
x2 |
⋯ |
xn |
계 |
확률 f(x) |
f(x1) |
f(x2) |
⋯ |
f(xn) |
1 |
여기서 f(x)는 확률변수 X가 값 x를 가질 확률 P(X=x)를 나타내므로 0과 1사이의 값을 가져야 하고 모든 가능한 x값에 대해 그 합이 1이어야 한다. 이러한 함수 f(x)를 X의 확률질량함수(probability mass function)라고 한다.
연속확률변수 X는 주어진 구간의 모든 값을 가지므로 각 x값에 확률을 대응시키는 방법으로 나타내기가 어려워 주어진 구간에서 확률이 어떻게 분포하는가를 나타내는 함수를 이용한다. 그 함수를 X의 확률밀도함수(probability density function)라고 하고, 다음의 조건들을 만족한다.
(1) 모든 x값에 대해 f(x)≥0
(2) P(a≤X≤b)=∫baf(x)dx
(3) P(−∞<X<∞)=∫∞−∞f(x)dx=1
연속확률변수 X에 대해 특정한 값 x를 가질 확률은 0이다. 즉 P(X=x)=0, 따라서 임의의 a부터 b까지의 구간의 확률은 다음이 성립한다.P(a≤X≤b)=P(a≤X<b)=P(a<X≤b)=P(a<X<b)기댓값(expected value) 또는 평균(mean)은 확률분포에서 분포의 무게중심으로 확률값을 가중치로 하는 확률변수의 가능한 값에 대한 가중평균(weighted average)이라고 할 수 있다. 확률변수 X의 기댓값을 E(X)로 나타내고, 다음과 같이 계산한다.
1. 이산확률변수 X가 x1,...,xn을 값으로 갖고, X의 확률질량함수가 f(x)일 때 X의 기댓값 E(X)는 다음과 같다.E(X)=n∑i=1xif(xi)2. 연속확률변수 X의 확률밀도함수가 f(x)일 때 X의 기댓값 E(X)는 다음과 같다.E(X)=∫∞−∞xf(x)dxX,Y를 확률변수, a,b를 상수라 할 때 다음의 성질들이 성립한다.
(1) E(a)=a(상수의 기댓값은 자기자신이다)
(2) E(aX+b)=aE(X)+b
(3) E(aX+bY)=aE(X)+bE(Y)
평균은 확률의 무게중심이고, 분산(variance)은 확률분포의 흩어진 정도를 측정하는 척도이다. 분산이 클 수록 자료들이 평균에서 멀리 흩어져 있고, 분산이 적을 수록 평균에 밀집해 있다. 확률변수 X의 분산은 편차의 제곱 (X−μ)2(E(X)=μ)의 기댓값이고, Var(X)로 나타내며 다음과 같이 계산한다.
1. 이산확률변수 X가 x1,...,xn을 값으로 갖고, X의 기댓값이 μ, 확률질량함수가 f(x)일 때 X의 분산 Var(X)는 다음과 같이 계산한다.Var(X)=E((X−μ)2)=n∑i=1(xi−μ)2f(xi)2. 연속확률변수 X의 확률밀도함수가 f(x)일 때 X의 분산 Var(X)는 다음과 같이 계산한다.Var(X)=E((X−μ)2)=∫∞−∞(x−μ)2f(x)dx정의대로 분산을 계산한다면 복잡할 것이다. 분산에 있는 편차의 제곱을 풀어서 계산하면E((X−μ)2)=E(X2−2μX+μ2)=E(X2)−2μE(X)+μ2=E(X2)−2μ⋅μ+μ2(∵E(X)=μ)=E(X2)−μ2그러면 다음의 등식을 얻고, 이 등식을 이용하여 간단히 분산을 계산할 수 있다.Var(X)=E(X2)−μ2이산확률변수의 경우 E(X2)=n∑i=1x2if(xi), 연속확률변수의 경우 E(X2)=∫∞−∞x2f(x)dx로 계산한다.
확률변수 X의 분산 Var(X)의 양의 제곱근을 표준편차(standard deviation)라고 하고 σ(X)로 나타낸다. 즉, 다음이 성립한다.σ(X)=√Var(X)확률변수 X와 상수 a,b에 대해 다음이 성립한다.Var(aX+b)=a2Var(X),σ(aX+b)=|a|σ(X)두 확률변수 X와 Y의 결합확률분포(joint probability distribution)는 X가 취하는 값과 Y가 취하는 값의 각 쌍에 대응하는 확률이다. X와 Y가 이산확률변수로 X가 갖는 값을 x1,...,xm, Y가 갖는 값을 y1,...,yn이라 할 때 X와 Y의 결합확률분포는 모든 1≤i≤m, 1≤j≤n에 다음과 같이 정의된다.f(xi,yj)=P(X=xi,Y=yj)이 값들을 다음의 표로 나타낼 수 있고, f(xi,yj)=P(X=xi,Y=yj)를 결합확률질량함수(joint probability mass function)라고 한다.
X\Y |
y1 |
y2 |
⋯ |
yn |
x1 |
f(x1,y1) |
f(x1,y2) |
⋯ |
f(x1,yn) |
x2 |
f(x2,y1) |
f(x2,y2) |
⋯ |
f(x2,yn) |
⋮ |
⋮ |
⋮ |
⋱ |
⋮ |
xm |
f(xm,y1) |
f(xm,y2) |
⋯ |
f(xm,yn) |
f(xi,yj)가 결합확률질량함수이면, 0보다 커야 하고, 확률의 정의에 의해 총 확률의 합이 다음과 같이 1이어야 한다.m∑i=1n∑j=1f(xi,yj)=1두 확률변수의 결합확률분포로부터 각각의 확률변수에 대한 분포를 구할 수 있다. 각각의 확률변수에 대한 분포를 주변확률분포(marginal probability distribution)라고 정의하고 앞의 확률변수 X와 Y의 주변확률분포를 다음과 같이 정의한다.fX(xi)=P(X=xi)=n∑j=1f(xi,yi)fY(yj)=P(Y=yj)=m∑i=1f(xi,yj)다음은 2교대근무를 시행하는 공장의 근로자들의 결근률에 대해 조사했다. X를 아침 근무조의 결근자수, Y를 같은 날 저녁근무조의 결근자수라 하자. 조사한 결근자들의 결근률은 다음과 같다고 한다.
x\y |
0 |
1 |
2 |
3 |
행의 합계 |
0 |
0.05 |
0.05 |
0.10 |
0.00 |
0.20 |
1 |
0.05 |
0.10 |
0.25 |
0.10 |
0.50 |
2 |
0.00 |
0.15 |
0.10 |
0.05 |
0.30 |
열의 합계 |
0.10 |
0.30 |
0.45 |
0.15 |
1.00 |
이 표에서f(0,0)=0.05,f(2,3)=0.05,f(1,3)=0.10이고, 다음이 성립한다.fX(0)=P(X=0)=0.05+0.05+0.10+0.00=0.20fX(1)=P(X=1)=0.05+0.10+0.25+0.10=0.50fX(2)=P(X=2)=0.00+0.15+0.10+0.05=0.30주변확률분포에서 X의 기댓값과 분산을 μX, σ2X, Y의 기댓값과 분산을 μY, σ2Y라고 하면 다음과 같이 구할 수 있다.μX=m∑i=1xifX(xi)σ2X=m∑i=1(xi−μX)2fX(xi)=m∑i=1x2if(xi)−μ2XμY=n∑j=1yjfY(yj)σ2Y=n∑j=1(yj−μY)2fY(yj)=n∑j=1y2jfY(yj)−μ2Y확률변수 X와 Y의 공분산(covariance)을 다음과 같이 정의한다.Cov(X,Y)=E((X−μX)(Y−μY))=E(XY)−μXμY이때 E(XY)=m∑i=1n∑j=1xiyjf(xi,yj)이다.
공분산은 음의 값을 가질 수 있고, 공분산의 부호는 두 확률변수의 관계의 방향을 나타낸다.
확률변수 X, Y와 상수 a,b에 대해 다음이 성립하고Cov(aX,bY)=abCov(X,Y)상관계수(correlation coefficient)는 두 변수 사이의 관계의 밀접도를 나타내고, 확률변수 X, Y에 대해 σ2X, σ2Y가 각각 X와 Y의 분산, σXY가 X와 Y의 공분산이라고 하면, 다음과 같이 정의한다.ρ=Corr(X,Y)=Cov(X,Y)σXσY=σXYσXσY상관계수는 공분산을 σXσY의 곱으로 나눈 값으로 −1≤ρ≤1이고, 0이 아닌 상수 a,b에 대해 다음이 성립한다.Corr(aX,bY)=ab|ab|Corr(X,Y)앞에서 다룬 공장 근로자들의 결근율에서μX=0×0.2+1×0.5+2×0.3=1.1μY=0×0.1+1×0.3+2×0.45+3×0.15=1.65σ2X=12×0.5+22×0.3−1.12=0.49σ2Y=12×0.3+22×0.45+32×0.15−1.652=0.7275E(XY)=f(1,1)+2f(1,2)+3f(1,3)+2f(2,1)+4f(2,2)+6f(2,3)=0.1+0.5+0.3+0.3+0.4+0.3=1.9(E(XY)의 계산에서 0이 포함된 부분은 적지 않았다)이므로 공분산은Cov(X,Y)=E(XY)−μXμY=1.9−1.1×0.65=0.085이고 상관계수는Corr(X,Y)=Cov(X,Y)σXσY=0.085√0.49√0.7275=0.1424이다.
참고자료:
통계학의 이해 8판, 이용구, 김삼용, 율곡출판사
통계학-엑셀을 이용한 분석, 김진경 외 5인, 자유아카데미
'확률및통계 > 기초통계학' 카테고리의 다른 글
[기초통계학] 6. 연속확률분포 (0) | 2020.05.16 |
---|---|
[기초통계학] 5. 이산확률분포 (0) | 2020.04.10 |
[기초통계학] 3. 확률 (0) | 2020.04.08 |
[기초통계학] 2. 기술통계 (0) | 2020.04.07 |
[기초통계학] 1. 통계학이란 무엇인가? (0) | 2020.04.06 |