Processing math: 100%

반응형

[금융수학] 19. 동적 계획법



최적 소비(optimal consumption)를 포함하는 투자 전략을 고려하자. 여기서 최적 소비란 최대의 효용을 얻을 수 있는 소비이고, 효용 함수를 무엇으로 결정하는가에 따라 그 답이 달라진다. 

여기서는 재산을 불려가면서 어느 정도 소비가 일어난다고 가정하고 이때의 최적의 소비 및 투자방법을 찾을 것이다. 소비를 많이 할수록 당장은 효용이 증가하나, 재투자를 하지 못해 미래에 소비할 수 있는 능력이 줄게 되면 전체 기간 동안의 총 효용이 줄게 된다. 


미래에 불확실하게 발생하는 일을 미리 알 수 없기 때문에 여러 단계에 걸쳐 그때그때 최적의 제어를 해 전체적인 최적화를 이루는 것이 동적 계획법의 기본이다. 

확률제어(stochastic control)를 통한 최적화를 위해 동적 계획법을 이용한다.


최적화 문제의 원형인 고전적인 변분법이 미래에 일어날 일이 이미 확정적일 때 최솟값 또는 최댓값을 구하려는 것에 비해 동적 계획법은 응용수학자 벨만(Bellman)에 의해 전개된 이론으로 고전역학의 해밀턴-야코비 방정식(Hamilton-Jacobi equation)의 변형이다.


이토 확률과정 {Xt}0tT에 대해 다음의 최적화 문제를 고려하자. 여기서 Xt는 시간 t에서의 재산이다.maxuE(T0f(Xt,t,ut)dt+B(XT,T))여기서 리만적분은 시간 t=0로부터 시간 T까지의 총효용을 나타내고, T=일 수도 있다. B(XT,T)는 시간 T까지 소비하고 남은 재산 XT에 의한 효용, 기댓값은 모든 상황에 대한 평균이다. 

이 문제의 제약조건은 이토과정 dXt=μ(Xt,t,ut)dt+σ(Xt,t,ut)dWt와 출발시점의 재산 X0=x0이다. 

여기서의 확률과정 ut는 제어변수(control variable), 즉 시간 t에서의 정보 Xt를 토대로 결정한 ut로서 최적의 제어를 하게 된다. 보통 ut는 적당한 함수 g(x,t)에 대해 ut=g(Xt,t)의 형태를 갖는다. 

최적 제어 문제에서 가능한 모든 u에 대해 최소상계는 존재하지만 최댓값이 존재하지 않을 수 있다. 여기서는 최소상계를 얻도록 하는 u가 존재하고, 따라서 최소상계 되신 최댓값이라고 나타내겠다.


다음은 해밀턴-야코비-벨만 방정식을 간략히 유도하는 과정이다. 


임의의 0tT에 대해J(X,t)=maxuE(0Tf(Xs,s,us)ds+B(XT,T)|Xt=X)라고 하자. 이것은 시간 t로부터 시간 T까지 Xt=X라는 조건 아래에서의 총효용과 시간 T에서의 잔여 가치 B(XT,T)의 합을 나타냅니다. 정의에 의해 J(X,T)=B(X,T)이고, t=0일 때 조건부 기댓값은 상수함수 X0=x0에 의해 조건지어지므로 상수이고, 보통의 기댓값이 된다. 즉J(x0,0)=maxuE(T0f(Xs,s,us)ds+B(XT,T)|X0=x0)=maxuE(T0f(Xs,s,us)ds+B(XT,T))이다. 

이 최적화 문제의 답이 존재하고, 주어진 함수들이 충분히 매끄러워 미분가능하다는 가정 하에서 간단한 설명으로 해결하자.

전체 구간에 걸친 최적화 문제의 풀이는 부분구간들로 나누었을 때에도 각 구간에서도 최적이어야 한다. 즉J(X,t)=maxuE(t+dttf(Xs,s,us)ds+J(X+dX,t+dt)|Xt=X)을 얻는다. X+dX는 시간 t에서의 값 Xt=X가 주어졌다는 조건 하에서 시간 t+dt에서의 값 Xt+dt를 나타내는데 이것은 이토 과정 식에 의해 주어지고, 적분은 다음과 같이 근사되며t+dttf(Xs,s,us)dsf(Xt,t,ut)dt이토 과정으로부터dXdX=σ2dt,dXdt=o(dt),dtdt=o(dt)이고 이토 공식을 이용한 테일러 전개에 의해 다음의 식을 얻는다.J(X+dX,t+dt)=J(X,t)+J(X,t)XdX+J(X,t)tdt+122J(X,t)X2σ2(X,t,ut)dt+o(dt)=J(X,t)+J(X,t)Xμ(X,t,u)dt+J(X,t)Xσ(X,t,ut)dW+J(X,t)tdt+122J(X,t)X2σ2(X,t,u)dt+o(dt)시간 t에서 브라운 운동의 증분의 조건부 기댓값은 0이므로E(J(X,t)Xσ(X,t,ut)dW|Xt)=E(J(X,t)Xσ(X,t,ut)|Xt)E(dW|Xt)=0이다. 또한 이미 σ대수 σ(Xt)에 대해 가측인 함수들에 대해 Xt에 의한 조건부 기댓값을 취할 필요가 없으므로J(X,t)=maxuE(f(X,t,u)dt+J(X,t)+J(X,t)Xμ(X,t,ut)dt+J(X,t)Xσ(X,t,ut)dW+J(X,t)tdt+122J(X,t)X2)σ2(X,t,u)dt+o(dt)|Xt=X)=maxu(f(X,t,ut)dt+J(X,t)+J(X,t)Xμ(X,t,ut)dt+J(X,t)tdt+122J(X,t)X2σ2(X,t,u)dt+o(dt))이고 양변에서 J(X,t)를 뺀 후 dt로 나누고 dt0이라고 하면 다음의 결과를 얻는다.


해밀턴-야코비-벨만 방정식(Hamilton-Jacobi-Bellman equation, HJB equation). 확률과정 XtdXt=μ(Xt,t,ut)dt+σ(Xt,t,ut)dWt로 주어질 때 다음의 최적화 문제maxuE(T0f(Xs,s,us)ds+B(XT,T)|Xt=x0)를 풀기 위해J(X,t)=maxuE(Ttf(Xs,s,us)ds+B(XT,T)|Xt=X)라고 하자. 이때 J는 다음의 방정식을 만족하고,Jt(Xt,t)=maxu(f(Xt,t,ut)+Jx(Xt,t)μ(Xt,t,ut)+122Jx2(Xt,t)σ2(Xt,t,ut))이 방정식의 경계조건은 J(XT,T)=B(XT,T)이다. 

*위의 필요조건이 충분조건도 된다. T=일 때 일반적으로 B=0인 조건이 주어지며, limtJ(X,t)=0이 성립하는 풀이를 요구한다. 


효용(utility)은 사람들이 재화를 소비할 때 얻는 만족이다. 또한 재화를 소비할 때 그 재화의 최종단위에 의해 얻어지는 만족감을 한계효용(marginal utility)이라고 한다. 이러한 한계효용은 일반적으로 소비되는 재화의 수량이 증가함에 따라 감소한다. 효용의 크기를 나타내는 효용함수(utility function)는 소비 비율을 c0이라고 할 때 U(c)라고 나타내겠다. 즉 아주 짧은 시간 dt동안 cdt만큼 소비랗 때 얻는 효용을 U(c)dt로 나타내겠다. 일반적으로 많이 소비할수록 만족은 커지므로 U는 증가함수이다. 

한계효용 체감의 법칙(law of diminishing marginal utility)에 의해 U는 볼록함수(convex function)이다. 

예를 들자면 상수 0<γ<1에 대해 U(c)=cγ이거나 U(c)=lnc등이다. 한계효용을 수학적으로 나타내면 U이고, 한계효용 체감의 법칙을 수학적으로 나타내면 U<0이다. 


위험자산(예: 주식의 가격 방정식)을 기하 브라운 운동 dSt=αStdt+σStdWt로 가정한다. 시간 t일 때 투자자의 포트폴리오의 가치가 Xt이고 위험 자산에 비율 ut만큼 투자하고 시간 dt동안 ctdt만큼 소비한다고 가정한다. 

이 포트폴리오는 자체 조달적(self-financing)이고, 외부로부터의 새로운 투자금의 유입은 없으며 처음부터 소비를 마음대로 해서 효용이 무한히 커지지만 총재산이 음이 되는 경우를 제외하기 위해 Xt0이라는 조건을 부여한다. 따라서 투자된 위험 자산의 주식수는 utXtSt이고, 주식에 투자하고 남아 무위험 자산에 투자된(은행 예금) 자금은 (1ut)Xt이다. 시간 dt후에 증가한 재산은dXt=utXtStdSt+r(1ut)Xtdtctdt=(αutXt+r(1ut)Xtct)dt+σutXtdWt이다. 첫 번째 줄의 우변의 utXtSt는 총 주식가격의 상승분, 두 번째 항인 r(1ut)Xtdt는 은행 예금에 대한 이자이다. 소비를 나타내는 항 ctdt의 계수가 음인 이유는 소비를 해서 재산이 줄기 때문이다. 

효용이 최대가 되도록 하는 적당한 ut, ct0을 찾으면 된다. 적당한 상수 ρ>0에 대해 미래 가치를 현재 가치로 할인하기 위해 eρtU(ct)를 생각하자. 


최적 소비 전략. 기간 0tT 동안의 최대 효용을 다음과 같이 정의하자.maxu,cE(T0eρuU(ct)dt)0<γ<1에 대해 U(c)=cγ이면 최적의 전략은ut=αrσ2(1γ)=u,ct={h(t)}1γ1Xt이다. 여기서h(t)=(BA)1γ(e11γA(Tt)1)1γA=rγ+γ2(1γ)(αr)2σ2ρ,B=1γ이고 기간 0tT동안의 최대 효용은 (BA)1γ(e11γAT1)Xγ0이다. 

*

1. 투자자는 u라는 일정 비율로 재산을 위험 자산에 투자한다. 이 비율은 무위험 자산의 수익률 r을 초과하는 αr에 비례한다.

2. 주식의 가격이 평균적으로 더 많이 상승하는 경우일수록, 즉 α가 커질수록, 주식에 더 많이 투자해야 한다는 것을 알 수 있다. 

3. 변동성 σ가 클 수록 주식에 덜 투자해야 한다.

4. 금리 r이 높을수록 주식에 덜 투자하면서 예금을 늘려야 한다.

5. 투자자는 현재 재산가치 Xt에 비례하여 소비한다. 


앞에서의 최적 소비 전략에서 U(c)=lnc이면, 최적의 전략은 ut=αrσ2, ct=ρXt이고, 기간 0t<동안의 최대 효용은 AlnX0+B이며, A, B는 다음과 같다.A=1ρB=1ρ(lnρ+rρ+(αr)22ρσ21)참고자료:

금융수학의 방법론, 최건호, 경문사                 

반응형
Posted by skywalker222