Loading [MathJax]/jax/element/mml/optable/GeneralPunctuation.js

반응형

[금융수학] 19. 동적 계획법



최적 소비(optimal consumption)를 포함하는 투자 전략을 고려하자. 여기서 최적 소비란 최대의 효용을 얻을 수 있는 소비이고, 효용 함수를 무엇으로 결정하는가에 따라 그 답이 달라진다. 

여기서는 재산을 불려가면서 어느 정도 소비가 일어난다고 가정하고 이때의 최적의 소비 및 투자방법을 찾을 것이다. 소비를 많이 할수록 당장은 효용이 증가하나, 재투자를 하지 못해 미래에 소비할 수 있는 능력이 줄게 되면 전체 기간 동안의 총 효용이 줄게 된다. 


미래에 불확실하게 발생하는 일을 미리 알 수 없기 때문에 여러 단계에 걸쳐 그때그때 최적의 제어를 해 전체적인 최적화를 이루는 것이 동적 계획법의 기본이다. 

확률제어(stochastic control)를 통한 최적화를 위해 동적 계획법을 이용한다.


최적화 문제의 원형인 고전적인 변분법이 미래에 일어날 일이 이미 확정적일 때 최솟값 또는 최댓값을 구하려는 것에 비해 동적 계획법은 응용수학자 벨만(Bellman)에 의해 전개된 이론으로 고전역학의 해밀턴-야코비 방정식(Hamilton-Jacobi equation)의 변형이다.


이토 확률과정 {Xt}0tT에 대해 다음의 최적화 문제를 고려하자. 여기서 Xt는 시간 t에서의 재산이다.maxuE(T0f(Xt,t,ut)dt+B(XT,T))여기서 리만적분은 시간 t=0로부터 시간 T까지의 총효용을 나타내고, T=일 수도 있다. B(XT,T)는 시간 T까지 소비하고 남은 재산 XT에 의한 효용, 기댓값은 모든 상황에 대한 평균이다. 

이 문제의 제약조건은 이토과정 dXt=μ(Xt,t,ut)dt+σ(Xt,t,ut)dWt와 출발시점의 재산 X0=x0이다. 

여기서의 확률과정 ut는 제어변수(control variable), 즉 시간 t에서의 정보 Xt를 토대로 결정한 ut로서 최적의 제어를 하게 된다. 보통 ut는 적당한 함수 g(x,t)에 대해 ut=g(Xt,t)의 형태를 갖는다. 

최적 제어 문제에서 가능한 모든 u에 대해 최소상계는 존재하지만 최댓값이 존재하지 않을 수 있다. 여기서는 최소상계를 얻도록 하는 u가 존재하고, 따라서 최소상계 되신 최댓값이라고 나타내겠다.


다음은 해밀턴-야코비-벨만 방정식을 간략히 유도하는 과정이다. 


임의의 0tT에 대해J(X,t)=maxuE(0Tf(Xs,s,us)ds+B(XT,T)|Xt=X)라고 하자. 이것은 시간 t로부터 시간 T까지 Xt=X라는 조건 아래에서의 총효용과 시간 T에서의 잔여 가치 B(XT,T)의 합을 나타냅니다. 정의에 의해 J(X,T)=B(X,T)이고, t=0일 때 조건부 기댓값은 상수함수 X0=x0에 의해 조건지어지므로 상수이고, 보통의 기댓값이 된다. 즉J(x0,0)=maxuE(T0f(Xs,s,us)ds+B(XT,T)|X0=x0)=maxuE(T0f(Xs,s,us)ds+B(XT,T))이다. 

이 최적화 문제의 답이 존재하고, 주어진 함수들이 충분히 매끄러워 미분가능하다는 가정 하에서 간단한 설명으로 해결하자.

전체 구간에 걸친 최적화 문제의 풀이는 부분구간들로 나누었을 때에도 각 구간에서도 최적이어야 한다. 즉J(X,t)=maxuE(t+dttf(Xs,s,us)ds+J(X+dX,t+dt)|Xt=X)을 얻는다. X+dX는 시간 t에서의 값 Xt=X가 주어졌다는 조건 하에서 시간 t+dt에서의 값 Xt+dt를 나타내는데 이것은 이토 과정 식에 의해 주어지고, 적분은 다음과 같이 근사되며t+dttf(Xs,s,us)dsf(Xt,t,ut)dt이토 과정으로부터dXdX=σ2dt,dXdt=o(dt),dtdt=o(dt)이고 이토 공식을 이용한 테일러 전개에 의해 다음의 식을 얻는다.J(X+dX,t+dt)=J(X,t)+J(X,t)XdX+J(X,t)tdt+122J(X,t)X2σ2(X,t,ut)dt+o(dt)=J(X,t)+J(X,t)Xμ(X,t,u)dt+J(X,t)Xσ(X,t,ut)dW+J(X,t)tdt+122J(X,t)X2σ2(X,t,u)dt+o(dt)시간 t에서 브라운 운동의 증분의 조건부 기댓값은 0이므로E(J(X,t)Xσ(X,t,ut)dW|Xt)=E(J(X,t)Xσ(X,t,ut)|Xt)E(dW|Xt)=0이다. 또한 이미 σ대수 σ(Xt)에 대해 가측인 함수들에 대해 Xt에 의한 조건부 기댓값을 취할 필요가 없으므로J(X,t)=maxuE(f(X,t,u)dt+J(X,t)+J(X,t)Xμ(X,t,ut)dt+J(X,t)Xσ(X,t,ut)dW+J(X,t)tdt+122J(X,t)X2)σ2(X,t,u)dt+o(dt)|Xt=X)=maxu(f(X,t,ut)dt+J(X,t)+J(X,t)Xμ(X,t,ut)dt+J(X,t)tdt+122J(X,t)X2σ2(X,t,u)dt+o(dt))이고 양변에서 J(X,t)를 뺀 후 dt로 나누고 dt0이라고 하면 다음의 결과를 얻는다.


해밀턴-야코비-벨만 방정식(Hamilton-Jacobi-Bellman equation, HJB equation). 확률과정 XtdXt=μ(Xt,t,ut)dt+σ(Xt,t,ut)dWt로 주어질 때 다음의 최적화 문제maxuE(T0f(Xs,s,us)ds+B(XT,T)|Xt=x0)를 풀기 위해J(X,t)=maxuE(Ttf(Xs,s,us)ds+B(XT,T)|Xt=X)라고 하자. 이때 J는 다음의 방정식을 만족하고,Jt(Xt,t)=maxu(f(Xt,t,ut)+Jx(Xt,t)μ(Xt,t,ut)+122Jx2(Xt,t)σ2(Xt,t,ut))이 방정식의 경계조건은 J(XT,T)=B(XT,T)이다. 

*위의 필요조건이 충분조건도 된다. T=일 때 일반적으로 B=0인 조건이 주어지며, limtJ(X,t)=0이 성립하는 풀이를 요구한다. 


효용(utility)은 사람들이 재화를 소비할 때 얻는 만족이다. 또한 재화를 소비할 때 그 재화의 최종단위에 의해 얻어지는 만족감을 한계효용(marginal utility)이라고 한다. 이러한 한계효용은 일반적으로 소비되는 재화의 수량이 증가함에 따라 감소한다. 효용의 크기를 나타내는 효용함수(utility function)는 소비 비율을 c0이라고 할 때 U(c)라고 나타내겠다. 즉 아주 짧은 시간 dt동안 cdt만큼 소비랗 때 얻는 효용을 U(c)dt로 나타내겠다. 일반적으로 많이 소비할수록 만족은 커지므로 U는 증가함수이다. 

한계효용 체감의 법칙(law of diminishing marginal utility)에 의해 U는 볼록함수(convex function)이다. 

예를 들자면 상수 0<γ<1에 대해 U(c)=cγ이거나 U(c)=lnc등이다. 한계효용을 수학적으로 나타내면 U이고, 한계효용 체감의 법칙을 수학적으로 나타내면 U이다. 


위험자산(예: 주식의 가격 방정식)을 기하 브라운 운동 dS_{t}=\alpha S_{t}dt+\sigma S_{t}dW_{t}로 가정한다. 시간 t일 때 투자자의 포트폴리오의 가치가 X_{t}이고 위험 자산에 비율 u_{t}만큼 투자하고 시간 dt동안 c_{t}dt만큼 소비한다고 가정한다. 

이 포트폴리오는 자체 조달적(self-financing)이고, 외부로부터의 새로운 투자금의 유입은 없으며 처음부터 소비를 마음대로 해서 효용이 무한히 커지지만 총재산이 음이 되는 경우를 제외하기 위해 X_{t}\geq0이라는 조건을 부여한다. 따라서 투자된 위험 자산의 주식수는 \displaystyle\frac{u_{t}X_{t}}{S_{t}}이고, 주식에 투자하고 남아 무위험 자산에 투자된(은행 예금) 자금은 (1-u_{t})X_{t}이다. 시간 dt후에 증가한 재산은\begin{align*}dX_{t}&=\frac{u_{t}X_{t}}{S_{t}}dS_{t}+r(1-u_{t})X_{t}dt-c_{t}dt\\&=(\alpha u_{t}X_{t}+r(1-u_{t})X_{t}-c_{t})dt+\sigma u_{t}X_{t}dW_{t}\end{align*}이다. 첫 번째 줄의 우변의 \displaystyle\frac{u_{t}X_{t}}{S_{t}}는 총 주식가격의 상승분, 두 번째 항인 r(1-u_{t})X_{t}dt는 은행 예금에 대한 이자이다. 소비를 나타내는 항 -c_{t}dt의 계수가 음인 이유는 소비를 해서 재산이 줄기 때문이다. 

효용이 최대가 되도록 하는 적당한 u_{t}, c_{t}\geq0을 찾으면 된다. 적당한 상수 \rho>0에 대해 미래 가치를 현재 가치로 할인하기 위해 e^{-\rho t}U(c_{t})를 생각하자. 


최적 소비 전략. 기간 0\leq t\leq T 동안의 최대 효용을 다음과 같이 정의하자.\max_{u,\,c}E\left(\int_{0}^{T}{e^{-\rho u}U(c_{t})dt}\right)0<\gamma<1에 대해 U(c)=c^{\gamma}이면 최적의 전략은u_{t}=\frac{\alpha-r}{\sigma^{2}(1-\gamma)}=u^{*},\,c_{t}=\{h(t)\}^{\frac{1}{\gamma-1}}X_{t}이다. 여기서\begin{align*}h(t)&=\left(\frac{B}{A}\right)^{1-\gamma}\left(e^{\frac{1}{1-\gamma}A(T-t)}-1\right)^{1-\gamma}\\A&=r\gamma+\frac{\gamma}{2(1-\gamma)}\frac{(\alpha-r)^{2}}{\sigma^{2}}-\rho,\,B=1-\gamma\end{align*}이고 기간 0\leq t\leq T동안의 최대 효용은 \displaystyle\left(\frac{B}{A}\right)^{1-\gamma}\left(e^{\frac{1}{1-\gamma}AT}-1\right)X_{0}^{\gamma}이다. 

*

1. 투자자는 u^{*}라는 일정 비율로 재산을 위험 자산에 투자한다. 이 비율은 무위험 자산의 수익률 r을 초과하는 \alpha-r에 비례한다.

2. 주식의 가격이 평균적으로 더 많이 상승하는 경우일수록, 즉 \alpha가 커질수록, 주식에 더 많이 투자해야 한다는 것을 알 수 있다. 

3. 변동성 \sigma가 클 수록 주식에 덜 투자해야 한다.

4. 금리 r이 높을수록 주식에 덜 투자하면서 예금을 늘려야 한다.

5. 투자자는 현재 재산가치 X_{t}에 비례하여 소비한다. 


앞에서의 최적 소비 전략에서 U(c)=\ln c이면, 최적의 전략은 \displaystyle u_{t}=\frac{\alpha-r}{\sigma^{2}}, c_{t}=\rho X_{t}이고, 기간 0\leq t<\infty동안의 최대 효용은 A\ln X_{0}+B이며, A, B는 다음과 같다.\begin{align*}A&=\frac{1}{\rho}\\B&=\frac{1}{\rho}\left(\ln\rho+\frac{r}{\rho}+\frac{(\alpha-r)^{2}}{2\rho\sigma^{2}}-1\right)\end{align*}참고자료:

금융수학의 방법론, 최건호, 경문사                 

반응형
Posted by skywalker222