반응형

[금융수학] 19. 동적 계획법



최적 소비(optimal consumption)를 포함하는 투자 전략을 고려하자. 여기서 최적 소비란 최대의 효용을 얻을 수 있는 소비이고, 효용 함수를 무엇으로 결정하는가에 따라 그 답이 달라진다. 

여기서는 재산을 불려가면서 어느 정도 소비가 일어난다고 가정하고 이때의 최적의 소비 및 투자방법을 찾을 것이다. 소비를 많이 할수록 당장은 효용이 증가하나, 재투자를 하지 못해 미래에 소비할 수 있는 능력이 줄게 되면 전체 기간 동안의 총 효용이 줄게 된다. 


미래에 불확실하게 발생하는 일을 미리 알 수 없기 때문에 여러 단계에 걸쳐 그때그때 최적의 제어를 해 전체적인 최적화를 이루는 것이 동적 계획법의 기본이다. 

확률제어(stochastic control)를 통한 최적화를 위해 동적 계획법을 이용한다.


최적화 문제의 원형인 고전적인 변분법이 미래에 일어날 일이 이미 확정적일 때 최솟값 또는 최댓값을 구하려는 것에 비해 동적 계획법은 응용수학자 벨만(Bellman)에 의해 전개된 이론으로 고전역학의 해밀턴-야코비 방정식(Hamilton-Jacobi equation)의 변형이다.


이토 확률과정 \(\{X_{t}\}_{0\leq t\leq T}\)에 대해 다음의 최적화 문제를 고려하자. 여기서 \(X_{t}\)는 시간 \(t\)에서의 재산이다.$$\max_{u}E\left(\int_{0}^{T}{f(X_{t},\,t,\,u_{t})}dt+B(X_{T},\,T)\right)$$여기서 리만적분은 시간 \(t=0\)로부터 시간 \(T\)까지의 총효용을 나타내고, \(T=\infty\)일 수도 있다. \(B(X_{T},\,T)\)는 시간 \(T\)까지 소비하고 남은 재산 \(X_{T}\)에 의한 효용, 기댓값은 모든 상황에 대한 평균이다. 

이 문제의 제약조건은 이토과정 \(dX_{t}=\mu(X_{t},\,t,\,u_{t})dt+\sigma(X_{t},\,t,\,u_{t})dW_{t}\)와 출발시점의 재산 \(X_{0}=x_{0}\)이다. 

여기서의 확률과정 \(u_{t}\)는 제어변수(control variable), 즉 시간 \(t\)에서의 정보 \(X_{t}\)를 토대로 결정한 \(u_{t}\)로서 최적의 제어를 하게 된다. 보통 \(u_{t}\)는 적당한 함수 \(g(x,\,t)\)에 대해 \(u_{t}=g(X_{t},\,t)\)의 형태를 갖는다. 

최적 제어 문제에서 가능한 모든 \(u\)에 대해 최소상계는 존재하지만 최댓값이 존재하지 않을 수 있다. 여기서는 최소상계를 얻도록 하는 \(u\)가 존재하고, 따라서 최소상계 되신 최댓값이라고 나타내겠다.


다음은 해밀턴-야코비-벨만 방정식을 간략히 유도하는 과정이다. 


임의의 \(0\leq t\leq T\)에 대해$$J(X,\,t)=\max_{u}E\left(\int{0}^{T}{f(X_{s},\,s,\,u_{s})ds}+B(X_{T},\,T)|X_{t}=X\right)$$라고 하자. 이것은 시간 \(t\)로부터 시간 \(T\)까지 \(X_{t}=X\)라는 조건 아래에서의 총효용과 시간 \(T\)에서의 잔여 가치 \(B(X_{T},\,T)\)의 합을 나타냅니다. 정의에 의해 \(J(X,\,T)=B(X,\,T)\)이고, \(t=0\)일 때 조건부 기댓값은 상수함수 \(X_{0}=x_{0}\)에 의해 조건지어지므로 상수이고, 보통의 기댓값이 된다. 즉$$\begin{align*} J(x_{0},\,0)&=\max_{u}E\left(\int_{0}^{T}{f(X_{s},\,s,\,u_{s})ds}+B(X_{T},\,T)|X_{0}=x_{0}\right)\\&=\max_{u}E\left(\int_{0}^{T}{f(X_{s},\,s,\,u_{s})ds}+B(X_{T},\,T)\right)\end{align*}$$이다. 

이 최적화 문제의 답이 존재하고, 주어진 함수들이 충분히 매끄러워 미분가능하다는 가정 하에서 간단한 설명으로 해결하자.

전체 구간에 걸친 최적화 문제의 풀이는 부분구간들로 나누었을 때에도 각 구간에서도 최적이어야 한다. 즉$$J(X,\,t)=\max_{u}E\left(\int_{t}^{t+dt}{f(X_{s},\,s,\,u_{s})ds}+J(X+dX,\,t+dt)|X_{t}=X\right)$$을 얻는다. \(X+dX\)는 시간 \(t\)에서의 값 \(X_{t}=X\)가 주어졌다는 조건 하에서 시간 \(t+dt\)에서의 값 \(X_{t+dt}\)를 나타내는데 이것은 이토 과정 식에 의해 주어지고, 적분은 다음과 같이 근사되며$$\int_{t}^{t+dt}{f(X_{s},\,s,\,u_{s})ds}\approx f(X_{t},\,t,\,u_{t})dt$$이토 과정으로부터$$dXdX=\sigma^{2}dt,\,dXdt=o(dt),\,dtdt=o(dt)$$이고 이토 공식을 이용한 테일러 전개에 의해 다음의 식을 얻는다.$$\begin{align*}&J(X+dX,\,t+dt)\\&=J(X,\,t)+\frac{\partial J(X,\,t)}{\partial X}dX+\frac{\partial J(X,\,t)}{\partial t}dt+\frac{1}{2}\frac{\partial^{2}J(X,\,t)}{\partial X^{2}}\sigma^{2}(X,\,t,\,u_{t})dt+o(dt)\\&=J(X,\,t)+\frac{\partial J(X,\,t)}{\partial X}\mu(X,\,t,\,u)dt+\frac{\partial J(X,\,t)}{\partial X}\sigma(X,\,t,\,u_{t})dW+\frac{\partial J(X,\,t)}{\partial t}dt+\frac{1}{2}\frac{\partial^{2}J(X,\,t)}{\partial X^{2}}\sigma^{2}(X,\,t,\,u)dt+o(dt)\end{align*}$$시간 \(t\)에서 브라운 운동의 증분의 조건부 기댓값은 0이므로$$\begin{align*}&E\left(\frac{\partial J(X,\,t)}{\partial X}\sigma(X,\,t,\,u_{t})dW|X_{t}\right)\\&=E\left(\frac{\partial J(X,\,t)}{\partial X}\sigma(X,\,t,\,u_{t})|X_{t}\right)E(dW|X_{t})\\&=0\end{align*}$$이다. 또한 이미 \(\sigma-\)대수 \(\sigma(X_{t})\)에 대해 가측인 함수들에 대해 \(X_{t}\)에 의한 조건부 기댓값을 취할 필요가 없으므로$$\begin{align*}&J(X,\,t)\\&=\max_{u}E(f(X,\,t,\,u)dt+J(X,\,t)+\frac{\partial J(X,\,t)}{\partial X}\mu(X,\,t,\,u_{t})dt+\frac{\partial J(X,\,t)}{\partial X}\sigma(X,\,t,\,u_{t})dW+\frac{\partial J(X,\,t)}{\partial t}dt\\&+\frac{1}{2}\frac{\partial^{2}J(X,\,t)}{\partial X^{2}})\sigma^{2}(X,\,t,\,u)dt+o(dt)|X_{t}=X)\\&=\max_{u}(f(X,\,t,\,u_{t})dt+J(X,\,t)+\frac{\partial J(X,\,t)}{\partial X}\mu(X,\,t,\,u_{t})dt\\&+\frac{\partial J(X,\,t)}{\partial t}dt+\frac{1}{2}\frac{\partial^{2}J(X,\,t)}{\partial X^{2}}\sigma^{2}(X,\,t,\,u)dt+o(dt))\end{align*}$$이고 양변에서 \(J(X,\,t)\)를 뺀 후 \(dt\)로 나누고 \(dt\,\rightarrow\,0\)이라고 하면 다음의 결과를 얻는다.


해밀턴-야코비-벨만 방정식(Hamilton-Jacobi-Bellman equation, HJB equation). 확률과정 \(X_{t}\)가 \(dX_{t}=\mu(X_{t},\,t,\,u_{t})dt+\sigma(X_{t},\,t,\,u_{t})dW_{t}\)로 주어질 때 다음의 최적화 문제$$\max_{u}E\left(\int_{0}^{T}{f(X_{s},\,s,\,u_{s})ds}+B(X_{T},\,T)|X_{t}=x_{0}\right)$$를 풀기 위해$$J(X,\,t)=\max_{u}E\left(\int_{t}^{T}{f(X_{s},\,s,\,u_{s})ds}+B(X_{T},\,T)|X_{t}=X\right)$$라고 하자. 이때 \(J\)는 다음의 방정식을 만족하고,$$-\frac{\partial J}{\partial t}(X_{t},\,t)=\max_{u}\left(f(X_{t},\,t,\,u_{t})+\frac{\partial J}{\partial x}(X_{t},\,t)\mu(X_{t},\,t,\,u_{t})+\frac{1}{2}\frac{\partial^{2}J}{\partial x^{2}}(X_{t},\,t)\sigma^{2}(X_{t},\,t,\,u_{t})\right)$$이 방정식의 경계조건은 \(J(X_{T},\,T)=B(X_{T},\,T)\)이다. 

*위의 필요조건이 충분조건도 된다. \(T=\infty\)일 때 일반적으로 \(B=0\)인 조건이 주어지며, \(\displaystyle\lim_{t\,\rightarrow\,\infty}{J(X,\,t)}=0\)이 성립하는 풀이를 요구한다. 


효용(utility)은 사람들이 재화를 소비할 때 얻는 만족이다. 또한 재화를 소비할 때 그 재화의 최종단위에 의해 얻어지는 만족감을 한계효용(marginal utility)이라고 한다. 이러한 한계효용은 일반적으로 소비되는 재화의 수량이 증가함에 따라 감소한다. 효용의 크기를 나타내는 효용함수(utility function)는 소비 비율을 \(c\geq0\)이라고 할 때 \(U(c)\)라고 나타내겠다. 즉 아주 짧은 시간 \(dt\)동안 \(cdt\)만큼 소비랗 때 얻는 효용을 \(U(c)dt\)로 나타내겠다. 일반적으로 많이 소비할수록 만족은 커지므로 \(U\)는 증가함수이다. 

한계효용 체감의 법칙(law of diminishing marginal utility)에 의해 \(U\)는 볼록함수(convex function)이다. 

예를 들자면 상수 \(0<\gamma<1\)에 대해 \(U(c)=c^{\gamma}\)이거나 \(U(c)=\ln c\)등이다. 한계효용을 수학적으로 나타내면 \(U'\)이고, 한계효용 체감의 법칙을 수학적으로 나타내면 \(U''<0\)이다. 


위험자산(예: 주식의 가격 방정식)을 기하 브라운 운동 \(dS_{t}=\alpha S_{t}dt+\sigma S_{t}dW_{t}\)로 가정한다. 시간 \(t\)일 때 투자자의 포트폴리오의 가치가 \(X_{t}\)이고 위험 자산에 비율 \(u_{t}\)만큼 투자하고 시간 \(dt\)동안 \(c_{t}dt\)만큼 소비한다고 가정한다. 

이 포트폴리오는 자체 조달적(self-financing)이고, 외부로부터의 새로운 투자금의 유입은 없으며 처음부터 소비를 마음대로 해서 효용이 무한히 커지지만 총재산이 음이 되는 경우를 제외하기 위해 \(X_{t}\geq0\)이라는 조건을 부여한다. 따라서 투자된 위험 자산의 주식수는 \(\displaystyle\frac{u_{t}X_{t}}{S_{t}}\)이고, 주식에 투자하고 남아 무위험 자산에 투자된(은행 예금) 자금은 \((1-u_{t})X_{t}\)이다. 시간 \(dt\)후에 증가한 재산은$$\begin{align*}dX_{t}&=\frac{u_{t}X_{t}}{S_{t}}dS_{t}+r(1-u_{t})X_{t}dt-c_{t}dt\\&=(\alpha u_{t}X_{t}+r(1-u_{t})X_{t}-c_{t})dt+\sigma u_{t}X_{t}dW_{t}\end{align*}$$이다. 첫 번째 줄의 우변의 \(\displaystyle\frac{u_{t}X_{t}}{S_{t}}\)는 총 주식가격의 상승분, 두 번째 항인 \(r(1-u_{t})X_{t}dt\)는 은행 예금에 대한 이자이다. 소비를 나타내는 항 \(-c_{t}dt\)의 계수가 음인 이유는 소비를 해서 재산이 줄기 때문이다. 

효용이 최대가 되도록 하는 적당한 \(u_{t}\), \(c_{t}\geq0\)을 찾으면 된다. 적당한 상수 \(\rho>0\)에 대해 미래 가치를 현재 가치로 할인하기 위해 \(e^{-\rho t}U(c_{t})\)를 생각하자. 


최적 소비 전략. 기간 \(0\leq t\leq T\) 동안의 최대 효용을 다음과 같이 정의하자.$$\max_{u,\,c}E\left(\int_{0}^{T}{e^{-\rho u}U(c_{t})dt}\right)$$\(0<\gamma<1\)에 대해 \(U(c)=c^{\gamma}\)이면 최적의 전략은$$u_{t}=\frac{\alpha-r}{\sigma^{2}(1-\gamma)}=u^{*},\,c_{t}=\{h(t)\}^{\frac{1}{\gamma-1}}X_{t}$$이다. 여기서$$\begin{align*}h(t)&=\left(\frac{B}{A}\right)^{1-\gamma}\left(e^{\frac{1}{1-\gamma}A(T-t)}-1\right)^{1-\gamma}\\A&=r\gamma+\frac{\gamma}{2(1-\gamma)}\frac{(\alpha-r)^{2}}{\sigma^{2}}-\rho,\,B=1-\gamma\end{align*}$$이고 기간 \(0\leq t\leq T\)동안의 최대 효용은 \(\displaystyle\left(\frac{B}{A}\right)^{1-\gamma}\left(e^{\frac{1}{1-\gamma}AT}-1\right)X_{0}^{\gamma}\)이다. 

*

1. 투자자는 \(u^{*}\)라는 일정 비율로 재산을 위험 자산에 투자한다. 이 비율은 무위험 자산의 수익률 \(r\)을 초과하는 \(\alpha-r\)에 비례한다.

2. 주식의 가격이 평균적으로 더 많이 상승하는 경우일수록, 즉 \(\alpha\)가 커질수록, 주식에 더 많이 투자해야 한다는 것을 알 수 있다. 

3. 변동성 \(\sigma\)가 클 수록 주식에 덜 투자해야 한다.

4. 금리 \(r\)이 높을수록 주식에 덜 투자하면서 예금을 늘려야 한다.

5. 투자자는 현재 재산가치 \(X_{t}\)에 비례하여 소비한다. 


앞에서의 최적 소비 전략에서 \(U(c)=\ln c\)이면, 최적의 전략은 \(\displaystyle u_{t}=\frac{\alpha-r}{\sigma^{2}}\), \(c_{t}=\rho X_{t}\)이고, 기간 \(0\leq t<\infty\)동안의 최대 효용은 \(A\ln X_{0}+B\)이며, \(A\), \(B\)는 다음과 같다.$$\begin{align*}A&=\frac{1}{\rho}\\B&=\frac{1}{\rho}\left(\ln\rho+\frac{r}{\rho}+\frac{(\alpha-r)^{2}}{2\rho\sigma^{2}}-1\right)\end{align*}$$참고자료:

금융수학의 방법론, 최건호, 경문사                 

반응형
Posted by skywalker222