[금융수학] 19. 동적 계획법

확률및통계/금융수학2020. 9. 7. 08:00

[금융수학] 19. 동적 계획법

최적 소비(optimal consumption)를 포함하는 투자 전략을 고려하자. 여기서 최적 소비란 최대의 효용을 얻을 수 있는 소비이고, 효용 함수를 무엇으로 결정하는가에 따라 그 답이 달라진다.

여기서는 재산을 불려가면서 어느 정도 소비가 일어난다고 가정하고 이때의 최적의 소비 및 투자방법을 찾을 것이다. 소비를 많이 할수록 당장은 효용이 증가하나, 재투자를 하지 못해 미래에 소비할 수 있는 능력이 줄게 되면 전체 기간 동안의 총 효용이 줄게 된다.

미래에 불확실하게 발생하는 일을 미리 알 수 없기 때문에 여러 단계에 걸쳐 그때그때 최적의 제어를 해 전체적인 최적화를 이루는 것이 동적 계획법의 기본이다.

확률제어(stochastic control)를 통한 최적화를 위해 동적 계획법을 이용한다.

최적화 문제의 원형인 고전적인 변분법이 미래에 일어날 일이 이미 확정적일 때 최솟값 또는 최댓값을 구하려는 것에 비해 동적 계획법은 응용수학자 벨만(Bellman)에 의해 전개된 이론으로 고전역학의 해밀턴-야코비 방정식(Hamilton-Jacobi equation)의 변형이다.

이토 확률과정 $\{X_{t}\}_{0\leq t\leq T}$에 대해 다음의 최적화 문제를 고려하자. 여기서 $X_{t}$는 시간 $t$에서의 재산이다.$$\max_{u}E\left(\int_{0}^{T}{f(X_{t},\,t,\,u_{t})}dt+B(X_{T},\,T)\right)$$여기서 리만적분은 시간 $t=0$로부터 시간 $T$까지의 총효용을 나타내고, $T=\infty$일 수도 있다. $B(X_{T},\,T)$는 시간 $T$까지 소비하고 남은 재산 $X_{T}$에 의한 효용, 기댓값은 모든 상황에 대한 평균이다.

이 문제의 제약조건은 이토과정 $dX_{t}=\mu(X_{t},\,t,\,u_{t})dt+\sigma(X_{t},\,t,\,u_{t})dW_{t}$와 출발시점의 재산 $X_{0}=x_{0}$이다.

여기서의 확률과정 $u_{t}$는 제어변수(control variable), 즉 시간 $t$에서의 정보 $X_{t}$를 토대로 결정한 $u_{t}$로서 최적의 제어를 하게 된다. 보통 $u_{t}$는 적당한 함수 $g(x,\,t)$에 대해 $u_{t}=g(X_{t},\,t)$의 형태를 갖는다.

최적 제어 문제에서 가능한 모든 $u$에 대해 최소상계는 존재하지만 최댓값이 존재하지 않을 수 있다. 여기서는 최소상계를 얻도록 하는 $u$가 존재하고, 따라서 최소상계 되신 최댓값이라고 나타내겠다.

다음은 해밀턴-야코비-벨만 방정식을 간략히 유도하는 과정이다.

임의의 $0\leq t\leq T$에 대해$$J(X,\,t)=\max_{u}E\left(\int{0}^{T}{f(X_{s},\,s,\,u_{s})ds}+B(X_{T},\,T)|X_{t}=X\right)$$라고 하자. 이것은 시간 $t$로부터 시간 $T$까지 $X_{t}=X$라는 조건 아래에서의 총효용과 시간 $T$에서의 잔여 가치 $B(X_{T},\,T)$의 합을 나타냅니다. 정의에 의해 $J(X,\,T)=B(X,\,T)$이고, $t=0$일 때 조건부 기댓값은 상수함수 $X_{0}=x_{0}$에 의해 조건지어지므로 상수이고, 보통의 기댓값이 된다. 즉$$\begin{align*} J(x_{0},\,0)&=\max_{u}E\left(\int_{0}^{T}{f(X_{s},\,s,\,u_{s})ds}+B(X_{T},\,T)|X_{0}=x_{0}\right)\\&=\max_{u}E\left(\int_{0}^{T}{f(X_{s},\,s,\,u_{s})ds}+B(X_{T},\,T)\right)\end{align*}$$이다.

이 최적화 문제의 답이 존재하고, 주어진 함수들이 충분히 매끄러워 미분가능하다는 가정 하에서 간단한 설명으로 해결하자.

전체 구간에 걸친 최적화 문제의 풀이는 부분구간들로 나누었을 때에도 각 구간에서도 최적이어야 한다. 즉$$J(X,\,t)=\max_{u}E\left(\int_{t}^{t+dt}{f(X_{s},\,s,\,u_{s})ds}+J(X+dX,\,t+dt)|X_{t}=X\right)$$을 얻는다. $X+dX$는 시간 $t$에서의 값 $X_{t}=X$가 주어졌다는 조건 하에서 시간 $t+dt$에서의 값 $X_{t+dt}$를 나타내는데 이것은 이토 과정 식에 의해 주어지고, 적분은 다음과 같이 근사되며$$\int_{t}^{t+dt}{f(X_{s},\,s,\,u_{s})ds}\approx f(X_{t},\,t,\,u_{t})dt$$이토 과정으로부터$$dXdX=\sigma^{2}dt,\,dXdt=o(dt),\,dtdt=o(dt)$$이고 이토 공식을 이용한 테일러 전개에 의해 다음의 식을 얻는다.$$\begin{align*}&J(X+dX,\,t+dt)\\&=J(X,\,t)+\frac{\partial J(X,\,t)}{\partial X}dX+\frac{\partial J(X,\,t)}{\partial t}dt+\frac{1}{2}\frac{\partial^{2}J(X,\,t)}{\partial X^{2}}\sigma^{2}(X,\,t,\,u_{t})dt+o(dt)\\&=J(X,\,t)+\frac{\partial J(X,\,t)}{\partial X}\mu(X,\,t,\,u)dt+\frac{\partial J(X,\,t)}{\partial X}\sigma(X,\,t,\,u_{t})dW+\frac{\partial J(X,\,t)}{\partial t}dt+\frac{1}{2}\frac{\partial^{2}J(X,\,t)}{\partial X^{2}}\sigma^{2}(X,\,t,\,u)dt+o(dt)\end{align*}$$시간 $t$에서 브라운 운동의 증분의 조건부 기댓값은 0이므로$$\begin{align*}&E\left(\frac{\partial J(X,\,t)}{\partial X}\sigma(X,\,t,\,u_{t})dW|X_{t}\right)\\&=E\left(\frac{\partial J(X,\,t)}{\partial X}\sigma(X,\,t,\,u_{t})|X_{t}\right)E(dW|X_{t})\\&=0\end{align*}$$이다. 또한 이미 $\sigma-$대수 $\sigma(X_{t})$에 대해 가측인 함수들에 대해 $X_{t}$에 의한 조건부 기댓값을 취할 필요가 없으므로$$\begin{align*}&J(X,\,t)\\&=\max_{u}E(f(X,\,t,\,u)dt+J(X,\,t)+\frac{\partial J(X,\,t)}{\partial X}\mu(X,\,t,\,u_{t})dt+\frac{\partial J(X,\,t)}{\partial X}\sigma(X,\,t,\,u_{t})dW+\frac{\partial J(X,\,t)}{\partial t}dt\\&+\frac{1}{2}\frac{\partial^{2}J(X,\,t)}{\partial X^{2}})\sigma^{2}(X,\,t,\,u)dt+o(dt)|X_{t}=X)\\&=\max_{u}(f(X,\,t,\,u_{t})dt+J(X,\,t)+\frac{\partial J(X,\,t)}{\partial X}\mu(X,\,t,\,u_{t})dt\\&+\frac{\partial J(X,\,t)}{\partial t}dt+\frac{1}{2}\frac{\partial^{2}J(X,\,t)}{\partial X^{2}}\sigma^{2}(X,\,t,\,u)dt+o(dt))\end{align*}$$이고 양변에서 $J(X,\,t)$를 뺀 후 $dt$로 나누고 $dt\,\rightarrow\,0$이라고 하면 다음의 결과를 얻는다.

해밀턴-야코비-벨만 방정식(Hamilton-Jacobi-Bellman equation, HJB equation). 확률과정 $X_{t}$가 $dX_{t}=\mu(X_{t},\,t,\,u_{t})dt+\sigma(X_{t},\,t,\,u_{t})dW_{t}$로 주어질 때 다음의 최적화 문제$$\max_{u}E\left(\int_{0}^{T}{f(X_{s},\,s,\,u_{s})ds}+B(X_{T},\,T)|X_{t}=x_{0}\right)$$를 풀기 위해$$J(X,\,t)=\max_{u}E\left(\int_{t}^{T}{f(X_{s},\,s,\,u_{s})ds}+B(X_{T},\,T)|X_{t}=X\right)$$라고 하자. 이때 $J$는 다음의 방정식을 만족하고,$$-\frac{\partial J}{\partial t}(X_{t},\,t)=\max_{u}\left(f(X_{t},\,t,\,u_{t})+\frac{\partial J}{\partial x}(X_{t},\,t)\mu(X_{t},\,t,\,u_{t})+\frac{1}{2}\frac{\partial^{2}J}{\partial x^{2}}(X_{t},\,t)\sigma^{2}(X_{t},\,t,\,u_{t})\right)$$이 방정식의 경계조건은 $J(X_{T},\,T)=B(X_{T},\,T)$이다.

*위의 필요조건이 충분조건도 된다. $T=\infty$일 때 일반적으로 $B=0$인 조건이 주어지며, $\displaystyle\lim_{t\,\rightarrow\,\infty}{J(X,\,t)}=0$이 성립하는 풀이를 요구한다.

효용(utility)은 사람들이 재화를 소비할 때 얻는 만족이다. 또한 재화를 소비할 때 그 재화의 최종단위에 의해 얻어지는 만족감을 한계효용(marginal utility)이라고 한다. 이러한 한계효용은 일반적으로 소비되는 재화의 수량이 증가함에 따라 감소한다. 효용의 크기를 나타내는 효용함수(utility function)는 소비 비율을 $c\geq0$이라고 할 때 $U(c)$라고 나타내겠다. 즉 아주 짧은 시간 $dt$동안 $cdt$만큼 소비랗 때 얻는 효용을 $U(c)dt$로 나타내겠다. 일반적으로 많이 소비할수록 만족은 커지므로 $U$는 증가함수이다.

한계효용 체감의 법칙(law of diminishing marginal utility)에 의해 $U$는 볼록함수(convex function)이다.

예를 들자면 상수 $0<\gamma<1$에 대해 $U(c)=c^{\gamma}$이거나 $U(c)=\ln c$등이다. 한계효용을 수학적으로 나타내면 $U'$이고, 한계효용 체감의 법칙을 수학적으로 나타내면 $U''<0$이다.

위험자산(예: 주식의 가격 방정식)을 기하 브라운 운동 $dS_{t}=\alpha S_{t}dt+\sigma S_{t}dW_{t}$로 가정한다. 시간 $t$일 때 투자자의 포트폴리오의 가치가 $X_{t}$이고 위험 자산에 비율 $u_{t}$만큼 투자하고 시간 $dt$동안 $c_{t}dt$만큼 소비한다고 가정한다.

이 포트폴리오는 자체 조달적(self-financing)이고, 외부로부터의 새로운 투자금의 유입은 없으며 처음부터 소비를 마음대로 해서 효용이 무한히 커지지만 총재산이 음이 되는 경우를 제외하기 위해 $X_{t}\geq0$이라는 조건을 부여한다. 따라서 투자된 위험 자산의 주식수는 $\displaystyle\frac{u_{t}X_{t}}{S_{t}}$이고, 주식에 투자하고 남아 무위험 자산에 투자된(은행 예금) 자금은 $(1-u_{t})X_{t}$이다. 시간 $dt$후에 증가한 재산은$$\begin{align*}dX_{t}&=\frac{u_{t}X_{t}}{S_{t}}dS_{t}+r(1-u_{t})X_{t}dt-c_{t}dt\\&=(\alpha u_{t}X_{t}+r(1-u_{t})X_{t}-c_{t})dt+\sigma u_{t}X_{t}dW_{t}\end{align*}$$이다. 첫 번째 줄의 우변의 $\displaystyle\frac{u_{t}X_{t}}{S_{t}}$는 총 주식가격의 상승분, 두 번째 항인 $r(1-u_{t})X_{t}dt$는 은행 예금에 대한 이자이다. 소비를 나타내는 항 $-c_{t}dt$의 계수가 음인 이유는 소비를 해서 재산이 줄기 때문이다.

효용이 최대가 되도록 하는 적당한 $u_{t}$, $c_{t}\geq0$을 찾으면 된다. 적당한 상수 $\rho>0$에 대해 미래 가치를 현재 가치로 할인하기 위해 $e^{-\rho t}U(c_{t})$를 생각하자.

최적 소비 전략. 기간 $0\leq t\leq T$ 동안의 최대 효용을 다음과 같이 정의하자.$$\max_{u,\,c}E\left(\int_{0}^{T}{e^{-\rho u}U(c_{t})dt}\right)$$$0<\gamma<1$에 대해 $U(c)=c^{\gamma}$이면 최적의 전략은$$u_{t}=\frac{\alpha-r}{\sigma^{2}(1-\gamma)}=u^{*},\,c_{t}=\{h(t)\}^{\frac{1}{\gamma-1}}X_{t}$$이다. 여기서$$\begin{align*}h(t)&=\left(\frac{B}{A}\right)^{1-\gamma}\left(e^{\frac{1}{1-\gamma}A(T-t)}-1\right)^{1-\gamma}\\A&=r\gamma+\frac{\gamma}{2(1-\gamma)}\frac{(\alpha-r)^{2}}{\sigma^{2}}-\rho,\,B=1-\gamma\end{align*}$$이고 기간 $0\leq t\leq T$동안의 최대 효용은 $\displaystyle\left(\frac{B}{A}\right)^{1-\gamma}\left(e^{\frac{1}{1-\gamma}AT}-1\right)X_{0}^{\gamma}$이다.

1. 투자자는 $u^{*}$라는 일정 비율로 재산을 위험 자산에 투자한다. 이 비율은 무위험 자산의 수익률 $r$을 초과하는 $\alpha-r$에 비례한다.

2. 주식의 가격이 평균적으로 더 많이 상승하는 경우일수록, 즉 $\alpha$가 커질수록, 주식에 더 많이 투자해야 한다는 것을 알 수 있다.

3. 변동성 $\sigma$가 클 수록 주식에 덜 투자해야 한다.

4. 금리 $r$이 높을수록 주식에 덜 투자하면서 예금을 늘려야 한다.

5. 투자자는 현재 재산가치 $X_{t}$에 비례하여 소비한다.

앞에서의 최적 소비 전략에서 $U(c)=\ln c$이면, 최적의 전략은 $\displaystyle u_{t}=\frac{\alpha-r}{\sigma^{2}}$, $c_{t}=\rho X_{t}$이고, 기간 $0\leq t<\infty$동안의 최대 효용은 $A\ln X_{0}+B$이며, $A$, $B$는 다음과 같다.$$\begin{align*}A&=\frac{1}{\rho}\\B&=\frac{1}{\rho}\left(\ln\rho+\frac{r}{\rho}+\frac{(\alpha-r)^{2}}{2\rho\sigma^{2}}-1\right)\end{align*}$$참고자료:

금융수학의 방법론, 최건호, 경문사

저작자표시 비영리 동일조건 (새창열림)

'확률및통계 > 금융수학' 카테고리의 다른 글

[금융수학] 18. 마팅게일 방법의 적용사례 (0)	2020.09.06
[금융수학] 17. 마팅게일 방법, 델타헤징 (0)	2020.09.05
[금융수학] 16. 블랙-숄즈 방정식, 그리스문자 (0)	2020.09.04
[금융수학] 15. 풋-콜 패리티, 이항나무방법 (0)	2020.09.03
[금융수학] 14. 마팅게일 표현정리, 파인만-칵 공식, 콜모고로프 방정식 (0)	2020.09.02

Posted by skywalker222

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

지식저장고(Knowledge Storage)