'이 책은 경제와 금융 분야에서 시계열 데이터를 예측하는 데 필요한 머신러닝 기법을 쉽고 체계적으로 익힐 수 있도록 구성하였다. 특히 시계열 자료의 특성을 고려한 예측 방법에 초점을 맞추었으며, 실제 데이터를 활용한 실습을 통해 독자가 이론적 이해를 넘어 실제 분석에 적용할 수 있는 능력을 기를 수 있도록 돕는다.
1부와 2부는 성균관대학교 경제학과 학부 수업 ‘머신러닝과 경제·금융 시계열 예측’과 퀀트응용경제학과 대학원 수업 ‘머신러닝과 경제예측’의 강의 내용을 바탕으로 정리하였다. 경제 및 금융 시계열 데이터를 머신러닝 기법으로 예측할 때 꼭 필요한 개념과 방법만을 선별하여, 가능한 한 쉽고 명확하게 설명하는 데 중점을 두었다. 이 책이 머신러닝을 활용한 경제·금융 시계열 예측에 관심 있는 학생, 연구자, 강사 모두에게 유용한 길잡이가 되기를 바란다.
이 책의 가장 큰 특징은 각 장마다 R과 파이썬을 활용한 실습 사례를 포함하고 있다는 점이다. 실습에서는 실제 경제 및 금융 데이터를 사용하여 예측 과정을 따라가며 학습할 수 있도록 구성하였다. 모든 실습용 코드와 데이터는 아래 웹사이트에서 내려받을 수 있다.
https://github.com/heejoonhan/Machine-Learning-and-Forecasting-Textbook
각 장에는 실습 부분이 별도로 포함되어 있으며, 코드를 실행하여 예측 결과를 도출하는 데 필요한 단계별 설명도 함께 제시한다. 독자들은 위 웹사이트에서 실습 코드를 내려받아 직접 실행해 보면서 교재의 설명을 참고하여 자연스럽게 실습 내용을 익힐 수 있다. 보다 자세한 프로그램 및 코드에 대한 설명은 뒷부분의 ‘프로그램 및 실습 코드’ 항목을 참고하면 된다.
이 책의 1부는 시계열 분석과 예측의 기초를 다루며, 총 두 개의 장으로 구성되어 있다. 1장에서는 정상성과 단위근 등 시계열 분석에 필수적인 개념과 함께, 자기회귀, 이동평균 등 기본적인 시계열 모형을 설명한다. 2장에서는 시계열 데이터를 활용한 예측절차와 예측력 평가 방법을 소개한다. 일반적인 머신러닝 교재들은 대부분 횡단면 데이터를 전제로 설명되어 있으며, 시계열 자료의 특성을 충분히 반영하지 않는 경우가 많다. 하지만, 시계열 데이터는 횡단면 데이터와 다른 고유한 특성이 있기 때문에, 이러한 특성을 무시한 채 머신러닝 기법을 그대로 적용하는 것은 바람직하지 않다. 특히 경제 및 금융 데이터는 단위근을 포함한 경우가 많은데, 이를 정상시계열로 적절히 변환하지 않고 예측에 사용하는 것은 특히 주의해야 할 사항이다. 따라서 경제·금융 시계열 예측에서 시계열의 정상성 여부를 판단하고 처리하는 과정이 매우 중요하며, 이러한 배경지식은 1부에서 다루는 내용들을 통해 반드시 이해하고 넘어가야 한다.
2부는 머신러닝과 예측을 다루는 핵심 부분으로, 3장부터 7장까지 총 다섯 개의 장으로 구성되어 있다. 머신러닝의 기초 개념부터 시작하여 실무와 학술 분야에서 널리 활용되는 주요 기법들을 소개한다. 머신러닝에서는 범주형 변수를 예측하는 분류(classification)도 중요하지만, 이 책은 경제·금융 시계열 예측에 초점을 맞추기 때문에 연속형 변수를 예측하는 회귀(regression)만을 다룬다. 3장에서는 머신러닝 및 지도학습의 기본 개념을 소개하며, 머신러닝의 작동 원리와 학습 방식에 대한 이해를 돕는다. 4장에서는 선형회귀모형과 축소추정 기법을 설명한다. 특히 변수 선택과 해석에 강점을 가지며 경제학 분야에서 널리 사용되는 라쏘 회귀를 중심으로 다룬다. 5장은 의사결정나무를 기반으로 한 모형들을 설명하며, 특히 실무에서 자주 사용되는 랜덤 포레스트와 부스팅을 중점적으로 소개한다. 6장에서는 인공신경망 기반 예측 방법을 다루며, 시계열 예측에 널리 활용되는 순환신경망과 LSTM 모형에 초점을 맞춘다. 의사결정나무 기반 모형과 인공신경망 기반 모형에 대해서는 복잡한 알고리즘 설명을 최소화하고, 직관적인 이해에 도움이 되는 핵심 개념만을 설명하고자 하였다.
7장은 앞의 1장부터 6장까지 배운 내용을 종합하여 실습하는 장이다. 인플레이션 예측을 주제로 데이터 세트구축, 예측 절차 설정, 다양한 시계열 및 머신러닝 모형을 활용한 예측, 예측력 평가 및 검정 등을 실제로 수행해 본다. 3부는 중급 시계열 분석을 다루며, 총 두 개의 장으로 구성된다. 8장에서는 여러 시계열 변수들 간의 상호작용을 분석하는 벡터자기회귀모형을 다루고, 9장에서는 ARCH와 GARCH 모형을 중심으로 시계열의 조건부 분산과 변동성을 설명한다. 이 장들에서 다루는 내용은 시계열 분석에서 이론적으로도 중요한 주제일 뿐만 아니라, 실제 경제·금융 분야에서도 매우 유용하게 활용된다. 시계열 예측에 벡터자기회귀모형이 사용되는 경우도 많고, 금융시장 변동성 예측은 금융시장 참가자들의 리스크 관리 및 포트폴리오 조정 등에 중요한 정보를 제공한다. ‘시계열 분석 및 예측’이나 ‘금융계량경제학’과 같은 수업에서는 1부와 3부, 그리고 2부의 4장(축소추정)을 함께 학습하면 바람직할 것이다.
이 책의 내용은 필자가 지난 20여 년 동안 싱가포르국립대학교, 경희대학교, 성균관대학교에서 연구하고 가르친 내용을 정리한 것이다. 책을 집필하는 데 최선을 다하였지만 부족한 부분이 있을 수 있다. 이 점은 양해를 바라며, 출간 후 나올 수 있는 수정사항 등은 자유아카데미 홈페이지(www.freeaca.com) 자료실에 제공할 예정이니 참고하기 바란다.