안녕하세요. 카카오뱅크 기술기획팀 William입니다. 저는 머신러닝을 이용한 데이터 분석, 그중에서도 인공지능 기술을 금융시장분석에 적용하는 분야에 관심을 갖고 있습니다.
지난 2022년 11월, OpenAI에서 모두의 예상을 뛰어넘는 성능을 갖춘 ChatGPT를 공개하면서 정말 많은 사람들이 대규모 언어모델(Large Language Model, 이하 LLM)에 관심을 갖게 되었고, 이를 다양한 분야에서 활용하려는 시도가 나타났습니다. 저 또한 ChatGPT의 놀라운 성능에 감명을 받았던 터라, 금융분야에서도 LLM 활용과 관심이 더욱 많아지기를 바라고 있습니다. 이런 바람의 일환으로, 이번 글에서는 ‘ChatGPT로 신문기사를 분석하면 주식시장에서 높은 투자수익을 얻을 수 있다‘는 주제를 연구한 논문을 소개해 드리고자 합니다.
주식시장과 자산가격결정이론의 역사
‘주식시장의 미래가격 예측’이라는 주제는 오랜 기간 동안 수많은 사람들의 관심을 받아 왔습니다. 왜냐하면, 자본주의 사회를 살아가는 대부분의 사람들은 다양한 경제활동을 통해 자신의 재산을 최대한 증대시키기를 희망하는데, 만약 주식의 미래가격을 예측할 수 있다면 확실한 투자수익을 얻을 수 있으므로, 보다 수월하게 개인의 재산 증식이 가능하기 때문입니다.
주식시장의 역사는 매우 오래되었습니다. 주식의 시작은 17세기 네덜란드의 동인도 주식회사가 인도와 무역을 위한 무역선의 사업 자금 조달을 위해 다수의 투자자들을 모집하고자 주식을 공개적으로 발행한 시점으로 볼 수 있습니다. 그렇게 발행된 주식들을 1720년 암스테르담에 설립된 최초의 증권거래소에서 사고팔 수 있었습니다.
주식을 거래할 수 있는 시장이 탄생하고 발전함에 따라 주식매매수익을 얻기 위해 미래의 가격을 예측하기 위한 시도들도 계속해서 진화해왔습니다. 1900년대 초반부터 1950년 까지는 ‘자산가격예측 연구‘가 경제학의 한 분야 정도로 인식되었는데요. 1945년 2차 세계대전 종전 이후 미국 기업들이 대형화되면서 주식시장의 규모가 급격히 커지고, 1952년 현대적 재무이론의 시초인 해리 마코위츠의 ‘포트폴리오 이론’이 등장하면서 ‘자산가격결정이론(Asset Pricing Theory)‘이 주요 학문분야로 자리 잡게 되었습니다.
AI를 이용한 자산가격예측 연구
최근에는 인공지능을 활용한 자산가격 연구들이 급증하고 있습니다. 특히 OpenAI사의 ChatGPT 등장 이후에는 ChatGPT 또는 ChatGPT를 구현한 알고리즘인 Transformer를 이용해서 주식, 채권, 비트코인 등의 자산 가격 움직임을 예측하려는 연구들이 새롭게 부상하고 있습니다.
예를 들면, Padhi는 그의 논문에서 TabBERT와 TabGPT라는 모형을 소개합니다.1 GPT모형이 앞서 등장한 문맥을 통해 이후의 단어들을 예측하는 방식으로 작동하는 것처럼, TabGPT도 과거 거래내역을 이용해서 미래의 가격을 예측하는 방식으로 동작합니다.
또 다른 연구로, Wang은 주식시장의 비선형적인 움직임을 포착하는 데에 초점을 맞추었습니다.2 과거에는 주식시장의 비선형적 특징을 포착하기 위해 CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 등을 사용하여 시장지수 예측에서 높은 성능을 얻을 수 있었는데요. 이 논문에서는 ‘Transformer의 인코더-디코더 아키텍처’와 ‘Multi-head attention 메커니즘’을 사용하여, Transformer 알고리즘이 전 세계 주요 주식시장(CSI 300, S&P 500, Hang Seng Index 및 Nikkei 225 등)의 시장 역학(Market dynamics)을 포착하는데 보다 우수한 성능을 낼 수 있음을 확인하였습니다.
ChatGPT를 이용한 주식시장예측 연구
도입부에서 말씀드린 것처럼, ChatGPT를 뉴스 분석에 활용하여 주가를 예측하는 방법의 효과성을 검증한 논문을 본격적으로 소개해드리겠습니다. 이 연구는 Lopez-Lira와 Tang이 2023년에 공개한 연구로서, ChatGPT를 이용한 뉴스기사 감성분석 결과를 주가예측에 적용한 최초의 연구라는 점에서 현재 상당히 많은 주목을 받고 있습니다.3
이 연구에서는 ChatGPT 등 선도적인 LLM들을 이용하여 어떤 회사에 관한 뉴스의 헤드라인이 그 회사 주가에 ‘긍정적인지’, ‘부정적인지’, ‘중립적인지’로 분류한 후, 이 분류 결과들이 다음날의 주식 수익률에 유의미한 영향을 미친다는 것을 확인했습니다. 반면에, GPT-1, GPT-2, BERT 같은 기초적인 언어모형들은 다음날의 주식 수익률을 예측하지 못하는 것으로 나타났습니다.
사실, 통계 또는 머신러닝 기반의 기존 모형들은 과거의 데이터가 미래의 가격에 미치는 영향을 데이터로 ‘직접 학습’합니다. 따라서 이들 모형이 설명력을 가지는 것은 자연스러운 결과라고 볼 수 있습니다. 반면, 최신 LLM은 ‘미래 수익률을 예측하도록 명시적으로 훈련받은 모형’이 아님에도 불구하고, 뉴스의 미묘한 언어를 이해하여 주가에 대한 영향을 판단할 수 있었는데요. 이러한 결과가 흥미로운 이유는, 최신 LLM들이 사전에 방대한 양의 문서를 학습함으로써 뉴스가 미래 주식 가격에 미치는 영향을 추론할 수 있는 능력을 갖게 되었다는 것을 의미하기 때문입니다.
1. 분석 데이터
먼저 해당 연구에서 사용한 분석 데이터를 간략히 설명드리겠습니다. 이 연구에서는 미국의 유명한 금융데이터 제공 기관인 CRSP(Center for Research in Security Prices) 데이터베이스를 이용하여 미국 주식들의 일별 수익률을 구하고, 주식과 관련된 뉴스들을 스크래핑 방식으로 수집합니다. 그리고, ChatGPT를 사용하여 각 뉴스의 헤드라인이 기업의 주가에 긍정적인지, 부정적인지, 또는 중립적인지를 평가합니다.
평가결과는 숫자 점수(1, -1, 0)로 변환한 후, 다음 거래일의 주가 수익률을 예측하는 데 사용합니다. 참고로, ChatGPT 3.5 모형의 훈련을 위해서 사용된 학습데이터의 마지막 시점은 2021년 9월이기 때문에, 해당 연구에서는 ChatGPT 학습기간에 포함되지 않은 2021년 10월부터 2022년 12월까지의 금융 및 뉴스 데이터를 사용합니다.
아래에 위치한 [표 1]은 이렇게 수집한 샘플 데이터의 기초 통계량을 보여줍니다. 이 중에서 “GPT Score”는 기사 헤드라인에 대한 ChatGPT 3.5의 분류가 긍정적(1), 중립적(0), 부정적(-1)으로 기록된 데이터인데요. 평균(Mean)과 중위값(Median)이 각각 0.24와 0이므로 긍정적으로 분류된 뉴스 헤드라인이 조금 더 많다는 것을 알 수 있습니다. 여기서 “Event Sentiment Score”는 뉴스 제공업체가 분류한 값으로서, Panel A의 통계적 특성으로는 GPT Score와 전반적으로 유사한 반면, Panel B에서 두 점수 간의 상관계수는 0.279로 낮았습니다. 이는 GPT Score가 뉴스 제공업체의 점수에는 포함되지 않은 새로운 정보를 내포하고 있음을 의미합니다.
2. 분석 방법
(1) 프롬프트
프롬프트는 특정한 질문에 대해서 ChatGPT가 답변을 생성할 때 준수해야 할 지침 역할을 하므로, 프롬프트를 어떻게 작성하느냐는 매우 중요한 문제입니다. 해당 연구에서 사용한 프롬프트는 아래와 같습니다.
"Forget all your previous instructions. Pretend you are a financial expert. You are a financial expert with stock recommendation experience. Answer “YES” if good news, “NO” if bad news, or “UNKNOWN” if uncertain in the first line. Then elaborate with one short and concise sentence on the next line. Is this headline good or bad for the stock price of [company name] in the [term] term? Headline: [headline]"
🗣️ 한글 해석:
"이전의 모든 지침은 잊어버리세요. 자신이 금융 전문가라고 생각하세요. 당신은 주식 추천 경험이 있는 금융 전문가입니다. 헤드라인 내용이 좋은 뉴스이면 "예"라고 답하고 나쁜 뉴스이면 "아니오", 불확실하면 "알 수 없음"이라고 답하세요. 그리고, 다음 줄에 짧고 간결한 한 문장으로 자세히 설명하세요. 이 헤드라인이 [기간] 동안 [회사명]의 주가에 좋은가요, 나쁜가요? 헤드라인: [헤드라인]"
참고로 이 연구에서는 주가에 영향을 주는 정보가 기사의 헤드라인에 충분히 반영되어 있다고 가정하고 있습니다. 그리고 GPT 모형이 생성하는 결과의 재현성을 높이기 위해서, ChatGPT의 무작위성을 조절하는 Temperature 값을 0으로 설정하였습니다.
(2) 실증분석방법 설계
ChatGPT가 분류한 헤드라인 내용과 다음 거래일의 주식 수익률을 매칭하여 회귀분석을 수행합니다. 구체적인 회귀식은 아래와 같습니다.
위 식에서 종속변수는 ‘주식 $i$의 수익률’이고, $a_i$는 시간의 흐름과는 관련 없는 기업의 특성을 반영한 요인, $b_t$는 시간에 연관된 요인을 나타냅니다. 이 회귀식의 독립변수인 $x_{i,t}$를 구하기 위해서 최신버전인 GPT-3.5 또는 GPT-4 기반의 ChatGPT를 사용할 뿐만 아니라 GPT-1, GPT-2, BERT 같은 좀 더 기본적인 언어모형들도 검토함으로써, ChatGPT의 수익예측능력이 최근 언어모형의 비약적인 발전으로 인해 새롭게 형성된 것인지에 대해서도 확인합니다.
'종속변수'는 원인에 의해 결과가 영향이 있는 변수, '독립변수'는 원인에 해당하는 변수를 말합니다. '핫팩'을 예로 들면, 온도에 따라 판매량이 영향을 받기에 '온도'는 독립변수, '핫팩 판매량'은 종속변수라고 할 수 있습니다.
3. ChatGPT의 주식수익률 예측능력 검증
(1) 롱-숏(Long-Short) 투자전략의 결과
주식 가격 움직임을 예측하는 ChatGPT의 능력을 평가하기 위해, 뉴스 헤드라인의 ChatGPT 점수에 기반한 롱-숏 전략의 성과를 살펴보았습니다. 즉, ChatGPT에 의해서 뉴스의 헤드라인 내용이 긍정적인 것으로 분류된 주식들을 매수(Long) 하고, 부정적인 것으로 분류된 주식들을 매도(Short) 합니다. 이렇게 매수한 만큼 매도하는 방식으로 순투자비용이 0인 포트폴리오를 구성합니다. 투자전략은 매일 리밸런싱(rebalancing) 됩니다.
다음 그림인 [그림 2]는 롱-숏 전략을 포함한 7개의 투자전략의 누적수익률을 보여줍니다.
- Long은 ChatGPT-3.5에 의해서 긍정적으로 판단된 뉴스의 종목들을 동일한 비중으로 매수하는 전략
- Short은 부정적인 뉴스 종목들을 매도하는 전략
- Long-Short은 ChatGPT-3.5를 이용한 롱-숏 전략
- Long-Short GPT 4는 ChatGPT-4.0을 이용한 전략
- All News는 기사 내용과 관계없이 뉴스가 보도된 모든 종목에 대해서 동일한 비중으로 포트폴리오를 구성한 것
- Market Equally-Weighted는 시장에 존재하는 모든 종목들을 동일한 비중으로 구성한 포트폴리오
- Market Value-Weighted는 시장의 모든 종목들을 시가총액 비중으로 구성한 포트폴리오
참고로, 여기서 보여준 누적수익률은 거래비용을 고려하지 않은 결과입니다.
주가 상승이 예상되는 주식들을 사고(Long) 주가 하락이 예상되는 주식들을 공매도(Short)하는 방식으로 2가지 포지션을 동시에 구사하여 펀드 내의 매입자산과 매도자산을 동일하게 유지하면서, 시장변화에 거의 영향을 받지 않는 안정적인 수익률 추구 전략을 말합니다.
[그림 2]의 결과는 ChatGPT를 활용하면 상당히 높은 수익을 얻을 수 있음을 보여줍니다. 예를 들어, ChatGPT-3.5에 의해 긍정적으로 판단된 뉴스기사의 주식을 매수하고 부정적으로 판단된 뉴스의 주식을 매도하는 Long-Short 투자전략은 2021년 10월부터 2022년 12월까지의 누적 수익률이 550% 이상이라는 놀라운 결과를 보여주었습니다. 반면에, 이 연구의 벤치마크 역할을 하는 Market Equally-Weighted 및 Market Value-Weighted 포트폴리오들은 모두 동일 기간 동안 누적 손실을 기록했습니다. 이러한 결과는 선도적인 LLM (Large Language Model)인 ChatGPT가 뉴스 헤드라인에서 가치 있는 정보를 추출할 수 있고, 결과적으로 주식 시장의 반응을 예측하는데 도움을 줄 수 있다는 것을 보여줍니다.
한편, 더욱 발전된 ChatGPT 4.0 모델을 이용한 롱-숏 전략(Long-Short GPT 4)은 350%를 상회하는 누적 수익률을 생성합니다. 이러한 ChatGPT 4.0의 누적 수익률은 ChatGPT 3.5를 기반으로 한 롱-숏 전략에 비해 크기면에서 작지만, [표 2]에서 보듯이 투자위험을 나타내는 변동성은 훨씬 적다는 장점을 가집니다.
[표 2]는 [그림 2]에 표시된 7가지 투자전략의 ‘샤프 비율(Sharpe ratio)‘과 ‘최대 낙폭(Drawdown)‘을 보여줍니다. 수익률의 기대값을 표준편차로 나눈 샤프비율의 경우, ChatGPT 3.5 기반 투자전략은 3.1인 반면, ChatGPT 4 기반 전략은 3.8로 훨씬 높습니다. 또한, ChatGPT 4 기반 전략의 최대 낙폭은 -10.4%인 반면, ChatGPT 3.5 기반 전략의 경우는 -22.8%입니다. 따라서 ChatGPT 4 기반 전략의 누적수익률이 ChatGPT 3.5 보다 더 안정적이고, 결과적으로 샤프비율 관점에서 더 우월하다고 볼 수 있습니다.
(2) 회귀분석 결과: 최신 LLM의 예측 성능
[표 3]에서는 다양한 LLM의 수익률 예측 성능을 평가하기 위해 수식 (1)에 대한 회귀분석을 수행한 결과를 정리합니다. 독립변수로는 세 가지 최신 LLM인 (i) ChatGPT 3.5, (ii) ChatGPT 4, 그리고 (iii) BERT Large를 단독 또는 중복으로 사용했습니다.
[표 3]을 보면, “ChatGPT 3.5”에 대한 추정계수는 0.259, t-통계치는 5.259로 나타났습니다. 추정계수가 0.259라는 것은 뉴스가 긍정적(즉, 독립변수가 1)일 때 다음날 수익률은 0.259% 상승하고, 뉴스가 부정적(즉, 독립변수가 -1)일 때 다음날 수익률은 0.259% 하락함을 의미합니다. 또한 t-통계치가 2보다 크면 추정된 계수값이 5% 유의수준에서 유의하다고 보는데요. 이 연구의 t-통계치는 5.259이므로 추정계수 0.259는 통계적으로 매우 유의함을 뜻합니다.
위의 해석을 참고하면, 이러한 결과는 ChatGPT 3.5의 뉴스분석 결과가 다음날 주식 수익률과 통계적 및 경제적으로 유의미한 관계가 있음을 의미합니다. 따라서 ChatGPT를 뉴스에 대한 감성분석에 사용하면, 주식 시장의 움직임을 예측하여 투자수익을 얻을 수 있습니다.
(3) 회귀분석 결과: 전통적인 감성분석기법의 예측 성능
한편, 데이터 제공업체가 전통적인 통계적 감성분석 기법으로 산출한 뉴스분석 결과인 “event-sentiment-score”의 경우를 살펴보면, (5)처럼 독립변수로 단독 사용될 경우 t-통계량이 2.272로 유의하였으나, (2)나 (4)처럼 LLM을 통제변수로 추가한 경우에는 더 이상 유의하지 않은 것으로 나타났습니다. 이는 전통적인 방법들에 비해 ChatGPT가 뉴스 헤드라인의 맥락을 더 잘 포착하여 주식 시장 예측에 활용될 수 있음을 의미합니다.
ChatGPT가 주식 시장 수익률 예측에서 우수한 성능을 보이는 것은 아마도 ‘뉴스 헤드라인의 뉘앙스’를 포착할 수 있는 고급 언어 이해 능력을 갖고 있기 때문입니다. 즉, [표 3]에서 우리는 ChatGPT에 의한 감성분석의 예측력을 확인할 수 있으며, 투자 의사 결정 과정에서 LLM을 사용할 때 잠재적 이점이 있음을 알 수 있습니다.
(4) 회귀분석 결과: 기본적인 언어모델의 예측 성능
흥미롭게도, 다른 다양한 언어 모델들의 성능을 비교하였을 때, GPT-1, GPT-2, BERT와 같은 기본적인 모델들은 주식 예측 능력이 거의 없는 것으로 나타났습니다.
[표 4]에서 (i) DistilBart-MNLI-12-1, (ii) GPT-2 Large, (iii) GPT-2, (iv) GPT-1, (v) BERT, 그리고 (vi) BERT Large 등 6개의 기본적인 LLM들을 추가적으로 이용하여 감성분석 점수를 산출하고, 이를 독립변수로 사용하여 회귀분석을 수행한 결과를 정리했습니다.
[표 4]의 결과는 수익률 예측 가능성이 최근에 진화된 복잡한 언어 모델(최신 LLM)들만 갖추고 있는 새로운 능력이라는 점을 시사합니다. 왜냐하면, BERT Large와 DistilBart-MNLI 모델을 사용한 감성분류 점수는 어느 정도 예측 가능성을 보였지만, ChatGPT-3.5와 ChatGPT-4를 사용한 경우에 비해 통계적 유의성이 눈에 띄게 약한 것으로 나타났습니다. 또한, 더 기본적인 모델들인 GPT-1, GPT-2, 그리고 BERT를 사용하여 뉴스 헤드라인을 평가했을 때, 이렇게 구한 감성분류 점수가 그다음 날 주식 수익률과 유의미한 상관관계를 가진다는 증거는 발견되지 않았습니다. 반면에, 가장 복잡한 모델인 ChatGPT 4의 수익률 예측가능성은 가장 높은 것으로 나타났습니다.
4. 결론
이 연구에서는 ChatGPT를 포함한 다양한 LLM들을 이용하여 구한 뉴스 헤드라인의 감성분석 점수가 주식시장의 미래 수익률을 예측할 수 있는지를 실증분석하여, 다음과 같은 결론을 얻었습니다.
2. GPT-1, GPT-2, BERT와 같은 기본적인 LLM은 주식 수익률을 예측할 수 없었습니다.
3. 현재 시점에서 가장 진보된 언어모형인 ChatGPT 4를 기반으로 한 롱-숏 투자전략은 다른 언어모형을 이용한 투자전략 대비 가장 높은 샤프 비율을 보였으며, 이 결과는 복잡한 언어 모델이 갖춘 고도화된 언어 이해 역량을 활용하면 미래의 주가 수익률을 예측할 수 있고, 결과적으로 투자수익을 얻을 수 있다는 것을 의미합니다.
마무리하며
해당 연구는 LLM이 주식 수익률을 예측하는 데 효과적임을 입증함으로써 주식투자자들에게 새로운 투자 방법론을 제시합니다. 즉, 이 연구는 LLM을 활용하는 새로운 투자 전략 설계의 근거로 활용될 수 있고, 결과적으로 새로운 투자수익 창출 방법에 대한 아이디어를 제공해줄 수 있습니다.
최근에 LLM을 중심으로 인공지능기술이 급격히 발전함에 따라 이를 활용하려는 노력이 금융을 포함한 다양한 분야에서 이루어지고 있습니다. 이 글에서 살펴본 연구처럼, LLM이 효과적으로 기여할 수 있는 부분을 찾고 그 잠재력을 발굴한다면, 이를 통해 지속적인 현식을 만들어나갈 수 있을 것입니다.
이 글의 후속편으로 다음번에는 “카카오뱅크에서 ChatGPT를 이용한 암호화폐의 가격 예측에 관해 연구한 내용“을 소개할 예정입니다. 참고로, 카카오뱅크의 해당 연구내용은 “Cryptocurrency Prices and News Sentiment: Which Exerts Influence on the Other?“라는 제목으로 현재 SSRN(Social Science Research Network)에 업로드되어 있습니다.4
이 연구에서는 업비트(UPbit, 국내 코인거래소) 및 코인마켓캡(CoinMarketCap, 글로벌 코인거래소)에서의 일별 암호화폐 가격 데이터를 활용하며, 한국 및 글로벌 뉴스 기사들을 분석합니다. 분석 결과, ChatGPT 3.5를 이용한 뉴스 기사의 감성분석 결과와 암호화폐 수익률 사이에 양의 상관관계가 존재하며, 흥미롭게도 한국 뉴스의 감성분석 결과는 글로벌 암호화폐 가격에 최대 일주일까지 영향을 미치는 것으로 나타났습니다. 이는 한국의 비트코인 가격이 미국시장의 비트코인 가격보다 더 높게 형성되는 원인 중 하나로 볼 수 있습니다.
자세한 분석 내용은 다음 기고 글에서 다루기로 하고, 이번 글은 여기서 마무리하겠습니다. 읽어주셔서 감사합니다.
-
Padhi, I., et al., 2021, Tabular Transformers For Modeling Multivariate Time Series, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2021, DOI: 10.1109/ICASSP39728.2021.9414142. ↩︎
-
Wang, C., et al., 2022, Stock market index prediction using deep Transformer model, Expert Systems with Applications: An International Journal, Volume 208:Issue C Dec, DOI: 10.1016/j.eswa.2022.118128. ↩︎
-
Lopez-Lira, A. and Y. Tang, 2023, Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models, Available at SSRN: https://ssrn.com/abstract=4412788 or DOI: 10.2139/ssrn.4412788. ↩︎
-
Kang, R. et al., 2024, Cryptocurrency Prices and News Sentiment: Which Exerts Influence on the Other?, Available at SSRN: https://ssrn.com/abstract=4714113 or DOI: 10.2139/ssrn.4714113. ↩︎