안녕하세요, 카카오뱅크 데이터 사이언티스트 Belle입니다.

이 글을 읽고 계신 분은 개발자 또는 분석가일 가능성이 높을텐데요. 여러분은 현재 어떤 서비스를 담당하고 계신가요? 그리고 해당 서비스와 관련된 데이터에 대해서는 얼마나 이해하고 있나요?

사용자가 남긴 데이터는 서비스 개선과 문제 해결, 인프라 비용 절감 등 많은 부분에 있어 중요한 단서가 됩니다. 따라서 고객에게 더 나은 경험을 제공하고 성공적으로 비즈니스를 운영하기 위해서는 데이터를 충분히 이해하고 분석하여 활용할 줄 알아야 하는데요. 특히 데이터를 핸들링하고 분석 및 모델링하는 사람들이라면 데이터 그 자체에 대한 본질을 깊이 있게 이해할 필요가 있습니다.

이 글에서는 데이터를 보는 것에 대한 본질적인 의미를 살펴보고, 금융 데이터는 어떤 특징이 있으며, 데이터의 가치는 어떻게 끌어올릴 수 있을지에 대한 이야기를 풀어보겠습니다.

데이터와 지표

여러분은 어떤 데이터를 보고 계시나요?

각 도메인의 고유한 특성은 수집되는 데이터의 형태, 패턴, 성격에 영향을 줍니다. 사용자는 특정 도메인의 상품을 이용하면서 다양한 행동을 보이는데요. 이 과정에서 사용자의 행동은 데이터로 기록되며, 분석가에게 중요한 정보를 제공합니다. 데이터 분석가는 수집된 사용자 행동 데이터를 가지고 다양한 기술과 도구를 활용하여 새로운 정보를 얻거나 앞으로의 행동 패턴을 예측할 수 있습니다.

1-target-metrics-image
타겟이 되는 지표는 서비스와 목표에 따라 다르게 설정됩니다.

도메인에 따라 데이터 활용이 어떻게 달라지는 지 예를 들어보겠습니다. 먼저 쇼핑 데이터는 사용자가 언제 어떤 상품을 결제했고 최근에는 어떤 상품에 관심 있는지를 담고 있습니다. 분석가는 결제 주기와 결제 수단 등을 기반으로 사용자의 결제 행동 패턴을 이해하려 할 것입니다.

그렇다면 광고 데이터는 어떨까요? 콘텐츠별 노출수, 클릭률, 구매전환율에 따른 트래픽을 비교할 수 있겠죠. 또한 콘텐츠별 반응률, 노출 순서, 사용자 관심사 및 세그먼트에 대해서도 분석할 수 있습니다.

금융 도메인의 거래 내역 데이터라면, 사용자가 가지고 있는 금융 수단을 바탕으로 거래 형태와 규모를 분석하고, 시계열의 관점에서 거래 내역의 변화를 파악하는 데 중점을 둘 것입니다.

이처럼 각 도메인마다 서비스 상품을 만드는 입장에서 보는 주요 지표는 각각 다를 수밖에 없습니다. 데이터의 구조는 물론, 사용자의 행동 패턴이 모두 다르게 나타나기 때문입니다. 따라서 ‘데이터에 맞는 지표를 보고 분석한다’는 것은 단순히 UV, PV 등의 지표를 트래킹 하는 것을 넘어서, 도메인별 핵심 지표를 구체적으로 정의하고, 장/단기간 목표를 설정하여 서비스를 고도화한다는 것을 의미합니다.

핵심 지표를 선정하는 방법

핵심 지표를 잘 선정하기 위해서는 분명한 서비스 방향성과 데이터에 대한 심도있는 이해가 필요합니다. 이러한 조건들을 바탕으로 주요 지표를 선정하여 서비스의 질적 가치를 향상시키기 위해 노력해야 되는데요. 물론 쉬운 일은 아니지만, 해당 서비스를 만든이들 간의 끊임없는 토론과 지속적인 노력이 있다면 가능한 부분이라고 생각합니다.

이처럼 올바른 핵심 지표의 선정은 품질 높은 서비스 개발에 도움이 됩니다. 또한 개발자와 기획자가 단순히 숫자를 따라가는 것이 아닌, 올바른 방향으로 데이터를 이해하고 서비스를 설계해 나갈 수 있도록 도와줍니다.

그럼 본격적으로 기존 앱 로그 데이터거래 데이터 간의 차이점을 살펴보고, 거래 데이터는 어떤 관점에서 이해하고 분석해야 되는지 금융 도메인의 데이터를 읽는 관점에 대해 설명드리겠습니다.

사용자 중심의 앱 로그 데이터

2-app-log-data-image
사용자는 앱/서비스에 접속하여 콘텐츠를 소비하면서 그 안에서 여러 행동을 하게 되는데 이는 앱 로그 데이터로 남게 됩니다.

먼저 앱 로그 데이터를 살펴보겠습니다. 일반적으로 사용자는 모바일 또는 PC를 통해 앱/서비스에 접속하여 다양한 콘텐츠를 소비합니다. 물론 도메인에 따라 UI와 콘텐츠 성격은 달라질 수 있겠지만, 우리가 평소 쉽게 접할 수 있는 뉴스, 쇼핑, 광고, 스트리밍 서비스 앱을 사용할 때 발생하는 데이터를 앱 로그 데이터라고 합니다.

앱/서비스에 방문한 사용자는 가장 기본적인 ‘콘텐츠 노출’과 ‘클릭’이라는 행동 로그를 남기게 되며, 도메인에 따라서는 구매하기, 공유하기, 좋아요, 재생, 검색 등의 다양한 행동을 하며 데이터로 쌓이게 되는데요. 이렇게 남긴 데이터는 성과 측정에 활용되거나 앱 성능 개선을 위한 핵심 지표로 사용되기도 합니다. 또한 쌓여진 데이터를 통해 사용자와 아이템 간 유사도를 계산하고, 관심도를 모델링하여 타겟팅 및 추천시스템 등에 적용할 수 있습니다.

거래 중심의 금융 데이터

거래 데이터란?

거래 데이터와 앱 로그 데이터의 가장 큰 차이점은 ‘고객이 앱을 직접 이용하지 않는 순간에도 데이터가 생성될 수 있다‘는 것입니다. 다시 말해, 사용자의 모바일 기기가 꺼져 있거나 서비스를 이용하지 않는 시간에도 수많은 거래 내역 데이터가 발생할 수 있다는 것이죠. 예를 들면 다른 사람이 내 계좌로 돈을 이체했을 때, 수시 입출금 통장 계좌에 카드 혜택 캐시백이 입금됐을 때, 자동이체로 내 계좌에서 다른 기관으로 돈이 출금됐을 때 등이 그런 것들입니다. 이러한 점 때문에 사용자 행동 관점보다는 계좌와 거래에 초점을 맞춘 데이터를 보는 경우가 많습니다.

계좌란?

은행 거래를 하기 위해서는 기본적으로 ‘계좌‘라는 금융 수단을 가지고 있어야 합니다. 계좌의 종류는 입출금성, 예적금성, 여신성, 파킹통장 등 다양한 형태가 있으며, 사용자는 다수의 계좌를 보유할 수 있습니다. 각 계좌는 정상 이용, 만기 해지, 중도 해지 등 여러 다른 상태 값을 가질 수 있으며, 체크카드를 연결하여 사용할 수도 있고, 모(母)계좌에 자(子)계좌를 여러 개 연결하여 만들 수도 있습니다.

3-banking-transaction-data-image
금융 도메인에서 거래 데이터는 사용자가 이용하는 금융수단과 거래 내역에 초점을 맞춰 분석합니다.

거래의 형태는 훨씬 더 다양합니다.

거래는 우리가 잘 알고 있는 이체, 인출, 예·적금 가입, 해외 송금 등 기본적인 것에서부터 그 목적에 따라 수백 가지의 매우 다양한 형태로 존재합니다.

자동이체 출금 거래를 예로 들어보겠습니다. 카카오뱅크를 기준으로 살펴보면, 자동이체가 어디(목적지)로 출금되는지에 따라 크게 구분되는데요. 당행에서 당행으로 또는 당행에서 타행으로 출금될 수도 있으며, 타사 앱으로부터 자동이체가 등록되어 출금이 이루어지는 경우도 있습니다. 데이터 상으로는 출금 방식에 따라 펌뱅킹, 지로, CMS 등 여러 형태로 들어오게 되는데요. 최근에는 핀테크 사들의 펌뱅킹 거래 방식이 오픈뱅킹 거래 방식으로 바뀐 경우도 있습니다.

조금 더 구체적으로 분류해 본다면 당행에서 타행으로 출금되는 자동이체는 타행이 어떤 금융 기관인지(예: 1금융권, 2금융권, 증권사, 외국계 은행 등), 만약 1금융권이라면 어느 은행인지 등을 단계별로 세분화하여 살펴볼 수 있을 것입니다. 또한 자동이체의 목적에 따라 결제, 충전, 카드 대금, 보험, 대출원리금, 후원금 등으로 거래 성격이 구별될 수 있으며, 어떤 기관별로 나가는지도 구분할 수 있습니다.

😏 확장해 볼까요?

위에서 설명드린 것처럼, 입출금 계좌는 당연하게도 ‘잔고’가 있어야 거래가 일어날텐데요. 그렇다면 본인 계좌에 입금은 어떻게 들어올 수 있을까요? 발생가능한 다양한 케이스들 중 몇 가지를 나열해보았습니다.

당행 본인 계좌에서 본인 계좌로 돈을 송금하여 입금
타행 본인 계좌에서 본인 계좌로 돈을 송금하여 입금
타행 타인 계좌에서 본인 계좌로 돈을 송금하여 입금
핀테크 사의 오픈뱅킹을 이용하여 타행 본인 계좌에서 당행 본인 계좌로 입금
연결된 적금 상품이 자동으로 만기 해지되어 본인 계좌로 입금

사용자에 따라서 이 중 하나가 될 수도 있고, 아님 언급한 모든 거래 유형들을 다 경험해보셨을 수도 있겠죠.

😲 여기서 계좌를 고객별로 묶으면, 거래 흐름을 어떻게 보아야 할까요?

거래 내역 데이터는 언제 얼만큼 입금되고 출금되었는지에 대한 정보뿐만 아니라, 거래 목적과 금융권별 유출입, 이용 기관, 계좌 성격에 따라 다양하게 분류할 수 있습니다. 이후 등장한 오픈뱅킹, 마이데이터 사업 등을 통해 거래 데이터의 형태와 범위는 지속해서 확장되고 있는데요. 이처럼 거래 중심의 금융 데이터금융 수단에 따라 다른 특성을 가지고 있고 입출금이 다양한 방식으로 이루어지기 때문에 타 도메인 대비 복잡성이 높습니다.

이쯤 되니 머릿속에 질문이 하나 떠오릅니다.

“다양한 형태와 복합적인 거래 중심인 금융데이터의 가치를 어떻게 끌어올리고 잘 분석할 수 있을까?” 🤔

전사적 금융 데이터 역량 끌어올리기

“전사 직원의 데이터 이해력과 분석 역량을 끌어올려 업무 생산성을 한층 더 향상시켜보자!” 🤩

필요한 활동들을 3가지로 정리하면 다음과 같습니다.

  1. 데이터 이해 내재화
  2. 핵심 지표 공유화
  3. 데이터 분석 민주화

4-data-analysis-meeting-image
데이터를 기반으로 대화할 수 있는 조직 문화와 시스템 환경이 뒷받침된다면 궁극적으로 데이터 분석 민주화가 가능해집니다.

먼저 앞서 설명드린 것처럼, 사내 데이터는 데이터 보는 직무의 사람들(특히 데이터 분석가와 데이터 사이언티스트)의 주도하에 데이터에 대한 깊은 이해를 바탕으로 내재화되어야 합니다. 이때 진입 장벽이 높은 도메인일수록 내재화에 더 긴 시간이 걸릴 수도 있고, 당장 눈에 보이는 성과로 나오지 않을 수도 있습니다.

하지만 당장의 성과가 없더라도 계속해서 데이터 내재화에 힘써야 되는데요. 이는 장기적인 관점에서 현업 부서에 인사이트를 제공하고, 전사적인 이슈 발생으로 인해 데이터로 해결책을 찾아야 하는 상황에서 현상에 대해 빠르고 정확하게 진단하는데 도움을 줍니다. 또한 서비스 관련 모델링과 다양한 예측 시스템을 더욱 효율적으로 설계하는데에도 도움이 됩니다.

다음으로, 팀 내에서는 서비스의 질적 향상에 도움이 되는 지표를 충분한 논의 끝에 선정하여 올바른 핵심 지표를 공유하고 지속적으로 트래킹 할 수 있어야 합니다. 이때 핵심 지표를 선정하려면, 데이터를 기반으로 이야기하고 공유할 수 있는 조직과 분위기가 뒷받침되어야 하는데요. 이러한 환경에서 동료들과 함께 주요 지표를 선정하고, 이를 프로젝트에 적용해 나간다면 멋진 결과물이 탄생하는 초석이 될 수 있을 것입니다.

마지막은 데이터 분석 민주화입니다. 누구나 쉽게 접근해서 데이터를 열람하고 인사이트를 얻어갈 수 있는 환경이 만들어지면 어떨까요? 직원들의 데이터 이해도를 높이고, 불필요한 데이터 작업 비용을 줄여나간다면, 전사 비즈니스 차원에서 빠르고 효율적으로 대응할 수 있을 것입니다.

수신거래내역 분류 지표 대시보드의 탄생

위에 소개드린 3가지 활동의 일환으로, 카카오뱅크는 자체적으로 대규모 데이터 대시보드 시스템인 수신거래내역 분류 지표 대시보드를 구축하여 대규모 데이터셋을 보다 빠르게 분석하고 유연하게 운영해나가고 있습니다.

5-imply-dashboard-image
Imply 솔루션을 활용한 수신거래내역 분류 지표 대시보드

대규모 데이터 대시보드화 작업은 일련의 과정을 거칩니다. 먼저 원천 데이터를 분석에 용이한 구조로 설계와 전처리를 한 다음, 분석 플랫폼 서버에 업로드하여 분석 엔진이 적용된 대시보드를 생성합니다. 데이터 분석가는 전처리 과정에서 분석 목표 정의 및 데이터 구조를 생성하며, 데이터 엔지니어는 Impala 등의 시스템을 이용해 작업 처리를 요청하고 서버에 로드화하여 파일을 생성합니다.

이러한 파이프라인 작업을 통해 구축된 대시보드 시스템에서는 주제별로 나눠진 주요 거래 데이터와 핵심 지표를 확인할 수 있는데요. 또한 데이터 시각화를 통해 보다 직관적으로 이슈를 파악하고 분석할 수 있도록 대화형 그래픽 인터페이스로 구현하고자 했습니다.

특히 수신거래내역 분류 지표 대시보드는 데이터 분석팀으로 오는 분석 요청에 대응하는 리소스를 획기적으로 감소시켜 주었는데요. 현업에서 독립적으로 데이터에 접근하여 간단한 분석업무를 수행하는데 도움을 주어 데이터 분석 민주화에 기여했습니다. 아래 예시와 같은 상황에서도 데이터 분석팀을 거치지 않고 현업 자체적으로 문제해결 하는 데 있어 해결사 역할을 톡톡히 하고 있습니다.

  • 1. 일반적인 데이터 문의

  • “잠깐.. 우리 일별 평균 이체 건수 얼마나 되나요? 작년보다 얼마나 늘었나요?”

  • 2. 재빠르게 확인해야 하는 이슈 파악

  • “어제 OO 커뮤니티발 해외 송금 이슈가 있었는데 괜찮나요?”

  • 3. 쿼리 해소

  • “최근 6개월간 26주적금 상품 가입 얼마나 되지? 쿼리 귀찮은데..”

  • 4. 크로스체크가 필요한 데이터 검증

  • “내가 추출한 데이터가 맞을까? 검증을 하고 싶은데 옆 동료 Ted는 많이 바빠보여..”

  • 5. 전사 데이터 이해 및 분석

  • “우리 회사의 데이터를 알고 싶어.. 근데 어디서부터 어떻게 보면 되지?”

대시보드 시스템은 일반적인 데이터 문의에서부터 이슈 파악과 검증용으로도 사용되며, 데이터 분석가는 물론 개발자와 기획자 등 다양한 직군들이 마치 사전처럼 데이터를 쉽게 찾아보고 이해할 수 있도록 설계되어 있는데요. 실제 여러 유관 부서가 데이터를 확인하고 분석하는데 대시보드 시스템을 잘 사용하고 있습니다.

최근에는 뱅크런(Bank Run) 등의 금융 이슈에 대응하기 위해 시장 민감도에 대한 지표 모니터링이 강화되고, 금리 기조 변화로 인한 크고 작은 거래의 움직임을 보는 것이 더욱 더 중요해지고 있습니다. 이전에는 관련 데이터를 부서마다 별도로 확인하거나 분석해야 했다면, 지금은 거래 데이터 대시보드에 업데이트 되는 내용들을 참고하여 전략, 재무, 리스크, 서비스 업무를 담당하는 여러 부서에서 지표를 모니터링하고 분석 리포트 작성에 활용하고 있습니다.

또한 저희팀에서는 거래 데이터 분류 및 데이터 내재화 작업을 통해 통합적으로 데이터를 파악할 수 있는 자금이동지수 대시보드 등을 개발하였고, 현업에서 거래 자금 규모와 흐름을 즉각적으로 파악하는데 도움을 드리고 있습니다. 지금도 카카오뱅크의 많은 임직원 분들이 대시보드를 참고하여 자금의 움직임과 파급 효과를 빠르고 쉽게 모니터링하고 분석함으로써 비즈니스 차원의 의사결정을 하는데 중요한 판단 근거로 활용하고 있습니다.

데이터 분석으로 가는 길

6-business-level-analysis-image
비즈니스 차원의 분석을 위한 재료들

어떤 분야든 비즈니스를 기반으로 데이터를 읽고 분석하는 작업은 쉬운 일이 아니라고 생각합니다. 양질의 데이터와 도메인에 대한 깊은 이해, 그리고 그것을 누구에게나 쉽고 빠르게 효과적으로 전달할 수 있는 환경에서 비즈니스 차원의 분석이 시작될 수 있습니다.

마지막으로 제가 좋아하는 글귀 중 하나를 소개해드리며 글을 마무리 하려고 합니다.

本立道生(본립도생), 기본이 서면 나아갈 길이 생긴다. 논어 학이(學而)편 2장 중

매일 일어나는 현상에 대해 앞만 보며 오랫동안 달려가고 있었다면 한 번쯤 그 안의 근원을 생각해 볼 수 있는 ‘단단한 힘‘을 길러보는 건 어떨까요?

긴 글 읽어주셔서 감사합니다.