지난 10월 22일부터 24일까지 카카오AI캠퍼스에서 열린 if(kakaoAI)2024 기술 컨퍼런스에서는 AI를 주제로 다양한 세션과 패널톡이 진행되었습니다. 카카오뱅크는 5개의 기술 세션과 2개의 패널톡에 참여하며 큰 관심을 받았으며, 전시 부스에서는 카카오 공동체의 기술적 성과를 체험할 수 있는 프로그램도 마련되었습니다. 이번 글에서는 카카오뱅크의 세션 발표와 패널톡의 비하인드 스토리를 짧은 인터뷰 형식으로 소개합니다.

지난 10월 22일부터 24일까지, 총 3일간 카카오AI캠퍼스에서 if(kakaoAI)2024가 진행되었습니다. 카카오 공동체 크루들은 물론, 많은 기업과 언론에서 관심을 갖고 자리해 주셨는데요. 특히 이번 기술 컨퍼런스는 “AI"를 주제로 다양한 세션이 마련되어, AI 기술이 가져온 세상의 변화를 직접 체감하며 많은 인사이트를 얻어가는 자리였습니다. 👀 ✨

오전 10시경 키노트 세션을 시작으로, 오후에는 다양한 기술 주제의 세션들과 카카오 임직원의 솔직한 목소리를 들을 수 있었던 패널톡이 배치되었고, 전시 부스 공간에는 직접 서비스와 제품을 체험하면서 카카오 공동체의 기술적 성과를 확인할 수 있는 다채로운 프로그램과 전시가 마련되었습니다.

카카오뱅크는 총 5개의 기술 세션, 그리고 2개의 카카오그룹사 패널톡(크루, CTO)에 참여했는데요. 모두 참가자 분들의 뜨거운 관심 속에서 성황리에 마무리할 수 있었습니다. 이 글에서는 카카오뱅크가 준비한 세션 발표와 연사로 참여한 패널톡들의 비하인드 스토리를 공개합니다. 추후 if(kakaoAI)2024 공식 홈페이지에서 녹화 영상 원본과 발표 자료(PDF)를 확인할 수 있지만, 이 글을 통해 세션 발표자와 패널톡 연사가 직접 전하는 발표 내용 소개와 생생한 후기를 짧은 인터뷰 형식으로 담았습니다.

현장에 참석하지 못했거나 카카오뱅크가 준비한 세션과 패널톡을 확인하고 싶은 분들에게 도움이 되기를 바라며, 바로 시작하겠습니다!

Day1

오후 13:00 최적의 LLM을 선택하는 방법 : DUO | 기술연구소 Aven, Conor

1-conor-aven-image Aven과 Conor가 준비한 발표에서는 현재 빠르게 발전하고 있는 SOTA LLM(Large Language Model)의 현황을 살펴보고, LLM 평가 방법의 최신 트렌드와 그 한계점을 분석했습니다. 또한, 카카오뱅크에서 LLM 평가 기준과 프레임워크를 구축하고, 이를 조직 내에 내재화한 경험을 공유하였습니다.

↳ 세션 간단 요약

■ 최신 LLM 평가 방식을 통한 트렌드 분석
- LLM의 평가 기준으로 두 가지 주요 요소인 실제 정답(Ground Truth)과 인간의 선호도(Human Preference)을 설명합니다.

■ 다양한 평가 방법론의 한계와 문제점
- 벤치마크가 다양한 상황을 포괄하지 못해 모델 성능을 제대로 평가하지 못하는 '제한적인 벤치마크의 커버리지(Limited Scope)'와 시간이 지남에 따라 빠르게 구식이 되어 최신 모델의 능력을 반영하지 못하는 '짧은 벤치마크의 효용주기(Short Life Span)'를 문제로 제시합니다.

■ LLM의 한국어 금융 분야 성능을 평가하는, 카카오뱅크의 독자적인 평가 프레임워크(DUO) 소개
- DUO는 'A Diverse Understanding and Observation of LLMs'의 약자로, '금융 분야 계산 정확도(FCA, Financial Calculation Accuracy)'와 '금융분야 멀티턴 대화 능력(FMT, Financial Multi Turn)'을 기반으로 LLM을 평가합니다.

■ DUO 실제 적용 결과 및 Lesson Learn & Know How 공유
- 생성형 AI의 함정 피하고, 똑똑하게 검증 데이터 해석하는 방법에 대해 소개합니다.

↳ 기억에 남는 질문과 답변

Q1. DUO 에서 Reasoning을 강조했는데, 좋은 Reasoning Path는 어떤걸까요?
LLM에서 Reasoning을 이용하는 목적은 다양하지만, DUO에서는 생성형 AI의 한계를 극복하기 위해 주로 사용하였습니다. 따라서 생성형 AI의 정답을 검증할 수 있도록 논리적이고 단계적인 추론 검증(Reasoning Path) 설계가 중요합니다.
Q2. 검증 데이터의 퀄리티가 중요할 것 같은데, 퀄리티 체크는 어떻게 진행했나요?
LLM을 비롯해 다양한 모델을 이용하기도 했고, 퀄리티가 중요한 부분에 대해서는 직접 눈으로 확인하기도 했습니다. 무엇보다 서비스에 고관여된 데이터이다 보니, 실제 현업들의 의견이 가장 중요했습니다.

↳ 발표를 준비하면서 미처 못다한 이야기가 있다면 말씀해주세요.

  • Aven “복잡한 LLM 세상에서 ‘가장 적합한 모델 찾기’는 어렵지만, 이는 서비스 구성의 핵심 분야입니다. 세션뿐만 아니라 세션이 끝난 후에도 많은 분들이 공감해주시고, 같은 고민을 공유해주셔서 매우 뜻깊었습니다. 이번 if(kakaoAI)를 시작으로 특화 모델뿐만 아니라 특화된 해석도 더욱 발전하길 바라며, 저희의 모델 평가 내재화 경험이 다른 분들께 도움이 되었으면 좋겠습니다.”

  • Conor “일정 기간 동안 평가 방법론에 대한 연구에 집중하면서 각 방식의 범위와 한계를 정리할 수 있었습니다. 종합적이고 업데이트가 용이한 평가 방식을 구축하고, 각 상황에 맞는 데이터를 제작해 사용하는 결론만 보면 여러 국내외 빅테크 기업들과 큰 차이가 없어 보일 수도 있습니다. 그러나 그 결론에 도달하는 과정이 매우 의미 있었습니다. 그 과정을 통해 평가 방식을 더 잘 이해하게 되었고, 평가 방식을 체계화하면서 제작, 관리 및 개발 속도를 점점 더 빠르게 할 수 있었습니다.”

  • 📺 Aven과 Conor의 발표 영상/자료 확인하러 가기↗

오후 14:00 AI를 설명하면서 속도도 빠르게 할 순 없을까? SHAP 가속화 이야기 (feat. 산학협력) | 기술연구소 Thomas, Anny

2-thomas-anny-image Thomas와 Anny는 카카오뱅크에서 설명가능한 인공지능(XAI)을 활용하기 위해 연구개발한 경험을 공유했습니다. KAIST와 산학협력을 통해 기존 KernelSHAP의 설명 속도를 가속화한 XAI를 개발한 이야기와 실제 운영 환경에 적용해본 경험, 성능 측정 결과를 함께 소개합니다.

↳ 세션 간단 요약

■ 카카오뱅크의 XAI 사례
- XAI는 모델의 예측 결과를 보다 명확하게 설명할 수 있게 함으로써, 현업 전문가들과의 협업을 원활하게 하고 소통도 효율적으로 할 수 있습니다.

■ 산학협력을 통한 XAI 연구개발
- 기존 KernelSHAP 알고리즘의 한계였던 속도 문제를 해결하기 위해, 산학협력을 통해 KernelSHAP의 설명력을 유지하면서도 속도를 크게 향상시킨 새로운 XAI 알고리즘을 개발했습니다.

■ 카카오뱅크 모델 적용 결과
- 연구개발한 XAI 알고리즘을 카카오뱅크 AI서비스 모델에 적용한 결과, KernelSHAP 대비 최대 10배의 속도 향상과 함께, FastSHAP보다 높은 설명력을 확인할 수 있었습니다.

↳ 기억에 남는 질문과 답변

Q1. 'Explainable Boosting Machine'과 같은 Model-specific 한 XAI 방법론이 아닌, Model-agnostic한 SHAP을 연구 대상으로 선택하신 이유가 무엇인가요?
카카오뱅크는 다양한 비즈니스 영역에서 AI를 활용하고 있기 때문에, 특정 모델 아키텍처에 연구 결과의 활용이 한정되지 않도록 SHAP을 가속화 연구 대상으로 선정하였습니다.
Q2. XAI는 보통 post-hoc으로 활용하는 경우가 많을텐데, 속도가 중요한 이유가 있을까요?
오늘 소개해드린 이상 거래 탐지의 경우, 고객의 추가적인 금융 자산 손실을 막기 위해 빠르게 탐지하고 AI의 결과를 파악할 필요가 있었습니다. 그 외에도 XAI 알고리즘이 빠르면, 모델을 분석하거나 성능을 개선하는 데 소요되는 시간도 줄일 수 있을 것으로 기대합니다.

↳ 발표를 준비하면서 미처 못다한 이야기가 있다면 말씀해주세요.

  • Thomas “누군가에게 무언가를 설명하려면, 그 무언가를 잘 알고 있어야 잘 전달할 수 있다고 생각합니다. 이번 if(kakaoAI)와 같은 큰 행사에서 발표를 준비하면서, 그동안 연구개발해온 주제와 결과를 정리할 수 있어 좋았습니다. 연습을 많이 했지만, 떨려서 전달이 잘 되었는지는 모르겠네요. XAI 프로젝트에 함께해주신 많은 동료분들과, 귀한 시간 저희 세션에 참석해주신 청중분들께 감사하다는 말씀을 드리고 싶습니다.”

  • Anny “최근 AI 모델의 필요성과 관심이 증가하고 있는 만큼, AI를 설명하는 것도 함께 중요해지고 있다고 생각합니다. 개발한 모델과 적합한 XAI 알고리즘을 이용해 모델을 설명하고, 소통해보는 시간이 이번 카카오뱅크의 이야기가 도움이 되었으면 좋겠습니다.”

  • 📺 Thomas와 Anny의 발표 영상/자료 확인하러 가기↗

오후 15:00 이 문자가 스미싱인 이유는? - 스미싱 탐지를 위한 LLM 개발 및 평가 | 기술연구소 Day, Yun

3-day-yun-image Day와 Yun의 발표는 스미싱 문자로 인한 금융사기를 예방하기 위해 문자의 스미싱 여부를 판별하고, 그 이유를 사람이 이해할 수 있는 문장으로 생성할 수 있는 LLM을 연구개발한 내용을 소개합니다. 또한 스미싱 문자 판별 및 판단 근거 생성 LLM의 결과를 평가하는 다양한 방법들에 대해 이야기합니다.

↳ 세션 간단 요약

■ 대규모 생성형 언어 모델(LLM)의 원리와 LLM Adaptation 방법 소개
- 원하는 목적에 맞게 LLM을 활용하는 방법과 장단점, 그리고 팁들을 소개합니다.

■ 스미싱 판별 및 판단근거 생성 LLM 학습을 위한 프레임워크
- 문자가 스미싱인지 여부와 그 판단 이유를 생성하는 모델 학습 프레임워크를 통해 카카오뱅크의 자체 모델을 개발한 과정을 소개합니다.

■ LLM이 생성한 결과를 평가하는 다양한 방법
- 스미싱 탐지 정확도와 판단근거의 품질 평가를 위해, 여러 지표를 다방면으로 평가하여 카카오뱅크 자체 모델의 우수성을 확인했습니다.

↳ 기억에 남는 질문과 답변

Q1. 데이터셋 양과 학습, 평가 데이터의 비중이 궁금합니다.
전처리 후 데이터셋은 약 1만여 건입니다. 전체 수집 데이터 중 60%를 학습용, 20%를 검증용으로 활용하였고, 나머지 20%를 평가용 데이터로 활용했습니다.
Q2. 정성평가 시, 파인튜닝(Fine-tuning)된 모델과 프롬프트 엔지니어링(Prompt engineering)을 적용한 모델 간의 비교가 적절한지 궁금합니다.
시간 관계상 내용 전체를 싣지 못했지만, 실제로는 여러 모델을 후보군으로 두고 파인튜닝과 프롬프트 엔지니어링을 적용하여 비교 실험을 진행했습니다. 후보군으로 두었던 여러 모델 중 가장 성능이 좋았던 파인튜닝된(fine-tuned) 카뱅 자체 학습 모델과 GPT-4o에 프롬프트 엔지니어링을 적용한 결과만을 발표 자료에 실었습니다.

↳ 발표를 준비하면서 미처 못다한 이야기가 있다면 말씀해주세요.

  • Day “많은 참여와 관심에 진심으로 감사드립니다. 공유드렸던 내용이 LLM을 개발하고 이를 서비스에 활용하고자 하는 많은 분들이 시행착오(Trial & Error)를 줄이고, 원하는 목표를 이루는 데 도움이 될 수 있는 이정표가 되었으면 합니다.”

  • Yun “현장에서 많은 분이 관심 가져주셔서 감사했습니다. AI를 활용해 사용자 친화적인 방식으로 안전한 금융 생활에 기여할 수 있는 결과를 도출하고, if(kakaoAI) 기술 컨퍼런스를 통해 그 결과를 공유할 수 있어 뜻깊었습니다.”

  • 📺 Day와 Yun의 발표 영상/자료 확인하러 가기↗

Day2

오후 13:00 크루 패널톡(Crew Panel Talk) - “AI 서비스 개발 경험, 노하우, 인사이트” | AI개발팀 Ali

5-ali-image

크루 패널톡의 풀네임은 ‘AI 서비스 개발 경험에서 얻은 노하우와 인사이트 공유’로, 카카오와 공동체의 실무 개발자들이 전하는 AI 도입과 응용 사례를 야외 공간 Event Stage에서 공유하는 캐주얼한 형식의 자리였습니다. 당일에는 청중들 앞에서 자연스럽게 대화하는 것처럼 보였지만, 사실 그 전에 모더레이터(카카오 Hunter)와 패널톡 참여자들(카카오뱅크 Ali, 카카오손해보험 Merlin, 카카오 Rama, Robin)이 2-3번 정도 만나 전체적인 구성과 질의응답 방향에 대해서 논의하며 준비했습니다. 모두가 처음 도전해보는 형식의 발표였지만, 각자의 의견을 솔직하게 공유하고 소속된 회사의 현황에 대해 알 수 있어 흥미로운 시간이었습니다.

↳ 크루 패널톡과 현장에서 가장 인상 깊었던 질문과 Ali의 답변은 무엇이었나요?

Q1. LLM 기반의 AI 서비스를 개발하면서 가장 큰 기술적 도전은 무엇이었나요?
금융회사에서 ChatGPT와 같은 생성형 LLM을 사용하려면 몇 가지 기술적 도전이 있습니다. 금융분야 망분리 규제 개선책 덕분에 이제 금융회사에서도 이러한 서비스를 사용할 수 있게 되었지만, 여전히 대화에 개인신용정보를 사용하는 것은 불가능합니다. 개인정보보호와 보안을 중요시하는 금융 환경에서 AI 서비스 개발은 여전히 쉽지 않습니다. 금융회사가 자체 모델을 개발하여 사용해야 하는 경우도 많습니다.
또한, AI 서비스에서 응답 시간을 줄이는 것 역시 큰 기술적 도전입니다. 사용자의 기대를 맞추기 위해서는 높은 품질의 답변을 제공해야 하고, 은행이라는 특성상 윤리적이고 올바른 정보를 제공하는 것이 중요합니다. 이를 위해 가드레일과 같은 안전 장치를 LLM 앞뒤에 추가하다 보면 응답 시간이 느려질 수밖에 없습니다. 이러한 환경에서 빠른 응답 시간을 유지하기 위해 무작정 큰 모델만 사용하는 대신, 적재적소에 최적화된 모델을 찾고 배치하는 등의 노력이 필요합니다.
Q2. AI 서비스 개발에서 가장 보람을 느꼈던 순간은 언제였나요?
AI 서비스 개발을 해보신 분은 아시겠지만, 실제 서비스로 오픈하기까지의 과정이 참 쉽지 않습니다. 많은 분들을 만나 설득도 해야 하고, 모델 개발도 해야 하고, 성능도 챙겨야 하고 등등. 정말 많은 것들을 챙기고 완료해야 합니다. 이 때문에 실제 서비스를 오픈하고 난 뒤에 사용자로부터 피드백을 받는 것 자체가 큰 보람입니다. 부정적인 피드백이 오더라도 더 개선해서 좋은 서비스를 제공해 주면 되고, 긍정적인 피드백은 추가 업무 요청으로 이어지기 때문에 좋습니다.
최근 고객센터의 지식 검색 엔진과 자금세탁 보고 업무에서 보고서를 자동으로 요약해주는 서비스를 오픈하였는데 긍정적인 반응을 들어서 좋았습니다. 지식 검색 엔진은 클릭의 99% 이상이 첫 페이지에서 이루어지고 있고, 자금세탁 보고서 요약 서비스는 추가 업무 요청이 들어와서 진행하려 하고 있습니다.
Q3. RAG를 개발할 때, GraphRAG를 실무에 적용할 수 있나요?
GraphRAG는 단편적인 질문뿐만 아니라 여러 상품을 비교하는 데도 효과적입니다. 하지만 LLM을 통해 그래프를 구성하는 것은 비용이 많이 들고 추론 과정도 복잡합니다. 그래서 아직 발전의 여지가 있다고 판단했습니다. 그 대신, 저희는 서비스나 질문 특성에 맞추어 요약 문서를 별도로 생성하는 등의 방법으로 이 부분을 보완하고 있습니다. 관련 연구로는 문서들을 클러스터링하고 요약하는 RAPTOR와 같은 논문을 참고할 수 있습니다.

↳ 패널톡 준비 과정에서 좋았던 점, 아쉬운 점, 그리고 LLM 기반 AI 서비스 개발에 관심 있는 분들을 위한 팁은 무엇인가요?

  • Ali카카오그룹사에서 AI 서비스를 만드는 분들과 교류할 수 있다는 점이 매우 좋았어요. 서로 하는 업무나 당장 해결해야 하는 문제는 조금씩 다르지만, 비슷한 생각을 갖고 일하고 살아가고 있다는 것이 재미있었습니다. 패널톡을 통해 외부에 제가 한 일이나 동료들이 이룬 성과를 알리는 것도 의미 있었습니다. 패널톡은 틈틈이 답변이나 질문을 글로 남기는 식으로 준비하되, 주제와 관련이 있다 싶은 글이나 영상들도 많이 보고 생각을 정리했습니다. 현장에서도 말씀드렸지만, 직접 작게라도 경험해 보고 해당 분야의 전문가가 전달해주는 정보를 가까이하는 것이 도움이 됩니다. 다음에도 참여하게 된다면, 패널톡에 앞서 참여자들 간에 보다 깊이 있는 교류 시간을 마련하여 서로의 업무에 대해 더 많이 이해하고 싶습니다.”

더 자세한 내용은 if(kakaoAI)2024 크루 패널톡을 소개합니다를 참고해주세요!

오후 16:00 금융 규제와 개발자의 행복, 두마리 토끼를 잡는 DevOps pipelines | DevOps엔지니어링팀 Attar

5-attar-image Attar는 금융 규제를 준수하면서도 개발자 친화적인 클라우드 네이티브 DevOps 파이프라인 구축 사례를 소개했습니다. 금융 규제 환경에서 개발자들의 업무 효율성을 높이기 위해 그간 어떤 도전과 혁신을 이뤄왔는지, ‘1) 결재와 증적, 2) 접근 제어, 3) 망분리’라는 금융 규제 측면에서의 기술적 해결책을 제시했습니다.

↳ 세션 간단 요약

■ 결재와 증적 : 투명한 개발 환경의 핵심
- 금융 업무의 투명성과 권한 통제를 위해 결재와 증적이 중요한 요소입니다. 기존 GitLab과 ITSM 시스템 간의 연동 문제를 해결하기 위해 GitOps 방식을 도입하고, GitLab의 코드 리뷰와 merge request approval 기능을 통해 결재와 증적 과정을 자동화하여 개발자의 업무 효율성을 크게 향상시켰습니다.

■ 접근제어: 안전한 CI 파이프라인
- 금융회사에서 중요한 보안 통제 활동 중 하나인 접근 제어를 강화하기 위해 Docker 데몬을 사용하지 않는 daemonless 빌드 도구로 전환하여 보안 위협을 최소화하고, 초기에는 GitLab Runner에 IRSA를 부여했으나 최종적으로 GitLab CI/CD와 AWS OIDC 연동을 통해 접근 제어를 개선했습니다.

■ 망분리: 효율성과 보안을 모두 갖춘 개발 환경
- 망 분리는 외부망과 내부망을 분리하는 것으로, 카카오뱅크는 이를 준수하며 GitLab Enterprise와 AWS를 도입해 성능 이슈와 망간 동기화 문제를 해결하고, Container Registry 인증 리다이렉션 문제를 개선하여 안정적인 서비스 운영 환경을 구축했습니다.

↳ 기억에 남는 질문과 답변

Q1. 배포시에 증적은 어떻게 남기나요?
JIRA 기반으로 워크플로우를 구성하여 증적을 남깁니다. JIRA 이슈가 완료되면 webhook으로 GitLab에 git tag를 달아 배포 파이프라인을 트리거합니다.
Q2. 컨테이너 이미지로 빌드해서 금융망에 망연계하면 될거같은데 source code를 망연계하는 이유가 있나요?
규제상 금융망에서 개발하는 것이 원칙이기 때문에 금융망에 개발 활동에 대한 증적을 남기기 위해서입니다.

↳ 발표를 준비하면서 미처 못다한 이야기가 있다면 말씀해주세요.

  • Attar “카카오뱅크는 규제를 준수하면서도 개발자 친화적인 환경을 조성하려고 노력했습니다. 물론 과정에서 규제의 벽을 만날 때면 다른 해결책을 찾기 위해 노력해야 했지만, 규제의 본질을 이해하면 기술을 통해 해결할 수 있다는 것을 직접 경험하며, 그 결과물을 이렇게 발표를 통해 공유할 수 있어 더 의미가 있었던 것 같습니다.”

  • 📺 Attar의 발표 영상/자료 확인하러 가기↗

Day3

오전 10:00 금융AI 패널톡(AI Finance Panel Talk) - “카카오뱅크의 AI Ecosystem” | CTO Conrad

6-conrad-image Day3의 아침은 카카오그룹사 CTO가 한자리에 모여 ‘AI Finance’와 ‘AI Lifestyle’을 주제로 기술 중심의 카카오그룹사 CTO 패널톡으로 시작됐습니다. 이날 카카오뱅크는 AI Finance, 즉 ‘AI 금융과 AI 생활’이라는 주제의 패널톡에서 카카오페이, 카카오엔터프라이즈와 함께 참여했습니다.

카카오뱅크는 ‘카카오뱅크의 AI Ecosystem’을 주제로 발표를 준비했는데요. 이번 발표에서는 카카오뱅크가 고객들에게 더욱 편리하고 차별화된 금융 생활을 제공하기 위해 AI 기술을 어떻게 도입하고 활용하고 있는지에 대해 소개해드렸습니다.

■ 카카오뱅크가 이루어낸 AI 기술 혁신의 발자취
- 신분증 OCR과 같은 본인 인증 방식을 비롯해, 카뱅스코어를 이용한 대출 심사, FDS를 통한 이상 거래 탐지, 무자각 인증 기술, 그리고 고객센터 상담 처리 등 다양한 분야에서 AI 기술을 광범위하게 적용해 왔습니다.

■ AI Ecosystem 탄생 배경과 주요 구성 요소
- 체계적이고 안정적이며 지속 가능한 AI 혁신을 위해 AI Infra, AI Division, AI Product 이 세 가지 요소를 유기적으로 연결하여 성과를 창출하는 AI Ecosystem을 구성하였습니다.

■ AI 기술을 통해 만들어 가고자 하는 미래의 금융 서비스
- 카카오뱅크는 AI Ecosystem을 기반으로 고객들에게 더 편리하고 안전한 금융 상품과 서비스를 제공하며, 지속적으로 금융업계의 혁신을 선도해 나가고자 합니다.

더 자세한 내용은 [if(kakaoAI)2024] 내일의 경쟁력이 되는 카카오 AI 이야기 - AI Finance Panel Talk에서 영상과 함께 확인하실 수 있습니다.

오후 15:00 안정성과 유연성을 겸비한 카카오뱅크의 On-premise Kubernetes 구축 여정기 | 컨테이너플랫폼팀 Robin

7-robin-image Robin의 발표는 카카오뱅크의 On-premise Kubernetes 클러스터 구축 경험을 다뤘습니다. 과거 대부분의 서비스를 On-premise 서버 기반으로 AWS EKS k8s를 사용하며 운영했지만, 이번 발표는 환경적인 제약을 넘어서 금융 컴플라이언스 요건을 준수하며 안전한 Kubernetes 환경을 On-premise에 구성한 사례를 공유합니다. 특히 On-premise 환경에서의 고민과 해결 과정, 금융 서비스가 요구하는 보안 및 컴플라이언스를 충족시킨 방법 등을 소개하며, On-premise Kubernetes 클러스터 구축을 고민하는 이들에게 실무적인 인사이트를 제공합니다.

↳ 세션 간단 요약

■ 카카오뱅크의 클러스터 운영 환경
- Cluster API 오픈 소스 기반으로 구축하여 빠르고 편리한 노드 증/감설과 카카오뱅크만의 클러스터의 보안 설정을 쉽게 업데이트할 수 있는 구조로 운영하고 있습니다.

■ Kubernetes as a Service 철학의 물리 장비 관리
- Kubernetes와 연동이 필요한 네트워크, 방화벽, 스토리지들을 Kubernetes에서 YAML 파일을 기반으로 관리할 수 있도록 구성하고, GitOps 파이프라인을 이용해 형상화 및 자동 업데이트를 수행하고 있습니다.

■ 각종 요건들을 준수하며 안전하게 사용할 수 있는 보안 및 정책 관리
- Kyverno를 활용한 Mutating, Validate 정책 관리와 Cilium의 NetworkPolicy를 이용해 금융권에서 요구하는 보안 정책들을 준수하며 안전하게 Kubernetes를 운영하고 있습니다.

↳ 기억에 남는 질문과 답변

Q1. VM(Virtual Machine)이 아닌 PM(Physical Machine)의 클러스터 구성은 어떤 방법을 사용하고 있나요?
MaaS 오픈 소스 기반으로 PM을 관리하고, 장비의 전원 on/off부터 OS 설치 및 클러스터 구성을 Cluster API와 연동하여 사용하고 있습니다.
Q2. 금융권에서 주기적으로 수행되는 감사 등 증적 자료 제출 요구는 어떻게 대응하고 있을까요?
Kubernetes에서 관리하는 모든 리소스는 Git을 기반으로 운영되도록 구성합니다. CLI 등으로 수동으로 수정 가능한 부분을 최소화하고, Git의 commit history를 변경 이력으로 관리하고 있습니다.
Q3. GPU 클러스터는 어떤 방법으로 구성하시는지요?
Nvidia-operator를 기반으로 한 클러스터를 구성하고 있습니다. 현재는 OS에 사전 작업으로 커널 옵션 및 GPU 드라이버를 구성하고, Device plugin을 활용해 Time-slicing, MIG까지 활용 중이며, 향후 GPUDirect RDMA 및 InfiniBand 등 다양한 형태의 GPU 클러스터 지원을 계획하고 있습니다.

↳ 발표를 준비하면서 미처 못다한 이야기가 있다면 말씀해주세요.

  • Robin “IT 서비스 기업에서 카카오뱅크에 합류하신 분들이 은행이라는 특수한 환경에서도 불편함을 최소화하고, 좋은 개발 경험을 가질 수 있도록 열심히 노력하고 있습니다. 이번 발표를 통해 공유드린 카카오뱅크의 Kubernetes 환경 구축 경험을 통해서 금융권에서의 Kubernetes 클러스터 사용에 새로운 인사이트를 얻어가셨으면 합니다. 감사합니다.”

  • 📺 Robin의 발표 영상/자료 확인하러 가기↗