AI 시대, GPU 발열로 한계에 부딪힌 공랭식 냉각의 대안으로 액체 냉각(Liquid Cooling) 기술이 떠오르고 있습니다. 이 글에서는 카카오뱅크 인프라팀이 분석한 룸(Room)에서 칩(Chip) 단위로 발전하는 냉각 기술의 진화 과정을 살펴보고, 성공적인 도입을 위해 전력, 물, 안정성 등 인프라 전반의 변화가 필수적인 이유를 소개합니다. AI 데이터센터의 미래와 이를 준비하는 엔지니어의 실질적인 고민이 궁금하다면 꼭 읽어보시길 추천합니다.

안녕하세요, 카카오뱅크 인프라팀에서 데이터센터 운영을 담당하고 있는 Jin입니다.

몇 년 전부터 전 세계적으로 ‘AI 골드러시’가 시작되었습니다. 기업들은 앞다퉈 더 똑똑한 AI 모델을 선보이며 치열하게 경쟁하고 있지만, 이 전쟁의 승패를 가를 또 다른 격전지는 바로 인프라입니다. 그 중 IT 서비스와 자산을 안전하고 효율적으로 운영하는 물리적 기반인 데이터센터가 그 중심에 있습니다.

생성형 AI의 등장은 무한한 가능성을 열었지만, 데이터센터 업계에는 전례 없는 과제를 안겨주었습니다. 더 똑똑한 AI를 학습시키기 위해 수만 개의 GPU가 쉴 틈 없이 가동되면서, 데이터센터는 전력 기근발열과의 전쟁이라는 이중고에 직면하게 된 것입니다.

이러한 거대한 변화의 흐름에 발맞춰, 카카오뱅크 데이터센터팀 역시 새로운 기술 환경에 선제적으로 대응하기 위해 많은 고민을 하고 있습니다. 그 해법 중 하나로 떠오르는 수냉식 냉각 시스템의 실제 운영 환경을 벤치마킹하고자 작년 11월, 해외 데이터센터를 방문했습니다. 이번 글에서는 당시 출장에서 얻은 생생한 경험과 지식을 공유해 드리고자 합니다.

AI 골드러시의 최전선, 버지니아에서 마주한 데이터센터의 열기

이번 출장을 준비하며, 머릿속에는 크게 두 가지 궁금증이 있었습니다.

1. 미래 AI 서비스를 위한 데이터센터는 과연 어떤 모습일까?
2. 그 핵심 기술인 액체 냉각 시스템은 실제로 어떻게 구성될까?

이 궁금증에 대한 답을 직접 확인하고자, 저희는 글로벌 데이터센터 코로케이션(Colocation) 기업인 ‘디지털리얼티(Digital Realty)‘의 데이터센터 여러 곳을 방문했습니다.

센터에 도착하기도 전, 저희는 거대한 변화의 현장을 마주했습니다. 방문 예정지 주변은 이미 끝없이 펼쳐진 부지마다 새로운 데이터센터가 들어서는, 그야말로 데이터센터 건설의 열기로 가득했습니다. 이 광경을 보며 AI 시대의 데이터센터 수요가 얼마나 폭발적인지, 그리고 미국 시장의 압도적인 규모를 온몸으로 체감할 수 있었습니다.

1-datacenter-construction-virginia.jpg
[그림 1] 데이터센터 건설 공사가 한창인 미국의 버지니아주 전경

이 거대한 현장을 마주하니, 무엇보다 ‘전력’ 문제가 가장 먼저 떠올랐습니다. 이 많은 데이터센터가 필요로 하는 막대한 전기를 과연 어떻게 감당하고 있을까 하는 점이었습니다.

내부 시설은 보안상 자세히 보여드릴 수 없지만, 이번 방문에서 특히 의미 있었던 점을 공유해 드리고자 합니다. 바로 최신 건물(Greenfield)이 아닌, 이미 운영 중이던 기존 데이터센터(Brownfield)에 ‘수냉식(액체 냉각) 시스템’의 테스트 환경을 갖춰 놓았다는 사실입니다. 덕분에 저희가 마주한 ‘기존 인프라에 차세대 냉각 기술을 어떻게 도입할 것인가’라는 현실적인 과제에 대해 깊이 생각해 볼 수 있었습니다.

이제, 랙(Rack)당 전력 밀도가 한계를 돌파하고 있는 AI 시대에 왜 냉각 시스템의 변화가 필수 생존 조건이 되었는지, 그 현주소를 짚어보겠습니다.

데이터센터 Cooling System의 패러다임 변화

데이터센터의 심장인 서버와 네트워크 장비들은 24시간 쉬지 않고 일하며, 그 과정에서 엄청난 열을 뿜어냅니다. 이 열을 신속하게 제거하고 장비의 안정적인 작동 온도를 유지하는 것이 바로 데이터센터 냉각(Cooling) 시스템의 핵심 역할입니다. 열 관리에 실패하면 장비의 성능이 저하되거나 멈춰 서기 때문에, 냉각은 데이터센터의 생명줄과도 같습니다.

지금까지 데이터센터는 주로 ‘공기’를 이용해 열을 식혀왔습니다. 거대한 에어컨과 같은 항온항습기(CRAC/CRAH) 가 차가운 공기를 만들어 순환시킴으로써 서버의 열을 식히는, 이른바 공랭식(Air Cooling) 방식이 전통적인 해법이었습니다.

2-crac-crah-air-cooling-system.png
[그림 2] CRAC/CRAH 공기 냉각 시스템

성능과 발열의 딜레마: HPC(High-Performance Computing)와 AI GPU

2015년부터 2020년까지 하드웨어의 발전이 ‘점진적 진화’에 가까웠다면, 최근 5년은 그야말로 ‘폭발적인 도약’의 시기였습니다. AI 수요 폭증과 함께 칩의 전력 소비량은 가파르게 치솟았습니다.

불과 5년 만에 GPU의 전력 소비량(TDP)은 400W에서 1,000W 이상으로 2.5배, CPU는 270W에서 500W 수준으로 2배 가까이 증가하며 과거 수십 년의 변화를 뛰어넘는 압도적인 증가세를 보였습니다.

3-intel-xeon-cpu-power-usage-tdp.jpg
[그림 3] Intel Xeon CPU의 전력 소비량(TDP, Thermal Design Power)의 변화
4-nvidia-gpu-power-usage-tdp.jpg
[그림 4] Nvidia GPU 전력 소비량(TDP, Thermal Design Power)의 변화

칩의 성능을 끌어올리기 위한 경쟁이 이처럼 전력 소비량의 급증을 불러왔다는 사실은, 곧 데이터센터가 단위 면적당 감당해야 할 발열량 역시 극한으로 치솟았다는 것을 의미합니다. 이는 기존의 공랭식 시스템만으로는 더 이상 감당하기 어려운 수준에 이르렀음을 보여줍니다.

실제로 Uptime Institute, Gartner, MarketsandMarkets와 같은 유수의 기관들은 2030년경이면 랙(Rack)당 40kW를 훌쩍 넘는 초고밀도 AI 서버가 일반화될 것으로 분석합니다. 새로운 냉각 방식이 더 이상 선택이 아닌 필수가 된 것입니다.

5-next-gen-ai-server-estimated-power-usage.jpg
[그림 5] 차세대 AI서버 예상 전력 소비량

한계에 봉착한 기존 공랭식 냉각(Air Cooling)

이처럼 칩의 발열량이 폭증하자, 차가운 공기로 데이터센터 전체를 식히는 전통적인 ‘공랭식’ 방식은 명백한 한계에 부딪혔습니다. 랙(Rack)당 전력 밀도가 높아지면서, 다음과 같은 세 가지 근본적인 문제가 드러났습니다.

첫째, 발열 제어의 한계입니다. 랙당 전력 밀도가 10kW를 넘어서는 순간부터, 공기만으로는 랙 내부의 뜨거운 열을 완벽히 식히기 어려워집니다. 결국 열이 제대로 빠져나가지 못하는 ‘핫스팟(Hotspot)‘이 발생해 서버 성능 저하나 장애로 이어집니다. 이를 해결하기 위해 더 강력한 공조기를 더 많이 설치하면, 둘째 문제인 공간과 비용의 한계에 직면합니다. 냉각 설비가 데이터센터의 더 넓은 면적을 차지하게 되면서, 정작 중요한 IT 장비를 설치할 공간은 줄어들고 건축 및 운영 비용은 급증하는 비효율이 발생합니다. 마지막으로 이 모든 문제는 전력 효율의 한계, 즉 PUE(Power Usage Effectiveness) 악화로 귀결됩니다.

💡 PUE(Power Usage Effectiveness)란?

PUE란 데이터센터의 총에너지 사용량을 IT 장비가 소비한 에너지양으로 나눈 값으로, 데이터센터의 전력 사용 효율을 보여주는 핵심 지표입니다. PUE가 1.0에 가까울수록 낭비되는 전력 없이 IT 장비에만 에너지가 효율적으로 사용된다는 뜻입니다.

6-datacenter-power-impact-on-pue.png
[그림 6] 데이터센터의 PUE에 영향을 미치는 요소

하지만 공랭식 시스템은 막대한 양의 공기를 냉각하고 순환시키기 위해 거대한 공조기(CRAC/CRAH)와 팬을 쉴 새 없이 가동해야 합니다. 이 때문에 일반적인 공랭식 데이터센터의 PUE는 1.5를 넘는 경우가 많습니다. 이는 IT 장비를 가동하는 데 100의 전력을 쓴다면, 냉각과 같은 부대 시설 유지에 50 이상의 전력을 추가로 낭비하고 있다는 의미입니다.

판도를 바꾸는 기술, 액체 냉각(Liquid Cooling, D2C(Direct-to-Chip))의 등장

그렇다면 앞서 살펴본 공랭식의 문제들을 어떻게 해결할 수 있을까요? 그 해답으로, ‘액체 냉각(Liquid Cooling)’ 기술이 새로운 게임 체인저로 떠오르고 있습니다. 공기 대신 물(Water)이나 특수 냉각액(Dielectric Fluid)을 이용해, 열을 발생하는 칩에 직접 냉각재를 공급하는 ‘D2C(Direct-to-Chip)’ 방식이 그 핵심입니다.

7-liquid-cooling-server-internal-view-example.png
[그림 7] 수냉식 서버 내부 모습의 예시

원리는 간단합니다. 액체는 공기보다 수천 배 높은 열용량을 가집니다. 덕분에 훨씬 적은 양으로도 서버에서 발생하는 열을 더 빠르고 효율적으로 흡수하여 제거할 수 있습니다. 이는 데이터센터 운영에 두 가지 극적인 개선을 가져옵니다.

첫째, PUE가 획기적으로 개선됩니다. 열원(칩)을 직접 식히면서 거대한 공조 설비의 의존도를 크게 낮추거나 아예 제거할 수 있어, PUE를 1.1 ~ 1.3 수준까지 낮추는 것이 가능해집니다.

둘째, 초고밀도 환경에 완벽히 대응할 수 있습니다. 액체 냉각은 랙당 전력 밀도가 100kW를 넘어서는 극한의 환경까지 감당할 수 있어, AI 서버의 성능을 최대로 활용할 수 있는 기반을 마련합니다.

물론 액체 냉각이 만능은 아닙니다. 초기 투자 비용과 배관 설비, 누수 위험 관리 등 공랭식에는 없던 새로운 과제들이 따릅니다. 따라서 무조건 도입하기보다는, AI 워크로드의 규모와 데이터센터의 환경을 정밀하게 분석하여 꼭 필요한 곳에 최적의 방식으로 적용하는 지혜가 필요합니다.

내 데이터센터에 맞는 냉각 기술은? (전력 밀도별 솔루션 가이드)

AI 시대에 들어서 발열 문제가 증폭되었지만, 사실 데이터센터의 발열 증가는 어제오늘의 일이 아닙니다. 그렇다면 업계에서는 어떤 기준으로 냉각 방식을 결정해 왔을까요? 그 해답은 랙당 전력 밀도(kW/Rack)에 있습니다. 아래는 글로벌 IT 인프라 기업 Vertiv에서 제시한 가이드로, 랙당 전력 밀도에 따라 어떤 냉각 솔루션이 적합한지를 명확히 보여줍니다.

8-overview-of-data-center-liquid-cooling.jpg
[그림 8] 전력 밀도별 냉각 솔루션 가이드 (출처: Vertiv)

그래프에서 볼 수 있듯, 랙당 15kW가 전통적인 공랭식과 차세대 액체 냉각을 가르는 중요한 분기점이 됩니다.

  • ~ 15kW/Rack: 기존의 공랭식 시스템으로 안정적인 운영이 가능한 구간입니다.
  • 15kW/Rack ~: 공기만으로는 열을 감당하기 어려워져, 액체 냉각(수랭식) 시스템 도입이 필수적으로 권장되는 고밀도 구간입니다.

결국, AI 서버 도입으로 랙의 전력 밀도가 15kW를 넘어서는 순간, 데이터센터는 액체 냉각으로의 전환을 심각하게 고려해야만 하는 것입니다.

그렇다면 이 기준에 따라 나뉘는 다양한 냉각 시스템들은 구체적으로 어떻게 발전해 왔을까요? 이어지는 내용에서 각 방식의 특징과 차이점을 자세히 살펴보겠습니다.

더 가까이, 더 직접적으로: AI 냉각 기술의 ‘초밀착’ 진화

전기가 흐르는 IT 장비에 물을 붓는다는 상상을 해보셨나요? 과거에는 상상조차 할 수 없던 이 방식이, 이제는 AI 데이터센터의 미래를 이끌고 있습니다.

냉각 기술의 발전은 한마디로 ‘초밀착’ 으로 요약할 수 있습니다. 데이터센터 전체 공간을 식히던 룸(Room) 단위에서, 서버가 놓인 줄을 식히는 로우(Row) 단위를 거쳐, 이제는 열이 발생하는 칩(Chip) 바로 위에 냉각수를 직접 흘리는 방식으로, 열원과의 거리가 끊임없이 가까워지고 있습니다.

이 변화는 단순히 기술의 발전을 넘어, 냉각을 바라보는 관점 자체를 바꾸어 놓았습니다. 과거에는 데이터센터의 냉각 방식을 이야기할 때, 거대한 공조 설비(CRAC/CRAH)를 기준으로 ‘공랭식/수냉식 데이터센터’를 구분했습니다. 하지만 이제는 냉각의 기준이 ‘IT 장비’로 옮겨와, ‘공랭식 서버’와 ‘수냉식 서버’ 로 나누어 이야기합니다.

이제 누군가와 대화할 때 “Liquid Cooling, 특히 D2C 방식” 이라고 언급한다면, 데이터센터 전문가처럼 보일지도 모릅니다. 😉

그렇다면 데이터센터 냉각 방식이 구체적으로 어떻게 진화해 왔는지, 그 과정을 단계별로 자세히 살펴보겠습니다.

1단계: 공간 전체를 식히다 (룸 단위 냉각)

데이터센터 냉각의 가장 전통적이고 기본적인 방식입니다. 이름처럼 데이터센터라는 공간 전체를 거대한 냉장고처럼 만들어, 온도와 습도를 일정하게 유지하는 것을 목표로 합니다.

9-typical-rack-row-arrangement.jpg
[그림 9] 핫/콜드 복도(Hot/Cold Aisle)를 구성한 룸 단위 냉각의 일반적인 랙 배치

핵심 설비는 항온항습기(CRAC/CRAH) 입니다. 이 장비가 서버에서 뿜어져 나온 뜨거운 공기를 빨아들여 차갑게 만든 뒤, 데이터센터 바닥이나 천장을 통해 다시 공급하며 공기를 순환시킵니다. 얼핏 비슷해 보이는 CRAC과 CRAH는 냉각 방식에서 결정적인 차이가 있습니다.

✔️ CRAC (Computer Room Air Conditioner)

  • ﹒원리: 자체 냉동기(압축기)를 내장하고 있어, 스스로 냉매를 압축해 차가운 공기를 만듭니다.
  • ﹒비유: 실외기가 결합된 가정용 스탠드 에어컨을 떠올리면 이해하기 쉽습니다.

✔️ CRAH (Computer Room Air Handler)

  • ﹒원리: 자체 냉동기 없이, 외부의 중앙 냉동기(칠러, Chiller)로부터 차가운 물(냉수)을 공급받습니다. 이 냉수를 이용해 공기를 차갑게 식히는 열교환기 역할만 수행합니다. 비유: 자동차 라디에이터처럼, 차가운 액체가 흐르는 관에 팬으로 바람을 불어넣어 시원하게 만드는 방식과 유사합니다.
  • ﹒비유: 자동차 라디에이터처럼, 차가운 액체가 흐르는 관에 팬으로 바람을 불어넣어 시원하게 만드는 방식과 유사합니다.

이처럼 룸 단위 냉각은 데이터센터 전체를 관리하는 가장 기본적인 접근법이라고 할 수 있습니다.

10-crac-crah-comparison-table.png

2단계: 더 가까이, 열의 바로 앞에서 (근접 냉각)

랙당 전력 밀도가 15~20kW를 넘어서면서, 데이터센터 전체를 식히는 룸 단위 방식은 힘에 부치기 시작합니다. 특정 고밀도 랙에서 뿜어져 나오는 열을 다 식히지 못해 핫스팟(Hotspot)이 생기는 문제가 발생하기 때문입니다.

이 문제를 해결하기 위해 등장한 것이 바로 근접 냉각(Close-coupled Cooling) 입니다. 이름처럼, 열이 발생하는 랙 바로 근처에서 열을 즉시 제거하는 방식이죠. 과거에 데이터센터 한쪽 벽면에 멀찍이 떨어져 있던 항온항습기(CRAC/CRAH)가 서버 랙 바로 옆으로 이사 왔다고 생각하면 쉽습니다.

대표적인 방식은 두 가지입니다.

1. 인로우 냉각 (In-Row Cooling)

서버 랙들이 늘어선 줄(Row) 중간중간에, 서버 랙과 똑같이 생긴 냉각 장치를 배치하는 방식입니다.

  • ﹒원리: 랙 옆에 자리 잡은 냉각기가 뜨거운 공기가 다른 곳으로 퍼지기 전에 즉시 흡수하여 차갑게 식힌 후, 다시 랙으로 공급합니다.
  • ﹒비유: 여러 사람이 모여있는 방에서, 열이 많이 나는 사람 바로 옆에 전용 에어컨을 한 대 놓아주는 것과 같습니다.

11-in-row-coolers-between-racks.jpg
[그림 10] 랙 사이에 냉각기를 배치하는 인로우(In-Row) 방식

2. 랙 후면 열교환기 (RDHx, Rear-door Heat Exchanger)

한 단계 더 나아가, 아예 서버 랙의 뒷문(Rear-door) 자체를 냉각 장치로 만든 방식입니다.

  • ﹒원리: 서버를 통과하며 뜨거워진 공기가 랙 밖으로 나오기 직전, 냉각 코일이 촘촘히 박힌 뒷문을 통과하며 열을 모두 빼앗기게 됩니다.
  • ﹒비유: 뜨거운 바람이 나오는 배출구에 차가운 필터를 장착해, 바람이 밖으로 나올 땐 이미 시원한 바람이 되게 만드는 것과 유사합니다.

12-rack-rear-door-cooler.jpg
[그림 11] 랙 후면 도어에 열교환기를 장착하는 RDHx 방식

13-1-direct-chip-cooling-it-equipment-level.png

3단계: 열의 근원을 직접 공략하다 (칩 단위 냉각, IT Equipment Level)

결국 가장 효율적인 냉각은, 열이 발생하는 근원을 직접 다루는 것입니다. AI 데이터센터에서 그 열의 진원지는 바로 칩(Chip) 입니다.

AI 데이터센터의 표준으로 자리 잡고 있는 D2C(Direct-to-Chip) 방식은, 서버에서 가장 뜨거운 GPU와 CPU 위에 냉각수가 흐르는 콜드플레이트(Cold Plate)를 직접 밀착시켜 열을 흡수하는, 가장 공격적이고 효율적인 냉각 기술입니다.

14-liquid-cooling-system-diagram.jpg
[그림 12] 액체 냉각(D2C) 시스템의 주요 구성 요소

물론, D2C 시스템이 데이터센터의 모든 공랭 설비를 100% 대체하는 것은 아닙니다. 칩 주변의 다른 부품(메모리, 전원부 등)의 열을 식히기 위해 보조적인 공랭 설비가 여전히 필요하므로, 현재는 액체 냉각과 공랭식이 결합된 ‘하이브리드(Hybrid)’ 형태로 구성되는 경우가 많습니다.

기존에 없던 D2C 시스템을 구축하기 위해서는, 다음과 같은 세 가지 핵심 설비가 유기적으로 작동해야 합니다.

15-1-immersion-cooling-ultimate-solution.png

4단계: 냉각의 끝판왕, 액침 냉각 (Immersion Cooling)

만약 서버를 특수 용액에 통째로 담가버린다면 어떨까요?

이것이 바로 냉각 기술의 가장 급진적인 형태인 액침 냉각(Immersion Cooling)입니다. 이 방식은 D2C처럼 칩 위에만 냉각수를 흘리는 것을 넘어, 서버 전체를 전기가 통하지 않는 특수 용액(Dielectric Fluid)에 완전히 담가 열을 식힙니다.

15-immersion-cooling-image-example.png
[그림 13] 특수 용액에 담긴 액침 냉각 서버의 예시

서버의 모든 부품(CPU, GPU, 메모리, 전원부 등)이 냉각액과 직접 맞닿아, 열이 발생하는 즉시 흡수됩니다. 이론적으로 가장 완벽한 냉각 방식이라 할 수 있습니다.

냉각의 핵심은 '거리'

지금까지 살펴본 냉각 기술의 진화는 한 문장으로 요약할 수 있습니다.

얼마나 열원(Heat Source)에 가깝게 다가갈 수 있는가?

룸(Room)에서 로우(Row)로, 로우에서 칩(Chip)으로, 그리고 마침내 칩을 포함한 서버 전체를 액체에 담그기까지. 결국 AI 데이터센터 인프라의 핵심은 열과의 ‘거리’를 좁히는 싸움입니다.

초고성능 랙이 보편화될수록, 우리 데이터센터는 공기보다 ‘액체’와 훨씬 더 가까워질 수밖에 없을 것입니다.

AI 데이터센터, 인프라의 판을 다시 짜다

앞서 다양한 냉각 솔루션을 살펴보았다면, 이제는 그 솔루션이 원활히 작동하기 위한 ‘인프라’의 변화를 짚어볼 차례입니다. AI 데이터센터는 단순히 액체 냉각 장비를 도입하는 것을 넘어, 전력 공급부터 설비 시스템, 안정성 기준까지 모든 것의 근본적인 재설계를 요구하고 있습니다.

‘사무실’에서 ‘용광로’로: AI 데이터센터의 근본적인 차이

과거의 데이터센터 관리가 ‘쾌적한 사무실’을 유지하는 일이었다면, AI 데이터센터는 ‘거대한 용광로’의 온도를 제어하는 고도의 공정 시스템에 가깝습니다. 이는 인프라의 세 가지 측면에서 결정적인 차이를 만들어냅니다.

16-datacenter-furnace-and-cooling-firefighter.png
[그림 14] 용광로(AI 데이터센터)를 식히는 냉각 시스템

1. ‘전력’: 차원이 다른 전력 설계

가장 큰 변화는 전력 밀도입니다. 일반 서버 랙이 5~10kW를 소비할 때, AI 서버 랙은 40kW에서 최대 120kW 이상의 전력을 필요로 합니다. 이는 전기차 수십 대를 동시에 급속 충전하는 것과 맞먹는 엄청난 전력량입니다.

따라서 단순히 UPS(무정전 전원장치) 용량을 늘리는 수준을 넘어, 데이터센터로 들어오는 변압기, 주 배전반, 랙에 연결되는 케이블 규격까지 완전히 다른 차원의 재설계가 필수적입니다.

17-increasingly-high-power-density.jpg
[그림 15] 초고밀도화되는 AI 데이터센터의 랙당 전력 수준

2. ‘물’: 새로운 자원이자 새로운 위험

액체 냉각이 도입되면서, 냉각수가 건물의 주 배관을 넘어 랙과 서버 내부까지, 말 그대로 ‘모든 곳’에 흐르게 됩니다. 전기 설비와 동일한 공간에 물 배관이 공존하게 되면서, 누수로 인한 장애 위험을 관리하는 것이 무엇보다 중요해졌습니다.

또한, 물 사용량이 급증함에 따라 데이터센터의 효율성을 평가하는 기준도 달라집니다. 기존의 PUE(전력 사용 효율)뿐만 아니라, WUE(물 사용 효율)가 새로운 핵심 관리 지표로 떠오릅니다.

18-expansion-of-water-based-equipment.jpg
[그림 16] 데이터센터 내부에 확장되는 물 사용 장비

3. ‘안정성’: 2N을 넘어 N+M Redundancy (범용 다중화)

과거에는 다운타임을 막는 이중화(2N)가 전원 설계의 표준이었습니다. 하지만 AI 워크로드는 전원 하나만 손실되어도, 셧다운이 일어나지 않더라도 GPU 성능이 저하되어 전체 서비스 품질에 즉시 영향을 미칩니다.

이 때문에 AI 서버는 3중화(3N) 또는 서로 다른 3개의 Power Source에서 공급하는 것을 권장합니다. 이는 단순히 장비를 끄지 않는 소극적 안정성을 넘어, 최고의 성능을 항상 보장하는 적극적인 안정성을 확보하기 위함입니다.

19-1-power-changes-for-stable-operation.jpg
[그림 17] 서비스 안정성을 위해 고도화되는 전원 구성

마치며

지금까지 AI의 발전이 데이터센터의 풍경을 얼마나 근본적으로 바꾸고 있는지 살펴보았습니다. 하지만 기술의 도입은 언제나 새로운 질문을 낳습니다. 이제 우리는 ‘어떻게’ 이 기술을 현장에 지혜롭게 적용할 것인지, 그리고 어떤 위험을 관리해야 하는지에 대한 고민을 시작해야 합니다.

✔️ 첫째, '표준 설계'의 시대는 끝났다는 사실을 받아들여야 합니다. AI 데이터센터는 과거의 정형화된 설계 공식이 더 이상 통용되지 않는, 완전히 새로운 환경입니다. 이제 우리는 특정 워크로드와 주어진 환경에 최적화된 맞춤형 설계를 고민해야 하며, 오늘 살펴본 D2C는 그 긴 여정의 시작점일 뿐입니다.

✔️ 둘째, '하이브리드 운영'과 '새로운 위험 관리'는 동전의 양면과 같습니다. 모든 장비를 한 번에 액체 냉각으로 교체하는 것은 현실적으로 불가능하기에, 상당 기간 기존의 공랭식과 새로운 액체 냉각 시스템은 한 공간 안에서 공존해야 합니다. 이는 단순히 이질적인 두 시스템을 조화롭게 운영하는 것을 넘어, 과거에는 없던 누수, 냉각 유체의 부식 및 오염 관리와 같은 새로운 위험에 맞서야 함을 의미합니다. 액체 냉각 환경에 특화된 정교한 모니터링 시스템과 긴급 대응 시나리오가 중요한 화두가 될 것입니다.

✔️ 마지막으로, 이 모든 변화는 결국 '사람'과 '팀'의 역량으로 귀결됩니다. 과거에는 전력, 냉각, IT가 각자의 영역에서 전문가로 존재했다면, 이제는 한 시스템의 변화가 다른 시스템의 연쇄적인 파급효과를 낳는 시대입니다. 설비 엔지니어와 IT 엔지니어가 서로의 언어를 이해하고, 전체 시스템의 안정성과 효율을 최적화하는 통합적 시각을 갖추는 것이 그 어느 때보다 중요해졌습니다.

AI가 가져온 데이터센터의 변화는 이제 시작입니다. 이 거대한 흐름 속에서 카카오뱅크 인프라팀 또한 기술적 도전을 성장의 기회로 삼아, 더 안정적이고 효율적인 인프라를 구축하기 위해 끊임없이 나아가겠습니다. 긴 글 읽어주셔서 감사합니다.