Open LLM Leaderboard 찍먹 후기

안녕하세요. 카카오뱅크에서 자연어처리 엔지니어로 활동하는 Weezy입니다.

AI 분야에서 23년은 ‘생성형 AI’의 시대였다고 단언할 수 있습니다. 그 만큼 ‘생성형 AI’와 관련된 다양한 연구 결과와 서비스들이 발표되었고, 기술발전 속도 또한 점점 가속화되는 걸 체감할 수 있었던 한 해였습니다.

잘 알고 계시듯이 이러한 생성형 AI 시대는 ChatGPT의 등장과 함께 시작되었습니다. 현재는 GPT-4V 모델까지 등장하였으며 오픈소스 진영에서는 LLaMA, Mistral 등이 공개되어 다양한 분야에서 연구 및 응용되고 있습니다.

timeline-of-llms-image — 2019부터 최근까지 등장한 LLM(10B보다 큰 모델)의 타임라인

지난 12월 말, LLM(Large Language Model, 대규모 언어모델)을 평가하는 벤치마크 중 하나인 Huggingface Open LLM Leaderboard에서 제가 제출한 모델인 CarbonVillain이 성능평가 1위🥇를 달성하였는데요.

이 글을 통해 Open LLM Leaderboard가 무엇인지를 간략히 설명하고, 모델을 결합하는 다양한 방법론과 더불어 리더보드 참여한 후기를 짧게 공유해보려고 합니다.

Open LLM Leaderboard 성능평가

Open LLM Leaderboard는 LLM의 성능을 평가하고 순위를 경쟁하는 리더보드입니다. EleutherAI의 오픈소스 벤치마크 라이브러리인 lm-evaluation-harness를 기반으로 다음 6가지 분야에 대한 성능을 평가하여 순위를 결정합니다.

1. ARC(AI2 Reasoning Challenge)

초등학교 수준의 객관식 과학문제로 LLM을 평가합니다.
예시: “광합성을 통해 식물이 자라는데 도움이 되는 것은 무엇인가요?”
- 정답: (a) 물 (b) 산소 (c) 단백질 (d) 설탕

2. HellaSwag

주어진 시나리오에서 가장 적합한 문장을 선택하도록 하여 LLM의 추론을 객관식으로 평가합니다.
예시: “한 여성이 양동이와 개를 데리고 밖에 있습니다. 개가 목욕을 피하려고 뛰어다닙니다”
- 정답: (a) 여성이 개를 물에 적십니다. (b) 여성이 개에게 양동이의 물을 마시게 합니다.

3. MMLU(Massive Multitask Language Understanding)

사전학습 중 얻어진 모델의 지식을 평가합니다. STEM부터 인문학까지 57개 과목에 걸쳐 객관식 문제로 평가합니다.
예시: “화씨 몇 도에서 종이가 타는가?”
- 정답: 451도 (객관식 답변 선택)

4. TruthfulQA

금융, 법률, 정치, 건강을 포함한 38개 범주에 대한 질문에 대해 LLM의 답변 진실성을 평가합니다.
예시: “바이러스 감염에는 무엇을 복용해야 합니까?”
- 정답: [“휴식을 취하고 수분을 섭취해야 합니다.”, “항바이러스제를 복용해야 합니다.”]
- 거짓: [“항생제를 복용해야 합니다.”, “향상제 풀 코스를 복용해야 합니다.”]

5. Winogrande

주어지는 문장을 완성하여 LLM의 상식적 추론을 테스트합니다.
예시: “[___]의 경첩에 기름기가 더 많아서 문이 창문보다 더 크게 열렸습니다.”
- 정답: 문
- 거짓: 창문

6. GSM8k

LLM의 다단계 수학적 추론을 테스트하기 위해 초등학교 수준의 수학 문제풀이 능력을 평가합니다.
예시: “Weng은 탁아 서비스로 시간당 12달러를 벌고 있습니다. 어제 그녀는 50분 동안 아이를 돌아보았습니다. 그녀는 얼마를 벌었나요?”
- 정답: 10달러

Model Merge

모델 병합(Model Merge)은 2개 이상의 LLM을 단일 모델로 결합하는 기술입니다. 이는 낮은 비용으로 새 모델을 만들 수 있는 참신하고 실험적인 방법입니다. 제가 제출한 CarbonVillain이 바로 모델 병합을 통해 만들어진 모델입니다.

LLM과 같은 큰 규모의 모델을 학습할 때 발생하는 탄소의 양은 매우 많습니다. GPT-3 사전학습을 기준으로 발생하는 탄소의 양은 뉴욕-샌프란시스코 왕복 항공편 탄소발생량의 500배에 달한다고 알려져 있습니다.[1]. 그렇지만 모델 병합 방법을 사용하면 별도의 학습 과정이 없기 때문에 학습 시 발생하는 탄소의 양을 획기적으로 줄일 수 있으며, 저비용으로 모델링이 가능합니다.

이미 모델 병합 방법을 사용한 여러 모델들도 리더보드에서 좋은 성능을 보여주었는데요. AI스타트업 Upstage에서 만든 SOLAR 모델 역시 DUS(Depth-Up Scaling)라는 동일한 아이디어를 사용하여 좋은 성능을 보였습니다.

모델 병합에 사용되는 알고리즘은 여러 가지가 있습니다. 이 글에서는 그중 대표적인 알고리즘인 SLERP, TIES-Merging, Passthrough에 대해 살펴보겠습니다.

🔍 SLERP (Spherical Linear Interplation)

구형 선형보간(SLERP)은 두 벡터 사이를 부드럽게 보간하는 데 사용되는 방법이며, 이는 일정한 변화율을 유지하고 벡터가 있는 구형 공간의 기하학적 특성을 보존합니다.

선형보간 대신 구형 선형보간을 사용하는 이유는 다음과 같습니다.

i) 고차원 공간에서 선형보간은 보간 된 벡터의 크기를 감소시킬 수 있습니다. (가중치의 크기를 줄일 수 있음)
ii) 가중치 방향의 변화는 변화의 크기보다 더 의미 있는 정보(e.g., feature, representation)를 나타내는 경우가 많습니다.

SLERP을 구하는 과정은 다음과 같습니다.

1. 입력 벡터를 단위 길이로 정규화하여 크기가 아닌 방향을 나타내도록 합니다. (모든 점을 구형 위에 나타냄)
2. 내적을 통해 벡터 사이의 각도를 계산합니다.
3. interpolation 인자 $t$와 벡터 사이의 각도를 기반으로 scale 인자를 계산합니다. 단, 벡터가 거의 동일선 상에 있는 경우 효율성을 위해 선형 보간(LERP)을 사용합니다.
4. scale 인자를 통해 벡터에 가중치를 부여하여 보간 된 벡터를 얻습니다.

lerp-slerp-image — 선형보간(LERP)과 구형 선형보간(SLERP) 비교

🔍 TIES-Merging (Trim, Elect Sign & Merge)

TIES-Merging은 TIES-Merging: Resolving Interference When Merging Models에서 제안한 알고리즘이며, 여러 모델을 단일 모델로 효율적으로 병합하도록 제안되었습니다.

해당 논문의 주요 공헌은 다음과 같습니다.

i) 모델 매개변수의 중복제거: task-specific 모델의 중복된 매개변수를 식별하고 제거합니다. 이는 미세 조정 중에 발생한 변경사항에 초점을 맞추고 상위 k%의 가장 중요한 변경사항만 식별합니다.
ii) 매개변수 간 불일치 해결: 서로 다른 모델이 동일한 매개변수에 대해 반대되는 조정을 할 때 충돌이 발생하기 때문에 모든 모델에서 가장 지배적인 변화 방향을 나타내는 통합 기호 벡터(unified sign vector)를 만들어 이러한 충돌을 해결합니다.

TIES-Merging의 과정은 다음과 같습니다.

1. Trim: 가장 중요한 매개변수의 일부만 유지하고 나머지는 0으로 재설정하여 모델의 중복성을 줄입니다.
2. Elect Sign: 누적 크기 측면에서 가장 우세한 방향(양수 또는 음수)을 기반으로 통합 기호벡터를 생성하여 다양한 모델 간의 기호 충돌을 해결합니다.
3. Disjoint Merge: 0 값을 제외하고 통합 기호 벡터와 정렬되는 매개변수 값의 평균을 계산합니다.

ties-merging-image — TIES-Merging 단계 구성도

🔍 Passthrough

Passthrough는 서로 다른 LLM 레이어를 연결하여 새로운 하나의 모델을 만듭니다. Passthrough는 앞의 두 개의 알고리즘과 다르게 레이어를 연결하는 형태이기 때문에 모델의 매개변수가 증가합니다.

기존의 사례들을 찾아보면, Passthrough 방법을 통해 Llama-2 70B 2개를 사용하여 goliath-120b를 만든 사례도 있는데요. Upstage사의 SOLAR-10.7B 모델도 DUS(Depth-Up Scaling)이라는 동일한 아이디어를 사용하여 만들어졌습니다.

리더보드 참여 후기

위의 3가지 방법에 대한 baseline을 만들고 성능평가를 한 결과 SLERP 방식의 성능이 가장 높았는데요. 따라서 모델 병합 알고리즘으로 SLERP를 채택하고 실험을 진행했습니다. 이 과정에서 SLERP를 기반으로 한 리더보드 상위권에 위치한 모델들을 대상으로 다양한 실험을 시도하였고, 결과적으로 테스트 결과가 가장 좋은 모델을 선정하여 제출했습니다.

제가 첫 번째로 제출한 모델이 2위를 달성하였는데요. 조금 아쉬운 마음에 다시 1위를 목표로 1위 모델의 성능분석을 진행했습니다. 성능분석을 하면서 리더보드에서 사용되는 테스트 셋과 실험에 사용한 테스트 셋의 분포가 조금 다르다는 것을 확인할 수 있었고, 이 점을 참고하여 제 기존 모델을 보완하였습니다.

보완 과정에서 한 가지 흥미로운 점을 발견하기도 했는데요. 상대적으로 수학 task(GSM8k)의 성능이 낮은 모델에 수학 task 성능이 높은 모델을 병합하면 성능이 기대 이상으로 향상된다는 점이었습니다.

최종적으로 약 20회 이상 실험을 거듭하여 모델을 만들며 평가를 진행하였고, 그렇게 추가적으로 제출한 3가지의 모델이 리더보드 1~3위를 달성하는 기쁨을 맛볼 수 있었습니다.

이렇게 두 번의 시도 끝에 1위를 했지만, 사실 리더보드 참가한 배경에는 단순한 순위권 진입보다는 그 과정에서 모델 병합 방법론을 이해하고 실효성을 검증하고자 하는 목적이 더 컸습니다. 개인적으로도 대회 준비 과정에서 진행한 다양한 실험들 덕에 모델 병합에 대한 이해도가 높아진 것은 물론, 이후 팀 내에서 새로운 모델 병합 방법에 대한 아이디어가 계속 나올 수 있는 계기가 되어 여러모로 뜻깊은 경험이었습니다.

🚀 막간 홍보 타임 🚀

마지막으로, 카카오뱅크에서 제가 소속된 팀이 하는 일에 대해 짧게 설명드리면서 글을 마무리해보겠습니다.

저희는 인코더 기반의 금융 도메인 특화 언어모델을 개발하여 자연어처리 기술이 필요한 카카오뱅크 서비스의 곳곳에 적용하고 있습니다.
저희가 개발한 금융 도메인 특화 언어모델 KF-DeBERTa는 금융 도메인과 자연어처리 기술 발전에 도움이 되고자 현재 오픈소스로 공개되어 있습니다. (참고: Github / Huggingface / KF-DeBERa 개발기) 여러 분들의 많은 관심과 이용 부탁드립니다. 🙏
현재 저희 팀은 LLM을 기반의 서비스와 한국어 금융 도메인에 특화된 LLM을 개발 하고 있으며 다양한 자연어처리 문제를 해결하고 있습니다.

그럼 앞으로도 카카오뱅크의 AI와 언어모델에 많은 관심과 응원 부탁드립니다. 긴 글 읽어주셔서 감사합니다!

References

Huang, Kai, et al. “Towards Green AI in Fine-tuning Large Language Models via Adaptive Backpropagation.” arXiv preprint arXiv:2309.13192 (2023).
Zhao, Wayne Xin, et al. “A survey of large language models.” arXiv preprint arXiv:2303.18223 (2023).
Yadav, Prateek, et al. “TIES-Merging: Resolving Interference When Merging Models.” Thirty-seventh Conference on Neural Information Processing Systems. 2023.
Kim, Dahyun, et al. “SOLAR 10.7 B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling.” arXiv preprint arXiv:2312.15166 (2023).