Meta AI Llama 정리

Notice

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

DevWalk

Meta AI Llama 정리 본문

인공지능/LLM

Meta AI Llama 정리

__paul__ 2023. 6. 11. 17:50

LLaMA(대형 언어 모델 메타 AI, Large Language Model Meta AI)은 Meta AI에서 2023년 2월에 발표한 대규모 언어 모델(LLM)이다.

2022년 5월에 OPT-175B를 발표했다. 그런데 OPT는 GPT3와 모델 크기는 같지만 성능이 많이 뒤쳐졌었다. 논문을 보면 이 모델이 왜 성능이 나오지 않을까에 대한 고민으로 가득하다. 그런 메타가 야심작으로 만든 모델이 Llama이다.

Model Architecture

LLaMA는 Villia Transformer 구조에서에 아래와 같은 변경점을 두었다.

Pre-normalization (from GPT-3)

학습 안정성을 개선하기 위해 각 transformer sub-layer의 입력을 normalization함(GPT-2부터 도입).
RMSNorm Normalizing 함수 사용

SwiGLU activation function (from PaLM)

성능 개선을 위해 ReLU를 SwiGLU로 교체함

Rotary Embeddings(from GPTNeo)

절대적인 positional embeddings을 제거하고 RoPE(Rotary Postional Embedding)을 사용함

Optimization Hyper-Parameters

Meta는 LLaMA 학습에 AdamW(Adam with decoupled weight decay) optimizer를 사용하였다.

AdamW optimizer

hyper-parameters: beta1=0.9, beta2=0.95
weight decay = 0.1, gradient clipping = 1.0
2000 warmup steps

데이터셋

비용

( 참고: https://devocean.sk.com/blog/techBoardDetail.do?ID=164601&boardType=techBlog)

LLaMA-65B을 학습하기 위해 449 MWh를 소모한다. 449MWh를 한전의 산업용(을) 요금 중에서 가장 비싼 요금(고압A: 선택III)을 적용하여 비용으로 환산하면 최대 50억원의 전기료를 납부해야 한다.

조건-1: 산업용(을*) 고압A: 선택III (*광업, 제조업 및 기타사업에 전력을 사용하는 계약전력 300kW 이상의 고객용)
조건-2: 계약전력 449,000kW, 월간 449,000kWh 사용시 전기요금 계산, 역률(지상:90%, 진상:95%)
https://cyber.kepco.co.kr/ckepco/front/jsp/CY/J/A/CYJAPP000NFL.jsp#

LLaMA 학습을 위해 사용된 GPU 서버가 256대이므로 DGX A-100을 약 2억으로 잡았을 때, 서버 비용만 512억원이다. 만일 LLaMA 학습 시 50억원의 전기료를 지출해야 한다면 LLaMA 학습을 10회 이상(from scratch 기준)하면 전체 서버 비용을 상회하는 엄청난 비용인 것이다. (물론 가장 비싼 요금으로 환산한 결과로 실제 전기료는 30~40억내 일 것으로 판단된다.)

위의 결과로 부터 전체 모델 서비스 비용에서 전기 요금이 차지하는 비중이 대단히 높은 것으로 예상된다.

'인공지능 > LLM' 카테고리의 다른 글

MCP(Memory Control Plane)가 뭐길래? (0)	2025.03.26
[LLM] Langchain이란 무엇인가? (1)	2024.09.05
프롬프트 엔지니어링(Prompt Engineering) (0)	2023.07.10

'인공지능/LLM' Related Articles

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

DevWalk

DevWalk

Meta AI Llama 정리 본문

Meta AI Llama 정리

Model Architecture

데이터셋

비용

'인공지능 > LLM' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역