베스트 AI 클라우드 | P2. AI 워크로드 중심의 아키텍처 설계

핵심 요약

본 문서는 AI 서비스 설계를 위한 핵심 패러다임 전환을 다룬다. 전통적인 서버 중심의 사고방식에서 벗어나, AI 애플리케이션의 고유한 ‘워크로드(Workload)’ 특성을 아키텍처 설계의 출발점으로 삼아야 한다는 점을 강조한다.

AI 워크로드는 크게 추론(Inference), 학습(Training), **에이전트(Agent)**로 구분되며, 각각은 요구하는 자원, 성능 목표, 비용 구조가 근본적으로 다르다. 추론 워크로드는 사용자 요청에 대한 즉각적인 응답 속도와 안정성이 핵심이며, 확장성과 캐싱 전략이 중요하다. 반면 학습 워크로드는 대용량 데이터를 장시간 처리하므로 처리량과 자원 스케줄링 관리가 핵심이다. 이 두 워크로드를 동일한 인프라에서 처리하는 것은 비효율을 초래한다.

또한, 현대 AI 서비스는 대부분 API 기반으로 제공되므로 API 설계가 사용자 경험에 직접적인 영향을 미친다. 아키텍처 설계 시에는 이전 요청의 맥락을 기억하는 상태(State) 관리 여부가 중요한 결정 기준이 된다. 특히, 요청 간 상태를 유지하지 않는 Stateless 구조는 확장성과 장애 복원에 유리하여 추론 API에 매우 적합하다.

워크로드 유형핵심 목적주요 특징리소스 요구사항설계 고려사항상태 유지 여부
추론사용자 요청에 대한 즉각적인 응답 제공짧은 처리 시간, 낮은 지연 시간, 높은 호출 빈도연산 자원 비용 영향이 큼 (상세 자원량은 정보 없음)응답 속도, 확장성, 안정성, 캐싱 전략Stateless (상태 비유지)
학습대용량 데이터 기반의 모델 생성장시간 처리 구조, 배치 작업 형태의 실행대규모 연산 자원 및 대용량 스토리지 사용자원 스케줄링 관리, 처리량, 확장성, 비용 효율성정보 없음
에이전트 (및 대화형 AI)이전 요청의 맥락 정보를 포함한 서비스 제공상호작용 간 맥락 정보(상태) 유지의 중요성상태 정보를 저장할 별도의 저장 위치 필요상태 저장 위치 설계, 데이터 관리, 보안Stateful (상태 유지)

1. 아키텍처 설계의 전환: 워크로드 중심 사고

전통적인 인프라 설계는 서버 사양과 네트워크 구성을 중심으로 이루어졌다. 그러나 AI 서비스는 동일한 인프라 위에서도 사용 목적에 따라 전혀 다른 성능 특성을 요구하므로, 이러한 접근 방식은 한계를 가진다. AI-네이티브 클라우드 아키텍처는 처리 대상, 즉 워크로드의 성격을 먼저 분석하고 이를 기반으로 인프라를 설계하는 ‘워크로드 중심 사고’를 필요로 한다.

  • 패러다임 전환: 인프라 중심에서 워크로드 중심으로 설계의 출발점을 변경해야 한다.
  • AI 워크로드의 중요성: AI 서비스의 성능과 비용은 인프라 자체보다 워크로드의 특성에 더 큰 영향을 받는다.
  • 핵심 워크로드 분류: AI 워크로드는 크게 세 가지로 구분할 수 있다.
    • 추론(Inference): 사용자 요청에 실시간으로 응답하는 워크로드
    • 학습(Training): 대규모 데이터셋으로 모델을 생성하거나 개선하는 워크로드
    • 에이전트(Agent): 대화형 AI와 같이 연속적인 맥락을 처리하는 워크로드

각 워크로드는 요구하는 자원이 상이하므로, 먼저 구조를 명확히 나눈 뒤 이를 통합하는 방식으로 설계하는 것이 효율적이다.

2. AI 워크로드 유형별 특징 및 비교 분석

추론과 학습은 AI 시스템의 가장 대표적인 워크로드이며, 아키텍처 설계 시 반드시 그 차이점을 고려해야 한다.

2.1. 추론 중심 워크로드 (Inference-Centric Workload)

사용자의 요청에 즉시 응답을 생성하는 것을 목표로 한다. 실시간 서비스의 사용자 경험과 직결된다.

  • 핵심 목표: 짧은 처리 시간과 낮은 지연 시간(Low Latency)
  • 주요 특징:
    • 사용자 요청에 대한 즉각적인 응답 구조
    • 호출 빈도가 높아 비용에 미치는 영향이 큼
    • 안정적인 서비스 제공이 중요
  • 핵심 설계 요소:
    • 확장성(Scalability): 트래픽 변동에 유연하게 대응할 수 있는 능력
    • 캐싱 전략(Caching Strategy): 반복적인 요청을 빠르게 처리하여 지연 시간을 줄이는 기법

2.2. 학습 중심 워크로드 (Training-Centric Workload)

대용량 데이터를 기반으로 모델을 훈련시키는 것을 목표로 한다. 일반적으로 장시간에 걸쳐 대규모 컴퓨팅 자원을 사용한다.

  • 핵심 목표: 대용량 데이터를 효율적으로 처리하는 능력(Throughput)
  • 주요 특징:
    • 대규모 데이터셋을 기반으로 한 장시간 처리 구조
    • CPU/GPU와 같은 연산 자원 및 스토리지 사용량이 매우 큼
    • 주기적으로 실행되는 배치(Batch) 작업 형태가 일반적
  • 핵심 설계 요소:
    • 비용 관리: 장시간 대규모 자원 사용에 따른 비용 최적화
    • 자원 스케줄링: 가용한 자원을 효율적으로 할당하고 관리하는 전략

2.3. 추론과 학습 워크로드 비교

구분추론 중심 워크로드학습 중심 워크로드
핵심 가치응답 속도, 안정성처리량, 확장성
작업 형태실시간, 이벤트 기반배치(Batch) 작업
처리 시간짧음 (밀리초 단위)김 (시간 또는 일 단위)
자원 사용 패턴예측 불가능한 트래픽예측 가능한 대규모 자원 점유
비용 발생 패턴호출 빈도에 따른 가변 비용자원 점유 시간에 따른 고정 비용
주요 고려사항낮은 지연 시간, 자동 확장, 캐싱비용 최적화, 자원 스케줄링

두 워크로드는 이처럼 상반된 특징을 가지므로, 동일한 인프라로 동시에 처리할 경우 심각한 비효율이 발생할 수 있다.

3. 현대 AI 서비스 아키텍처의 핵심 구성 요소

3.1. API 기반 서비스 구조

오늘날 대부분의 AI 기능은 애플리케이션에 직접 내장되기보다 API 형태로 제공된다. 이는 서비스의 유연성과 확장성을 높이는 핵심적인 설계 방식이다.

  • 역할 분담:
    • AI 모델: 핵심 기능을 수행하고 API 엔드포인트를 통해 노출된다.
    • 애플리케이션: 모델 호출자(Caller)의 역할을 수행하며, 비즈니스 로직에 집중한다.
    • 인프라: 안정적인 API 서비스 호출을 지원하는 기반 역할을 한다.
  • API 설계의 중요성: API의 구조, 요청/응답 형식 등은 AI 서비스의 최종적인 사용자 경험에 직접적인 영향을 미친다.

3.2. 상태(State) 관리의 중요성

‘상태’란 이전 요청의 맥락 정보를 의미하며, 이를 어떻게 관리하느냐가 아키텍처의 성격을 결정한다.

  • 상태의 의미: 사용자와의 이전 상호작용 기록, 대화의 흐름 등 연속성을 가지는 데이터.
  • 중요성: 대화형 AI나 복잡한 작업을 수행하는 AI 에이전트와 같이 여러 단계에 걸친 상호작용이 필요한 서비스에서 필수적이다.
  • 설계 고려사항:
    • 상태 저장 위치: 상태 정보를 어디에(예: 데이터베이스, 캐시, 클라이언트) 저장할 것인지 결정해야 한다.
    • 보안 및 데이터 관리: 상태 정보는 민감한 데이터를 포함할 수 있으므로 보안과 거버넌스를 신중하게 고려해야 한다.

4. 아키텍처 설계 원칙: Stateless 구조의 활용

상태 관리 여부는 아키텍처를 ‘Stateful’과 ‘Stateless’로 나누는 기준이 된다. 특히 Stateless 구조는 현대 클라우드 환경에서 많은 이점을 제공한다.

  • Stateless 아키텍처 정의: 각 요청이 이전 요청과 독립적으로 처리되며, 서버가 클라이언트의 상태를 저장하지 않는 구조. 필요한 모든 정보는 요청 자체에 포함된다.
  • 장점:
    • 확장성(Scalability): 어떤 서버 인스턴스든 요청을 처리할 수 있어 수평 확장이 매우 용이하다.
    • 장애 복원력(Resilience): 특정 서버에 장애가 발생해도 다른 서버가 즉시 요청을 이어받아 처리할 수 있다.
  • 적합한 워크로드: 상태 유지가 필요 없는 추론 API 구조에 매우 적합하다. 매 요청이 독립적인 예측을 수행하는 경우가 많기 때문이다.
  • 핵심 결정 사항: 서비스의 요구사항에 따라 상태를 관리할 것인지(Stateful), 아니면 Stateless 구조를 채택할 것인지는 아키텍처 설계의 가장 기본적인 선택 기준 중 하나이다.