멀티 LLM, 로컬 LLM 통합 연계 AI Gateway 구현 가이드

작성 기준일: 2026-07-01
대상 환경: Windows 11 로컬 PC (일일 최대 5명 사용자)

1. 개요

1.1 목적

본 문서는 Windows 로컬 PC를 활용하여 다음을 구현하기 위한 설계·운영 가이드이다.

로컬 LLM 실행 환경 구성 (Gemma, Qwen 등 오픈웨이트 모델)
AI Gateway 서버 구현 (OpenAI 호환 API 제공)
일일 최대 5명의 사용자에게 안정적인 AI 서비스 제공

1.2 설계 원칙

원칙	설명
현실적 VRAM 운영	RTX 4060 8GB에 맞는 4B~7B 양자화 모델 중심
OpenAI 호환 API	기존 SDK·도구 재사용 가능
운영 단순성	Ollama + LiteLLM로 개발·유지보수 비용 최소화
확장 가능성	Kimi 등 클라우드 API를 Gateway에서 라우팅

1.3 한 줄 결론

로컬 LLM(Gemma, Qwen 7B~8B) + AI Gateway(5명/일)는 이 PC에서 충분히 구현 가능하다.
Kimi 대형 모델은 로컬 불가 → API 프록시로 연동한다.

2. 대상 하드웨어 사양

2.1 시스템 구성

구성 요소	사양
OS	Microsoft Windows 11 Home (Build 26200, 64비트)
제조사/모델	ASUS
CPU	13th Gen Intel Core i5-13400F (10코어 / 16스레드, 2.5 GHz)
RAM	32 GB DDR4 3200MHz (Crucial 16GB × 2, 듀얼 채널)
GPU	NVIDIA GeForce RTX 4060 8GB GDDR6
Storage	Colorful CN600 512GB NVMe (C:) + TeamGroup TS1TSSD230S 1TB (P:)
디스플레이	2560 × 1080 (울트라와이드)

2.2 드라이브 현황

드라이브	전체 용량	여유 공간	용도 권장
C:	476 GB	143.4 GB	OS, Ollama, Gateway 서비스
P:	954 GB	831.5 GB	모델 캐시, 로그, 백업

2.3 하드웨어별 역할 분담

리소스	Gateway 역할	Inference 역할
RTX 4060 8GB	—	7B~8B Q4 모델 주 추론
RAM 32GB	Gateway 프로세스, 큐, 로깅	CPU 오프로드, 14B 보조
CPU i5-13400F	API 처리, 인증, 라우팅	전처리, fallback 추론
SSD	서비스 바이너리, 설정	GGUF 모델 저장 (~4~8GB/모델)

3. 구현 가능성 평가

3.1 VRAM별 실행 가능 모델

모델 크기	양자화	RTX 4060 8GB	비고
3B~4B	Q4~Q8	✅ 매우 여유	빠른 응답용
7B~8B	Q4~Q5	✅ 권장	메인 운영 구간
14B	Q4 + CPU 오프로드	⚠️ 가능, 느림	큐 필수
32B+	—	❌ 비권장	CPU만으로는 실용성 낮음

3.2 모델 계열별 로컬 실행 가능성

모델 계열	로컬 실행	비고
Gemma (Gemma 3 / 향후 Gemma 4)	✅ 가능	4B Q4 권장, 12B+는 오프로드 필요
Qwen (2.5 / 3 계열)	✅ 최적	7B·8B 한국어·코딩 모두 우수
Kimi (K2 등 대형)	❌ 불가	Moonshot API Gateway 프록시

3.3 사용자 규모 (일일 5명) 부하 예측

예상 시나리오 (보수적)
├── 동시 접속: 1~2명
├── 시간당 요청: 수십 건
└── 피크: 3명 동시 질문 (드묾)

항목	평가
Gateway 처리	✅ 충분
GPU inference	✅ 7B Q4 기준 양호
동시 5명 heavy 사용	⚠️ 큐·순차 처리 필요

3.4 예상 응답 성능

모델	토큰 생성 속도 (대략)	짧은 답변	긴 답변
Gemma 4B Q4	50~80 tok/s	1~3초	5~15초
Qwen 7B Q4	30~50 tok/s	2~5초	10~30초
Qwen 14B Q4	10~20 tok/s	5~10초	30~60초+

4. 권장 기술 스택

4.1 스택 선택 결론

레이어	1차 선택	대안
Inference	Ollama	llama.cpp (VRAM 극한 튜닝 시)
Gateway	LiteLLM Proxy	FastAPI 직접 구현
UI (선택)	Open WebUI	—
외부 Kimi	Moonshot API	—
프로세스 관리	NSSM / Windows 서비스	Docker
외부 접속	Tailscale / Cloudflare Tunnel	포트포워딩

4.2 Ollama vs llama.cpp

항목	Ollama	llama.cpp
설치·운영	⭐ 매우 쉬움	빌드/설정 부담
모델 관리	내장 레지스트리	GGUF 수동 관리
API	OpenAI 호환 기본 제공	llama-server 설정 필요
VRAM 효율	좋음	약간 더 좋음
Windows 지원	공식 설치 프로그램	WSL/빌드 필요한 경우 多
5명 소규모	추천	오버엔지니어링

전략: 초기에는 Ollama만 사용 → 병목 발생 시 특정 모델만 llama.cpp로 분리

4.3 LiteLLM vs FastAPI 직접 구현

항목	LiteLLM	FastAPI
개발 속도	빠름	느림
OpenAI 호환	기본 제공	직접 구현
모델 라우팅	YAML 설정	코드 구현
Rate limit / API Key	내장	직접 구현
5명 규모	추천	완전 통제 필요 시

4.4 포트 구성 (예시)

서비스	포트	설명
LiteLLM Gateway	`4000`	외부 클라이언트 진입점
Ollama	`11434`	로컬 inference (내부만 노출)
Open WebUI (선택)	`3000`	웹 채팅 UI

5. 시스템 아키텍처

5.1 전체 구조도

flowchart TB
    subgraph clients [클라이언트]
        C1[웹 / 앱 / IDE]
        C2[OpenAI SDK]
    end

    subgraph gateway [AI Gateway - 로컬 PC]
        LM[LiteLLM Proxy :4000]
        AUTH[API Key 인증]
        RL[Rate Limit / Queue]
        ROUTE[모델 라우터]
        LOG[요청 로깅]
    end

    subgraph inference [Inference Layer]
        OL[Ollama :11434]
    end

    subgraph external [외부 API - 선택]
        KIMI[Moonshot Kimi API]
    end

    C1 --> LM
    C2 --> LM
    LM --> AUTH --> RL --> ROUTE --> LOG
    ROUTE --> OL
    ROUTE --> KIMI
    OL --> GPU[NVIDIA RTX 4060 8GB]

5.2 요청 처리 흐름

1. 클라이언트 → POST /v1/chat/completions (Bearer API Key)
2. Gateway → API Key 검증
3. Gateway → Rate limit / 동시 요청 수 확인
4. Gateway → model 필드에 따라 백엔드 라우팅
   ├── gemma-fast / qwen-general / qwen-coder → Ollama
   └── kimi-cloud → Moonshot API
5. Inference → 스트리밍 또는 일괄 응답 반환
6. Gateway → usage 통계 기록

5.3 자동 모델 라우팅 (선택)

요청 유형	라우팅 대상
`model` 필드 명시	해당 논리 모델
코드 블록·파일 경로 포함	`qwen-coder`
`max_tokens < 512` + 단순 질문	`gemma-fast`
그 외 기본	`qwen-general`

6. Gateway API 스펙

6.1 기본 정보

항목	값
Base URL	`http://<서버IP>:4000/v1`
인증	`Authorization: Bearer <GATEWAY_API_KEY>`
프로토콜	HTTPS 권장 (Tailscale/CF Tunnel 사용 시 자동)
호환 표준	OpenAI API v1

6.2 Chat Completions

Endpoint: POST /v1/chat/completions

요청 예시:

{
  "model": "qwen-coder",
  "messages": [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Python으로 CSV 파일을 읽는 코드를 작성해줘"}
  ],
  "stream": true,
  "temperature": 0.7,
  "max_tokens": 2048
}

응답 예시 (non-stream):

{
  "id": "chatcmpl-xxx",
  "object": "chat.completion",
  "created": 1719792000,
  "model": "qwen-coder",
  "choices": [{
    "index": 0,
    "message": {
      "role": "assistant",
      "content": "import pandas as pd\n\ndf = pd.read_csv('data.csv')\nprint(df.head())"
    },
    "finish_reason": "stop"
  }],
  "usage": {
    "prompt_tokens": 42,
    "completion_tokens": 156,
    "total_tokens": 198
  }
}

스트리밍: stream: true 설정 시 SSE(Server-Sent Events)로 data: {...} 청크 전송 (OpenAI 표준과 동일)

6.3 Models 목록

Endpoint: GET /v1/models

응답 예시:

{
  "object": "list",
  "data": [
    {"id": "gemma-fast",   "object": "model", "owned_by": "gateway"},
    {"id": "qwen-general", "object": "model", "owned_by": "gateway"},
    {"id": "qwen-coder",   "object": "model", "owned_by": "gateway"},
    {"id": "kimi-cloud",   "object": "model", "owned_by": "moonshot"}
  ]
}

6.4 논리 모델 → 백엔드 매핑

클라이언트는 논리 모델명만 사용하고, Gateway가 실제 백엔드를 매핑한다.

LiteLLM 설정 예시 (litellm_config.yaml):

model_list:
  - model_name: gemma-fast
    litellm_params:
      model: ollama/gemma3:4b-it-q4_K_M
      api_base: http://localhost:11434

  - model_name: qwen-general
    litellm_params:
      model: ollama/qwen2.5:7b-instruct-q4_K_M
      api_base: http://localhost:11434

  - model_name: qwen-coder
    litellm_params:
      model: ollama/qwen2.5-coder:7b-instruct-q4_K_M
      api_base: http://localhost:11434

  - model_name: kimi-cloud
    litellm_params:
      model: moonshot/moonshot-v1-8k
      api_key: os.environ/MOONSHOT_API_KEY

6.5 운영 정책 (5명 규모 권장값)

정책	권장값	이유
동시 inference	1~2	VRAM 8GB 보호
사용자당 RPM	20~30	일상 사용 충분
사용자당 일일 토큰	100K~500K	과부하 방지
`max_tokens` 상한	4096	긴 응답 제한
Context 상한	8192 (7B) / 4096 (14B)	VRAM 맞춤
Inference 타임아웃	120초	로컬 추론 지연 대비
큐 대기 한도	30초 초과 시 503	무한 대기 방지

6.6 에러 응답

{
  "error": {
    "message": "Rate limit exceeded. Try again in 30 seconds.",
    "type": "rate_limit_error",
    "code": "rate_limit_exceeded"
  }
}

HTTP 코드	의미
401	API Key 없음 또는 무효
429	Rate limit / 동시 요청 초과
503	GPU 큐 포화, 모델 로딩 중
504	Inference 타임아웃

6.7 헬스체크 (권장 추가)

Endpoint	설명
`GET /health`	Gateway alive 여부
`GET /health/models`	Ollama 연결 및 로드된 모델 상태

7. 모델 3종 추천 조합

7.1 조합 요약

논리명	Ollama 모델	역할	VRAM	속도
`gemma-fast`	`gemma3:4b-it-q4_K_M`	빠른 Q&A, 요약, 라우팅 전처리	~3GB	⭐⭐⭐
`qwen-general`	`qwen2.5:7b-instruct-q4_K_M`	범용 대화, 한국어, 추론	~5GB	⭐⭐
`qwen-coder`	`qwen2.5-coder:7b-instruct-q4_K_M`	코드 생성·리뷰·디버깅	~5GB	⭐⭐

Gemma 4 오픈웨이트 출시 시 gemma-fast 슬롯만 교체하면 된다.

7.2 모델 설치 명령

ollama pull gemma3:4b-it-q4_K_M
ollama pull qwen2.5:7b-instruct-q4_K_M
ollama pull qwen2.5-coder:7b-instruct-q4_K_M

7.3 모델별 선정 이유

① Gemma 3 4B (gemma-fast)

가장 가벼워 첫 응답이 빠름
요약, 짧은 질문, 분류 작업에 적합
7B 로딩 중 fallback 용도

② Qwen 2.5 7B Instruct (qwen-general)

한국어 품질 우수
일반 대화·설명·추론의 메인 모델
8GB VRAM sweet spot

③ Qwen 2.5 Coder 7B (qwen-coder)

코드 특화 (생성, 리뷰, 디버깅)
Gateway·개발 프로젝트 사용자에게 적합
일반 7B와 동일 VRAM → 동시 로드 비권장

7.4 Kimi (4번째 옵션, 선택)

항목	내용
논리명	`kimi-cloud`
백엔드	Moonshot API
용도	로컬 모델로 어려운 고난이도 작업
비용	종량제 (API Key 필요)

8. VRAM 운영 전략

8.1 핵심 제약

3개 모델을 GPU에 동시 로드하면 8GB VRAM 초과 → 반드시 스왑 또는 단일 로드 운영

8.2 권장 운영 모드

기본: qwen-general 1개만 상시 로드 (~5GB)
├── 가벼운 요청 → gemma-fast (필요 시 스왑, ~10초)
├── 코드 요청   → qwen-coder (필요 시 스왑)
└── OLLAMA_MAX_LOADED=1 환경변수 권장

8.3 Ollama 환경변수

# 동시 로드 모델 수 제한
OLLAMA_MAX_LOADED=1

# (선택) 모델 유지 시간 — 미사용 시 언로드
OLLAMA_KEEP_ALIVE=5m

8.4 Gateway 큐 설정

동시 inference 최대 1~2개
초과 요청은 FIFO 큐에서 대기
30초 초과 대기 시 503 Service Unavailable 반환

9. 보안 및 운영 정책

9.1 네트워크 보안

항목	권장
Ollama (`11434`)	localhost만 바인딩 (외부 노출 금지)
Gateway (`4000`)	Tailscale / Cloudflare Tunnel 경유
API Key	사용자별 virtual key 발급 (5개)
HTTPS	Tunnel 사용 시 자동 적용

9.2 Windows 서버 운영

항목	권장
절전 모드	비활성화 (24시간 서비스 시)
Windows Update	자동 재부팅 시간대 지정
프로세스 관리	NSSM으로 Ollama·LiteLLM Windows 서비스 등록
로그	Gateway 요청 로그 일별 로테이션 (P: 드라이브)

9.3 API Key 관리

사용자 1 → sk-gateway-user-001
사용자 2 → sk-gateway-user-002
...
사용자 5 → sk-gateway-user-005

LiteLLM virtual key로 사용자별 rate limit·usage 추적
키 유출 시 개별 revoke 가능

10. 구현 로드맵

Phase 1: Inference 환경 (1일)

[ ] Ollama Windows 설치
[ ] 모델 3종 pull 및 개별 동작 확인
[ ] ollama run qwen2.5:7b-instruct-q4_K_M 스모크 테스트

Phase 2: Gateway 구축 (1~2일)

[ ] Python + LiteLLM 설치
[ ] litellm_config.yaml 작성 (모델 매핑)
[ ] LiteLLM Proxy 실행 (litellm --config ... --port 4000)
[ ] curl로 /v1/chat/completions 테스트

Phase 3: 인증·정책 (1일)

[ ] API Key 5개 발급 (virtual keys)
[ ] Rate limit / 동시 요청 제한 설정
[ ] 요청 로깅 활성화

Phase 4: 운영 안정화 (1~2일)

[ ] NSSM으로 Windows 서비스 등록
[ ] 헬스체크 endpoint 추가
[ ] Tailscale 또는 Cloudflare Tunnel 설정
Open WebUI 연동

Phase 5: (선택) Kimi 연동

[ ] Moonshot API Key 발급
[ ] kimi-cloud 모델 라우팅 추가
[ ] 비용 모니터링 설정

11. 부록

11.1 스모크 테스트 curl 예시

# 모델 목록
curl http://localhost:4000/v1/models \
  -H "Authorization: Bearer sk-gateway-user-001"

# Chat completion
curl http://localhost:4000/v1/chat/completions \
  -H "Authorization: Bearer sk-gateway-user-001" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen-general",
    "messages": [{"role": "user", "content": "안녕하세요"}],
    "stream": false
  }'

11.2 최종 스택 한 장 요약

┌─────────────────────────────────────────────────┐
│  스택: Ollama + LiteLLM (+ Open WebUI 선택)       │
├─────────────────────────────────────────────────┤
│  API: OpenAI 호환 /v1/chat/completions           │
│  인증: Bearer API Key (사용자별 virtual key)      │
│  동시 inference: 1~2, 큐 + rate limit            │
├─────────────────────────────────────────────────┤
│  모델 3종:                                       │
│   • gemma-fast   → Gemma 3 4B Q4   (속도)       │
│   • qwen-general → Qwen 2.5 7B Q4  (범용/한국어) │
│   • qwen-coder   → Qwen Coder 7B Q4 (코드)       │
├─────────────────────────────────────────────────┤
│  Kimi: 로컬 X → kimi-cloud API 슬롯 (선택)       │
├─────────────────────────────────────────────────┤
│  하드웨어: i5-13400F / 32GB RAM / RTX 4060 8GB  │
│  사용자: 일일 최대 5명                            │
└─────────────────────────────────────────────────┘

11.3 참고 제약 사항

제약	대응
VRAM 8GB	7B~8B Q4 중심, 14B는 단독 사용
Kimi 대형 로컬 불가	Moonshot API 프록시
Windows 재부팅	NSSM 서비스 자동 재시작
C: 드라이브 여유 143GB	모델은 P: 드라이브에 캐시 권장

본 문서는 2026-07-01 기준 로컬 PC 사양 분석 및 AI Gateway 설계 대화를 바탕으로 작성되었습니다.

타이탄트레일: 1995~2020′ 기술주 버블 역사와 자본시장의 관계로 보는 2026′ AI 버블 버스트의 가능성