AI 클라우드 핸즈온 랩 | 멀티모달 생성형 AI 앱 빌드 챌린지

2026.04.12 / 동준상.넥스트플랫폼
(AWS SAA, AWS AIF, GCP GenAI Leader)

AI Cloud Hands-on Lab: The Multimodal Generative AI App Build Challenge

핵심 요약 (Executive Summary)

이번 포스트는 AI 기반 부케 디자인 애플리케이션 개발을 위한 기술적 도전 과제와 그 구현을 돕기위한 가이드입니다.

핵심 목적: 사용자가 묘사한 부케 이미지를 생성하고, 생성된 이미지를 다시 분석하여 맞춤형 축하 메시지를 제작하는 멀티모달(Multi-modal) 생성형 AI 시스템을 구축
도전 과제1: genai.Client()를 활용한 이미지 생성
도전 과제2: 스트리밍 방식이 적용된 멀티모달 이미지 분석
이번 챌린지를 통해 시각적 결과물 제공을 넘어, 인공지능을 통한 부가 콘텐츠 생성까지 아우르는 고도화된 고객 경험을 제공할 수 있음

프로젝트 시나리오 및 배경

여러분은 부케 디자인 회사의 개발자로서, 고객이 꿈꾸는 부케를 설명하면 이를 현실적인 이미지로 생성하고 해당 이미지를 바탕으로 설명적인 요약을 제공하는 시스템을 구축합니다. 이 애플리케이션은 사용자와의 상호작용에 따라 적절한 메서드를 호출하며, 두 가지 핵심적인 생성형 AI 기능을 통합합니다.

텍스트-투-이미지(Text-to-Image): 텍스트 프롬프트를 기반으로 고품질 부케 이미지를 생성.
이미지-투-텍스트(Image-to-Text): 생성된 이미지를 분석하여 상황에 맞는 텍스트 콘텐츠(예: 생일 축하 메시지)를 도출.

주요 과업 분석

Task 1. 이미지 생성 및 로컬 저장

첫 번째 단계는 사용자의 요청에 부합하는 시각적 자산을 생성하는 것입니다. Python 환경에서 생성형 AI 클라이언트를 사용하여 구체적인 물리적 구성을 갖춘 이미지를 도출합니다.

기술 사양:
- 사용 도구: genai.Client()
- 적용 모델: flash-image-model-id
- 프롬프트 요구사항: “해바라기 2송이와 장미 3송이가 포함된 부케 이미지 생성(Create an image containing a bouquet of 2 sunflowers and 3 roses)”
결과물: 생성된 이미지는 분석 및 후속 작업을 위해 로컬 환경에 저장되어야 합니다.

Task 2. 멀티모달 이미지 분석 및 메시지 생성

두 번째 단계는 생성된 이미지를 입력값으로 받아 문맥에 맞는 텍스트를 생성하는 멀티모달 분석 과정입니다. 이를 위해 analyze_bouquet_image(image_path)라는 전용 함수를 개발합니다.

기술 사양:
- 적용 모델: model-id (멀티모달 모델)
- 입력 데이터: 로컬 이미지 경로 및 텍스트 프롬프트
- 기능적 요구사항:
  - 스트리밍 활성화: 모델이 응답을 생성하는 즉시 수신할 수 있도록 프롬프트 요청 시 스트리밍 기능을 활성화해야 합니다.
  - 데이터 캡처 및 저장: 스트리밍되는 출력을 실시간으로 캡처하여 전체 메시지를 완성하고, 이를 .txt 파일(예: birthday_wishes.txt)로 저장합니다.
목적: 부케 이미지의 분위기와 구성에서 영감을 받은 맞춤형 생일 축하 메시지를 생성합니다.

기술적 고려 사항 및 운영 가이드라인

성공적인 애플리케이션 구축을 위해 다음과 같은 기술적 세부 사항과 오류 대응 체계를 준수해야 합니다.

항목	세부 내용
개발 환경	gcloud SDK가 사전 구성된 IDE 및 Python 활용
의존성 관리	Python 버전 관련 경고는 무시하고 진행 가능
오류 처리	429 에러(Rate Limit) 발생 시 1분 대기 후 명령 재실행 권장
성능 최적화	응답 지연 최소화를 위해 분석 단계에서 스트리밍 방식 필수 적용
검증 체계	터미널 명령 실행 후 자동화된 채점 시스템을 통해 과업 완료 여부 확인

결론

이번 도전 과제를 성공적으로 수행함으로써 생성형 AI의 시각적 능력과 언어적 분석 능력을 결합하여 사용자 맞춤형 서비스를 제공하는 통합적인 접근 방식을 이해할 수 있게 됐습니다.

flash-image-model-id를 통한 정교한 이미지 생성과 멀티모달 모델을 활용한 스트리밍 기반의 텍스트 분석은 현대적인 AI 애플리케이션이 지향해야 할 기술적 표준을 이해
고객이 요구하는 미적 가치를 충족함과 동시에 감성적인 가치(축하 메시지)를 동시에 전달하는 고도화된 비즈니스 모델 구현 경험 획득