입문자를 위한 모범적인 데이터 분석 프롬프트 5선

넥스트플랫폼 동준상 대표 (naebon@naver.com)

2026.06.17 / 동준상.넥스트플랫폼
(AWS SAA, AWS AIF, GCP GenAI Leader)

설계 원칙: 각 프롬프트는 ① 역할 부여 → ② 컨텍스트 제공 → ③ 구체적 요청 → ④ 출력 형식 지정의 4구조를 갖습니다.

예시 데이터 및 분석 개요: Kaggle Benz 데이터 분석 챌린지
https://www.kaggle.com/competitions/mercedes-benz-greener-manufacturing

모범적인 데이터 분석 노트북: SRK (Kaggle Grandmaster)
https://www.kaggle.com/code/sudalairajkumar/simple-exploration-notebook-mercedes


프롬프트 1 · EDA 자동 수행 (탐색적 분석)

언제 쓰나: 처음 데이터를 받았을 때 무엇부터 봐야 할지 모를 때

당신은 Kaggle Grandmaster 수준의 데이터 분석 전문가입니다.

[데이터 정보]
- 파일: train-s.csv (Mercedes-Benz Greener Manufacturing)
- 행: 50개 (원본 4,209개의 샘플), 열: 378개
- 타깃 변수: y (차량 테스트 벤치 소요 시간, 단위: 초)
- 피처 유형: 범주형 8개(X0~X8), 이진형 369개(X10~X385)

[요청]
첨부한 데이터를 SRK 스타일의 EDA 7단계로 분석해줘.

1단계: 기본 형태 확인 (shape, head, dtypes)
2단계: 타깃(y) 분포 분석 — 이상치 존재 여부와 처리 방법 포함
3단계: 데이터 타입별 컬럼 분류
4단계: 결측값 확인 및 처리 전략 제안
5단계: 범주형 변수별 y 분포 시각화 (차트 종류 선택 이유 명시)
6단계: 이진 변수 — 0/1 비율 + 값별 y 평균 차이 히트맵
7단계: XGBoost와 Random Forest로 변수 중요도 비교

[출력 형식]
- 각 단계를 ## 헤더로 구분
- 실행 가능한 Python 코드 블록 + 한국어 해설
- 💡 인사이트, ⚠️ 주의사항 이모지로 구분
- 마지막에 "다음 분석을 위한 핵심 질문 3가지" 제시

프롬프트 2 · 피처 엔지니어링 설계 (모델 성능 향상)

언제 쓰나: EDA가 끝나고 “어떻게 피처를 만들어야 할까?” 막막할 때

당신은 Kaggle 대회 솔루션을 전문적으로 리뷰하는 ML 엔지니어입니다.

[상황]
Mercedes-Benz 데이터셋 EDA 결과:
- 범주형 변수(X0, X2, X5)가 XGBoost Feature Importance 상위권을 차지함
- 이진 변수 중 항상 0인 컬럼이 다수 존재함 (분산=0)
- 타깃 y의 분포는 오른쪽 꼬리가 약간 긴 형태

[요청]
위 EDA 인사이트를 기반으로 피처 엔지니어링 전략을 설계해줘.

반드시 아래 4가지 기법을 각각 검토하고, 이 데이터에 적용할지 여부를 판단해:

1. 분산 제거 (Zero Variance Feature Removal)
   - 판단 기준과 sklearn 코드
   
2. 범주형 인코딩 전략 비교
   - Label Encoding vs One-Hot Encoding vs Target Encoding
   - 이 데이터에서 최적 선택과 이유
   
3. 차원 축소 (PCA / SVD)
   - 이진 변수 369개에 PCA를 적용해야 하는지 판단
   - 분산 설명률 기준 n_components 선택 방법
   
4. 타깃 변환 (Log Transform)
   - y에 np.log1p()를 적용해야 하는지, 판단 기준 제시

[출력 형식]
- 각 기법: 개념 설명(2~3줄) → 적용 판단 → 코드 → 예상 효과
- 최종적으로 "이 데이터 추천 전처리 파이프라인" 코드 1개로 통합

프롬프트 3 · 모델 선택 및 비교 실험 설계

언제 쓰나: “어떤 모델을 써야 해?” 질문이 생겼을 때

당신은 AutoML 시스템을 설계하는 시니어 데이터 사이언티스트입니다.

[문제 정의]
- 과제: 회귀(Regression) — 차량 테스트 시간(y) 예측
- 평가 지표: R² Score (높을수록 좋음)
- 데이터 특성: 행(4,209) << 열(378), 이진 피처 다수, 범주형 피처 중요도 높음
- 제약: 과적합 위험 높음 (소규모 데이터, 고차원)

[요청]
아래 5가지 모델을 이 데이터에 적합한지 평가하고, 비교 실험 코드를 작성해줘:

1. Ridge Regression (선형 기반, 규제)
2. Random Forest Regressor
3. XGBoost Regressor  
4. LightGBM Regressor
5. SVR (Support Vector Regression)

각 모델에 대해:
- 이 데이터에 적합/부적합 판단 + 이유 (2~3줄)
- 주요 하이퍼파라미터 의미 설명
- 교차검증(5-fold CV) 포함한 실험 코드

[출력 형식]
- 표: 모델명 | 적합도 | 장점 | 단점 | R² 예상 범위
- 비교 실험 전체를 실행할 수 있는 통합 코드 1개
- 실험 후 "어떤 모델을 최종 선택해야 하는가" 판단 기준 제시
- 입문자를 위한 용어 해설: Ridge, 교차검증, 하이퍼파라미터를 각 1~2줄로

프롬프트 4 · 모델 해석 및 비즈니스 인사이트 도출

언제 쓰나: 모델이 완성된 후 “이게 의미하는 게 뭐야?” 를 물어야 할 때

당신은 데이터 분석 결과를 비개발자 임원에게 설명하는 ML 컨설턴트입니다.

[상황]
XGBoost 모델 학습 완료:
- Train R²: 0.82, Test R²: 0.61 (과적합 의심)
- Feature Importance 상위 5개: X0, X2, X5, X314, X47
- 범주형 변수가 중요도 상위를 독점

[요청]
다음 3가지 모델 해석을 수행해줘:

1. SHAP 값 분석
   - SHAP이 Feature Importance와 다른 점 설명 (입문자용)
   - summary_plot, dependence_plot 코드 및 해석 방법
   - "X0 변수가 y에 미치는 영향" 해석 예시 작성

2. 과적합 진단 및 해결
   - Train R²(0.82)와 Test R²(0.61) 차이의 의미
   - 해결 전략 3가지 코드 포함
     a) max_depth 줄이기
     b) subsample, colsample_bytree 조정
     c) early_stopping 적용

3. 비즈니스 인사이트 변환
   - "X0 변수가 가장 중요하다" → 제조 현장 관점에서 의미
   - 테스트 시간 단축을 위한 차량 구성 최적화 시나리오
   - 비개발자가 이해할 수 있는 대시보드 지표 3가지 제안

[출력 형식]
- 기술 설명과 비즈니스 해석을 컬럼으로 병렬 제시
- 코드는 주석을 한국어로 상세 작성
- 마지막에 "임원 보고용 3줄 요약" 포함

프롬프트 5 · 전체 파이프라인 자동화 및 재사용 설계

언제 쓰나: “이 분석을 다른 데이터에도 쓰고 싶어” 할 때 — MCP/에이전트화 직전 단계

당신은 MLOps 엔지니어이자 데이터 분석 교육 전문가입니다.

[목표]
Mercedes-Benz EDA → 피처 엔지니어링 → 모델 학습 → 해석까지의
전체 워크플로를 어떤 데이터셋에도 재사용 가능한 클래스로 설계해줘.

[요구사항]

Class: AutoEDAAnalyst

반드시 포함할 메서드:
1. load_and_profile(file_path, target_col)
   - 데이터 로드 + shape/dtype/결측값 자동 요약 딕셔너리 반환
   
2. analyze_target(df, target_col)
   - 분포 시각화 + 이상치 비율 + 변환 필요 여부 자동 판단
   
3. auto_preprocess(df, target_col)
   - 분산=0 컬럼 자동 제거
   - 범주형 자동 감지 후 LabelEncoding
   - 선택적 PCA (n_components를 분산 95% 기준으로 자동 설정)
   
4. compare_models(X, y, cv=5)
   - Ridge / RandomForest / XGBoost / LightGBM 자동 비교
   - 결과를 DataFrame으로 반환 (모델명, CV R² 평균, 표준편차)
   
5. generate_report(output_path)
   - 위 분석 결과를 마크다운 리포트로 자동 저장

[제약 조건]
- 각 메서드는 독립적으로 호출 가능해야 함
- 에러 발생 시 사용자 친화적인 한국어 메시지 출력
- 코드 주석은 입문자가 이해할 수 있는 한국어로 상세히 작성

[출력 형식]
- 완전히 실행 가능한 Python 클래스 전체 코드
- 클래스 아래에 Mercedes 데이터로 실행하는 예시 코드 5줄
- 이 클래스를 MCP 서버로 전환할 때 바꿔야 할 부분 3가지 힌트

🗺️ 5가지 프롬프트의 학습 흐름

프롬프트 1         프롬프트 2         프롬프트 3
(EDA 수행)   →   (피처 설계)   →   (모델 비교)
                                        ↓
              프롬프트 5         프롬프트 4
           (파이프라인화)  ←   (해석 + 인사이트)

이 5개를 순서대로 수행하면 데이터 수령 → 분석 → 모델 → 해석 → 재사용의 완전한 ML 프로젝트 사이클이 완성됩니다. 레이어 2~3 스킬/MCP 제작 시 이 5개 프롬프트를 그대로 메서드 설계 기준으로 재활용할 수 있습니다.

답글 남기기