KPC | 클라우드 기반 데이터 분석

교육일정

  1. 23.04.10 월 ~ 23.04.11 화 (14H) 강의 종료
  2. 23.06.29 목 ~ 23.06.30 금 (14H) 강의 종료
  3. 23.09.21 목 ~ 23.09.22 금 (14H) 강의 종료

교육 상세 정보 및 수강 문의
https://www.kpc.or.kr/PTWED003_dtil_view.do?ecno=41729
(교육문의: 김지은 위원 / T. 02-724-1218 / jekim@kpc.or.kr)

교육 목표

  • 기업 데이터 분석 환경의 특수성 이해
  • Colab 등 오픈소스 데이터 분석 도구 활용 실무
  • SageMaker 등 클라우드 데이터 분석 도구 활용 실무
  • 기업 클라우드 환경에서의 데이터 분석 베스트 프랙티스

교육 대상

  • 기업 데이터 분석 업무 관여도가 높은 실무자
  • 클라우드 기반의 데이터 분석 도구를 이용하려는 실무자
  • 하이브리드 클라우드 기반의 데이터 분석 환경 구성 담당자

수강고객사

  • 한국장학재단
  • 주택보증공사
  • 한국국방연구원
  • 한국지역정보개발원
  • 한국정보통신기술협회

교육 개요

  • [P01] 현대 기업 데이터 분석 환경, 도구, 전략 개론
  • [P02] Anaconda, Google Colab을 이용한 기업 데이터 분석
  • [P03] AWS Sagemaker, Canvas를 이용한 기업 데이터 분석
  • [P04] 기업 전용 분석 환경 구성, 모델 빌드, 학습, 배포 전략

공개교안 다운로드 | 클라우드 데이터 분석 (PDF, 44/270p)
https://drive.google.com/file/d/1-oumpayw19qUBnVXORHK-2NLp9J1l7RN/view?usp=sharing

기본교안 다운로드 | 클라우드 데이터 분석 (PDF, 270p, 열람암호 필요)
지금은 다운로드 기간이 아닙니다.

데이터 분석실습: AWS 접속 계정 (수강고객 대상)
https://nxp-cloudbase.signin.aws.amazon.com/console


머신러닝 알고리즘 기반의 데이터 분석

파이썬 코드 / 데이터 과학 라이브러리 / 주피터 노트북 활용

ML01: Customer Churn (AWS SageMaker Autopilot)
https://colab.research.google.com/drive/1y1OzgbgUPhSGB0Jnwkss3zY3zv4GQnnv?usp=sharing

ML02: DL Prediction (1차 함수의 해 추론)
지금은 접속가능 기간이 아닙니다.

ML03: ML Prediction (해군함정 가스터빈 예방적 유지보수)
지금은 접속가능 기간이 아닙니다.

ML03: Data (naval_gas_turbine_data.csv)
지금은 접속가능 기간이 아닙니다.

ML04: DL CNN BEST (MNIST, TensorFlow)
지금은 접속가능 기간이 아닙니다.


자동화 머신러닝 도구 기반의 데이터 분석

AutoML / 데이터 기반 머신러닝 모델 생성 및 분석 자동화 도구 활용

AutoML01: churn.csv (산업: 이동통신, 부문: 마케팅, 업무: 고객행동예측, 특징: 이진 클래스 분류)
https://static.us-east-1.prod.workshops.aws/public/968c6fb1-eb62-4247-bc1e-17a978e70e81/static/datasets/churn.csv

SG Canvas 01 대시보드
SG Canvas 02 훈련시킨 모델 목록
SG Canvas 03 모델 빌드 준비 – 데이터 탐색
SG Canvas 04 모델 빌드 준비 – 타겟 변수 선택
SG Canvas 05 모델 훈련 (분석), 중요도 순으로 특성치 나열
SG Canvas 06 이진 분류 모델의 성능 지표 (Accuracy, 전통적인 시각화 기법인 AUC와 비교)

AutoML02: loans-part-1.csv, loans-part-2.csv (산업: 금융, 부문: 여신, 업무: 상환능력 예측, 특징: 데이터 병합 필요, 멀티 클래스 분류)
Part 1: https://static.us-east-1.prod.workshops.aws/public/968c6fb1-eb62-4247-bc1e-17a978e70e81/static/datasets/loans-part-1.csv
Part 2: https://static.us-east-1.prod.workshops.aws/public/968c6fb1-eb62-4247-bc1e-17a978e70e81/static/datasets/loans-part-2.csv

SG Canvas 11 여러 개의 데이터 세트 사용시 Join
SG Canvas 12 Join 위한 데이터 키 선택: ID
SG Canvas 13 데이터 속성(칼럼) 탐색
SG Canvas 14 멀티 클래스 분류 모델 빌드
SG Canvas 15 분류 모델 성능 기본 지표: 정확도
SG Canvas 16 분류 모델 성능 추가 지표: 정밀도, 리콜 외

EDA: House Rental (용도: Data Wrangler 실습)
s3://sagemaker-sample-files/datasets/tabular/brazil_houses/kaggle_brazil_houses_rental_data.csv


AutoML03: consumer_electronics.csv (산업: 소비자가전, 부문: 영업, 업무: 수요 예측, 특징: 시계열 데이터)
https://static.us-east-1.prod.workshops.aws/public/968c6fb1-eb62-4247-bc1e-17a978e70e81/static/datasets/consumer_electronics.csv

SG Canvas 21 시계열 예측 모델 빌드
SG Canvas 23 시계열 예측 모델 데이터 속성 탐색
SG Canvas 25 시계열 예측 모델 기반의 예측

AutoML04: Churn using Autopilot

Autopilot 01 – 데이터 선택
Autopilot 02 – 타겟 변수 선택
Autopilot 03 – 훈련 방식(모델) 선택: Ensemble(Random Forest)
Autopilot 04 – 모델 배포(엔드포인트) 설정
Autopilot 05 – 리뷰 및 모델 생성
Autopilot 06 – 생성된 ML 모델
Autopilot 07 – 생성된 ML 모델의 설명력(특성치 중요도 외)
Autopilot 08 – 생성된 ML 모델의 예측 성능(ROC 커브 외)

AutoML05: Caltech101 (for Image labeling with Object Detection)
https://static.us-east-1.prod.workshops.aws/public/968c6fb1-eb62-4247-bc1e-17a978e70e81/static/datasets/sample-images.zip

AutoML06: Magnetic-tiles-Dataset (for Magnetic-Tiles-Defect-Model)
훈련용 데이터 https://static.us-east-1.prod.workshops.aws/public/968c6fb1-eb62-4247-bc1e-17a978e70e81/static/datasets/magnetic-tiles-train.zip
검증용 데이터 https://static.us-east-1.prod.workshops.aws/public/968c6fb1-eb62-4247-bc1e-17a978e70e81/static/datasets/magnetic-tiles-test.zip


[P01] 현대 기업 데이터 분석 환경, 도구, 전략 개론

  • 서론: 기업 데이터 분석 환경의 특수성 – 하이브리드 클라우드
  • 사례: 삼성전자의 Demand Forecasting (Cloud & No-code)
  • 사례: Chevron 지식 기반 검색 서비스, AES 설비 유지보수 효율화

[P02] Anaconda, Google Colab을 이용한 데이터 분석

  • 실습: 오픈소스 분석 도구로서 Anaconda, Colab 개요
  • 실습: 데이터 로딩, 전처리, 탐색적 데이터 분석 (EDA)
  • 사례: Benz의 출고차량 성능검사 최적화 (EDA)

[P03] AWS Sagemaker, Canvas를 이용한 데이터 분석

  • 실습: 클라우드 서비스로서 AWS, GCP, Azure 분석 서비스 개요
  • 실습: AWS SageMaker Studio를 이용한 분석 (Low-code)
  • 실습: AWS SageMaker Canvas를 이용한 분석 (No-code)

[P04] 기업 전용 분석 환경 구성, 모델 빌드, 학습, 배포 전략

  • 개론: 기업 전용 데이터 분석 환경 – MLOps 구성 및 적용
  • 사례: 미국 금융규제위원회(FINRA) 금융거래 빅데이터 분석
  • 결론: 데이터 분석 환경 구성, 모델 빌드, 학습 베스트 프랙티스

참고영상

Databricks | Lakehouse Platform

AI Studio | AZR 머신러닝 플랫폼

Generative AI Studio | GCP 머신러닝 플랫폼 Vertex AI의 생성형 모델 활용

기업용 ML 플랫폼 | SageMaker의 주요 기능 및 특징을 예시를 통해 소개

비즈니스 분석가용 노코드 ML | SageMaker Canvas의 주요 기능 소개

ML을 위한 데이터 전처리 도구 | SageMaker Data Wrangler의 주요 기능 소개

자동화된 ML 모델 생성 도구 | SageMaker Autopilot의 주요 기능 소개

ML 분석 성과 – 피처 저장소 | SageMaker Feature Store의 주요 기능 소개

Google | Colab 시작하기

Google | 머신러닝으로 해결할 수 있는 문제 유형 예시 (Video Transcribe 외)


참고자료

분석비용: SageMaker, Canvas 분석 실습 후 청구 비용: $603

  • 9명 x 5시간
  • $600 / 45시간 = 시간 당 13달러?
  • 비용 통제 위해서 인원수, 실습시간 관리 필요
SageMaker 핸즈온 비용 1
SageMaker 핸즈온 비용 2
SageMaker 핸즈온 비용 3
SageMaker 핸즈온 비용 4

끝 | 감사합니다.

Leave a Reply