KPC | 데이터 리터러시

  • 개요: 도로교통공단 임직원을 위한 데이터 리터러시 과정
  • 일시: 2023.06.08 목 ~ 06.9 금 (16H)
  • 장소: 대전 KT인재개발원
  • 기획: KPC 한국생산성본부 정민경, 하석영 위원
  • 개요: KIA 임직원을 위한 데이터 리터러시 역량 강화 과정
  • 일시: 2023.02.09 목 ~ 02.10 금 (14H)
  • 장소: 용인 KIA 연수원
  • 운영: KPC 한국생산성본부 윤영성 위원
  • 과정 개발: KPC 한국생산성본부 박혜경, 김지은 위원
  • 강연: NXP 넥스트플랫폼 동준상 대표
    (2020 KPC AI 전문가위원, 2021~현재 KPC DT 컨설턴트)

데이터 급증 시대, 우리의 대처 방법

이번 과정은 데이터 홍수의 시대, 데이터 문해력(data literacy)을 높여서 새로운 시대에 좀 더 잘 적응하고, 데이터 기반의 의사결정을 내릴 수 있도록 돕는 과정입니다.

데이터 리터러시 – 강연 동준상
데이터 리터러시 – 기업 핵심 자원으로서 데이터

데이터 리터러시 4대 역량

  1. 데이터 로딩 (Loading): 문제를 해결하거나, 업무에 활용하려는 데이터를 분석 환경에 불러오는 능력. 머신러닝 모델 분석을 위해 엑셀 호환 파일을 불러오는 방법은? 이 때 필요한 라이브러리는? GitHub에 있는 데이터 파일을 API 방식으로 가져오는 방법은? 10TB의 빅데이터를 어떻게 불러올 것인가?
  2. 데이터 정련 (Refinement): 분석 방법, 목적, 데이터 타입에 맞춰 데이터를 정리, 변환하는 능력. 데이터 전처리(누락값 처리, 이상점 처리 등) 방법은? 데이터 슬라이싱, 인덱싱 방법은?
  3. 데이터 탐색 (Exploration): 데이터에서 해답을 얻을 수 있을지 살펴보는 능력, 데이터의 분석 가치를 공유하는 능력. 데이터의 기본적 통계량을 확인하는 방법은? 기본적인 통계량을 확인할 수 없는 데이터는? 데이터를 시각화하는 방법은? 데이터의 유의미성을 판단할 근거는?
  4. 데이터 분석 (Analysis): Python, Excel, SQL, R 등 다양한 도구를 이용하여 문제의 해법을 도출하고 검증하는 능력. 파이썬 노트북을 활용하는 방법은? 엑셀을 이용하여 가설을 검증하는 방법은? 데이터베이스 등 조직 리소스를 SQL 등으로 질의하고 추출하는 방법은?

이론 교재 및 실습 자료 다운로드

기본 교재 다운로드 (PDF, 270p, 40MB, 수강고객 전용, 암호 필요)
지금은 다운로드 기간이 아닙니다.

샘플 교재 다운로드 (PDF, 50p, 10MB, 커뮤니티 공유용)
https://drive.google.com/file/d/1idV_7f9x5OZSr0u2IteHMYuKZYANGC9t/view?usp=sharing


보조 교재 | 예측적 분석의 이해 (PDF, 100p, 40MB, 열람암호)
지금은 다운로드 기간이 아닙니다.

KPC 예측적 분석의 이해 – 데이터 리터러시 역량 강화

데이터분석보고서 | 해군함정 가스터빈 추력기 유지보수 (UCI Repo)
지금은 다운로드 기간이 아닙니다.

EXCEL | 기초통계연습 (2021, 노경섭, 한빛)
지금은 다운로드 기간이 아닙니다.

EXCEL | 데이터 분석을 위한 엑셀 기초
지금은 다운로드 기간이 아닙니다.

EXCEL | 기술적 통계량 및 정규화, 표준화
지금은 다운로드 기간이 아닙니다.

EXCEL | 선형회귀분석 모델의 구현
지금은 다운로드 기간이 아닙니다.

EXCEL | 다항회귀분석 모델의 구현
지금은 다운로드 기간이 아닙니다.


1일차 – 데이터에 내포된 인사이트 파악

#벤츠의 엔진과 미션 등 성능 검사 항목은 몇 가지일까요? 10만달러 가까운 가격의 차를 출고할 때 소비자 입장에서 과연 얼마동안 성능 검사를 하길 원할까요? 환경을 고려하여 성능 검사 시간을 줄여야 한다면 어떻게 해야 할까요?

자동차 산업 | 벤츠 성능 검사 시간 최적화 (Benz)
https://www.kaggle.com/competitions/mercedes-benz-greener-manufacturing

#이태리 해군사관학교 부설 연구소에서 해군함선에 장착될 터빈 엔진을 시험가동하고 있습니다. 혹독한 해양 환경에서 엔진의 수명에 가장 큰 영향을 미치는 요인은 무엇일가요?

방위 산업 | 가스 터빈 엔진의 예방적 유지보수
http://archive.ics.uci.edu/ml/datasets/condition+based+maintenance+of+naval+propulsion+plants

#여러분의 친구 중 한 명이 포르투갈로 이민가서 Novo Banco에 취직을 했는데요, 신상품 영업을 위해 고객에게 전화를 걸어야 합니다. 그런데 고객 수는 4만여명이고 전화를 거는 시간과 비용을 고려하면 8천명에게만 연락을 할 수 있습니다. 8천명의 고객, 어떻게 선정해야 할까요?

금융 산업 | 신상품 권유 메시지에 대한 고객 행동 예측
https://archive.ics.uci.edu/ml/datasets/bank+marketing

#여러분의 또 다른 친구는 멕시코로 이민가서 남미 최대 베이커리 제조 및 유통 기업에 취직을 했습니다. 베이커리 제품 특성상 유통 기한이 중요한데, 판매량은 최대화하고 반품량은 최소화하라는 임무를 부여받았습니다. 유력한 대리점을 포함, 소매점 100만개에 베이커리 제품을 공급하기 위한 최선의 물량은 어떻게 정해야 할까요?

유통 산업 | 유통 기한이 있는 제품의 판매량 및 반품량 예측
https://www.kaggle.com/c/grupo-bimbo-inventory-demand/overview

Data Literacy Essential 실습용 코드 (데이터 로딩, 정련)
https://colab.research.google.com/drive/1G1SwXA4TsdHgRzaV3jFOBWEztKA7DWRp?usp=sharing

실습용 데이터세트 | insurance.csv (by Isil.Intel)
지금은 다운로드 기간이 아닙니다.


2일차 – 이미지, 자연어 등 다양한 데이터와의 상호작용

#컴퓨터는 수학을 잘 할까요? 네, (사람의 풀이 방법과는 좀 다르지만) 대체로 잘 하는 편입니다. 그럼 몇 년전부터 잘 쓰고 있는 딥러닝 알고리즘에게 간단한 1차 함수 문제를 내보면 어떨까요? 수학 선생님도 딥러닝의 풀이 방식에 만족하실까요?

2일차 Data Literacy Essential ‘딥러닝 기반 1차 함수의 해 추론’
지금은 다운로드 기간이 아닙니다.

(전통적인 컴퓨터가 수학 문제를 잘 푼다면, 최신의 양자 컴퓨터도 같은 수학 문제를 더 잘 풀 수 있지 않을까요?)


#(2023년 현재까지) 사람이 컴퓨터보다 타고나게 잘 하는 일이 이미지 의미 파악입니다. 사람은 어떤 장면에 담긴 내용을 0.2초 이내에 파악하고 장기 저장소에 넣을지, 혹은 그냥 잊어버릴지 정할 수 있습니다. 하지만, 딥러닝은 사람보다 성능은 떨어지지만 단순반복적인 이미지 작업은 좀 더 잘 할 수 있습니다. 이를테면 10만장의 비슷한 이미지를 분류하거나 480분 분량의 열화상 카메라 영상을 모니터링하는 일 등은 딥러닝이 참 잘하는 일이지요. 딥러닝은 어떻게 이미지 데이터를 분석하나요?

2일차 Data Literacy Essential 실습용 코드CNN 기반 이미지 분류’
지금은 다운로드 기간이 아닙니다.


참조 | 파워업 SageMaker 분석 실무 (교재 / PDF)
https://drive.google.com/file/d/1eq3-8tXIZ0m6tYHGufkPTLt4gSM1NOFN/view?usp=sharing

참조 | ML Binary Prediction (47p, PDF)
https://drive.google.com/file/d/1GvwXo99ufZ19W4dhC7Jq11R_uwRLaE-e/view?usp=sharing


데이터세트와 분석모델

NIA | AIHUB
https://aihub.or.kr/

NIA | AIHUB – 교통물류 데이터세트 목록
https://aihub.or.kr/aihubdata/data/list.do?currMenu=115&topMenu=100&srchDataRealmCode=REALM003

GCP | AIHUB
https://aihub.cloud.google.com/

GGL | Dataset Search
https://datasetsearch.research.google.com/


케이스 스터디 | Orbital Insight
(지리공간정보 플랫폼)

케이스 스터디 | AES & GCP AutoML
(산업에 적용된 딥러닝, 대량의 이미지와 영상 분석 기반 예방적 유지보수)

케이스 스터디 | Chevron & GCP AutoML
(산업에 적용된 딥러닝, 대량의 문서 분류를 통한 지식기반 관리)

분석도구 리뷰 | Sagemaker Studio Lab
(Free/Open, 사전 신청 필요)


참고 자료

도로교통 | NVIDIA – Traffic Management Systems With AI
https://developer.nvidia.com/blog/metropolis-spotlight-nota-is-transforming-traffic-management-systems-with-ai/

도로교통 | BBC – Technology that could end traffic jams
https://www.bbc.com/future/article/20181212-can-artificial-intelligence-end-traffic-jams

Deloitte | 자동차 산업 공급망 동향 분석

불확실성 하에서 자동차 구매자에게 가장 큰 영향을 미치는 요소

https://drive.google.com/file/d/1GyxPbEKDFrznhbw_lMHbfb-gzw6j_yvu/view?usp=share_link

PWC | 자동차 산업 5대 혁신 트랜드

자동차 산업 5대 트랜드: EASCY – E 전동화, A 자율주행성, S 공유성, C 연결성, Y 연례 업데이트

https://drive.google.com/file/d/1hEJdQ20sbNB_q1H4n5eUdvqP3ujs6B3K/view?usp=share_link

KPMG | 글로벌 자동차 기업 임원 설문조사

어떤 기업이 자율주행 자동차 솔루션 분야를 선도할 것으로 생각하는가?

https://drive.google.com/file/d/1moEQN0CYfooYoHiLbmIrqwvVZhnOevu8/view?usp=share_link

McKinsey | 자동차 산업의 소프트웨어 및 전장 동향 분석

5세대 자동차 전장 – 고성능 컴퓨팅 기반 가상화 도메인 및 상시 이더넷 연결성을 제공하는 중앙화 아키텍처

https://drive.google.com/file/d/1PbTwUQBTEmR3Se7q3PN86crp0-9wSSQu/view?usp=share_link

ACEA | 2022~2023 유럽자동차산업 동향분석

유럽자동차제조협회(ACEA, European Automobile Manufacturers’Association)

https://drive.google.com/file/d/1EZQmrnXdpvDvAE6_VMNofWuGiActfLC5/view?usp=share_link

EIU | 2023 자동차 산업 예측

Credit Suisse | 2016 Tesla Report

2016년 – 테슬라의 존속 가능 여부를 의심하던 시기

Tesla | 2022 Tesla Financial Report

2022년 – 테슬라의 수익률(EBITDA) 23%와 포드, GM의 수익률을 비교하는 시기

https://drive.google.com/file/d/1Eshz0-jP9nPKlyAfEC3QVIo0GEu18cS1/view?usp=share_link

자율 주행 기술 | Lyft Motion Prediction for Autonomous Vehicles
https://www.kaggle.com/competitions/lyft-motion-prediction-autonomous-vehicles

사고 유형 분석 | US Accidents (2016 – 2021)
https://www.kaggle.com/datasets/sobhanmoosavi/us-accidents

차량 가격 예측 | Car Price Prediction Multiple Linear Regression
https://www.kaggle.com/datasets/hellbuoy/car-price-prediction


참고영상

Forbes | 2023 Car Market Outlook
https://www.forbes.com/wheels/features/car-market-outlook-2023/

2022 Tesla SCM
https://stockdividendscreener.com/auto-manufacturers/tesla-quarterly-inventory/


실무활용 예제코드

COL01 ML Prediction (XAI – KNN 분류)

COL02 ML Prediction (해군함정 가스터빈 예방적 유지보수)

DAT021 데이터세트
https://drive.google.com/file/d/1ipqrvaVZCREerVRdhAQRbcczHGyzdZ0i/view?usp=share_link

COL03 DL Prediction (1차 방정식 해 추론)

COL04 ML Prediction Master (by IsilBerkun@Intel)

DAT041 데이터세트
https://drive.google.com/file/d/18JKM-CurRtwDtQuSVY-_9tXCezX8NMRx/view?usp=share_link

COL05 DL CNN Best (CNN 기법의 활용)

REF01 스웨덴국방연구소-EA | 심층강화학습 성능 비교 평가 (Evaluating Deep Reinforcement Learning for Computer Generated Forces in Ground Combat Simulation)
https://www.foi.se/download/18.46c3b221170ccb3336f17b/1585326403809/Evaluating-deep-reinforcement-learning_FOI-S–6100–SE.pdf


이 포스트는 KPC 수강 고객의 강의 지원을 위해 작성됐으며,
예고 없이 수정 또는 삭제될 수 있습니다.

230602 / 230131 | 동준상.넥스트플랫폼

Leave a Reply