후기 | Databricks 데이터 플랫폼 구축 세미나

안녕하세요, 동준상입니다. 설연휴를 보내고 난 2월 16일에 Databricks에서 개최한 데이터 플랫폼 구축 세미나에 다녀왔습니다. 드넓은 센터필드에서 정확한 행사장 위치를 찾기 어렵다는 문제가 있었지만, 눈치껏 물어보며 18층에 도착했습니다.

저는 데이터브릭스가

  • (1) 오픈소스 기반 스트리밍 데이터 분석 환경인 Spark의 개발자들이 모여서 만든 회사라는 것,
  • (2) 사업 초기부터 AWS와 끈끈한 관계라는 것,
  • (3) 최근 AI에 대한 높은 기대를 반영해서 일부 VC는 기업 가치를 430억달러 이상으로 평가한다는 것 정도는 알고 있었지만,
  • * 실제로 얼마나 좋은 데이터 플랫폼 서비스를 제공하는지,
  • * 실제 고객 기반은 얼마나 확보했고,
  • * 어떻게 고객 관계를 유지하고 있는지 알고 싶어서

발품을 좀 팔았습니다.


세미나 개요

  • 세미나 일시: 2월 16일 13:00~16:30
  • 세미나 장소: AWS 코리아 18층
  • 세미나 주최: Databricks & AWS
  • 세미나 주제: Data Intelligence 구축 및 활용 전략
역삼역이 조금 더 가까운 AWS 코리아

참고 | Databricks의 최근 핵심 제안 가치

  • Create high quality Generative AI applications => Proj Genie
  • Simplify data ingestion and automate ETL
  • 12x better price/performance than cloud data warehouses
  • 10,000+ customers worldwide (Benz, Square, Michelin, 무신사, 데브시스터즈, 위버스+)
고객 저변 확대 전략: 15일간의 무료 이용 기간 제공

세미나 주제

  • Data Intelligence 특집 세션
  • AWS와 Databricks를 활용한 데이터 파이프라인 구현
  • 좀 더 쉽고 간단한 기업 데이터의 수집,저장, 처리, 시각화 방법론

세미나 진행 순서

  1. AWS에서 데이터 수집하기
  2. Databricks Data Intelligence Platform on AWS
  3. Databricks로 데이터 처리하고 QuickSight 연결해보기
  4. IMWEB: Binlog 기반의 SSOT(단일진실공급원) 구축

세미나 연사


2024 데이터브릭스 세미나 이벤트 소개 페이지
https://events.databricks.com/AWSDatabricksStartup2024?


세미나 참관 후기

AWS 코리아 18층엔 뭐가 있을까? 세 시간 넘는 세미나 운영을 위해 다과나 간식은 준비했을까? 18층은 세미나 전용 공간이었고, 넓은 면적에 포함된 다양한 공간에서 게임 등 다양한 산업 주제의 세미나가 동시에 열리고 있었어요. 간식으로는 감사하게도^^ 미니 파운드케익, 마들레느 등 가볍고 맛있는 베이커리가 준비돼 있었습니다.

소중한 2월 중순 금요일 오후 시간에 얼마나 많은 사람들이 데이터브릭스가 개최하는 데이터 플랫폼 세미나에 참석할까? 내 주위에 앉은 사람은 어떤 분들일까? 주로 스타트업 또는 중소 중견 디지털 기업의 데이터 담당 실무자가 참석했어요. 시작할 땐 자리에 여유가 있었지만 중반쯤엔 빈 자리가 별로 없었어요. 대체로 흥미롭게 듣고 질문도 하는 분위기.

10년차 데이터 플랫폼 전문 기업은 잘 하고 있을까? AI 과잉 기대 속에 오히려 어려움을 겪고 있는 것은 아닐까?
지난 몇 년간 미디어의 집중 조명을 받고 있는 인공지능 산업은 내부적으로는 (1) 기업용 데이터 산업과 (2) 인공지능 산업으로 나눠져있고, 기업용 데이터 산업은 인공지능이 산업으로 자리 잡기 훨씬 전부터 존재했고, 알고리즘이나 모델 기반의 혁신 보다는 클라우드(IT 인프라, IT 유틸리티)에 좀 더 가까운 산업입니다.
데이터브릭스는 데이터 플랫폼 전문 기업으로 나름의 영역을 잘 구축해 왔지만, (1) AI 과잉 기대 속에 난립한 경쟁 기업 문제, 그리고 (2) 마켓 세그먼트가 데이터 비즈니스 또는 클라우드 서브 마켓으로 인식된다는 점에서 AI Golden Age 또는 AI Over-Hype의 시대에 오히려 부담을 느끼는 부분이 있어 보입니다.

데이터 플랫폼의 홍수 속에 데이터브릭스는 어떤 차별화점으로 고객에게 소구하고 있을까? Snowflake, Dataiku, Akkio, DataRobot 등 최신 데이터 분석 플랫폼을 압도하는 탁월한 경쟁력을 발견할 수 있을까? 데이터브릭스의 데이터 플랫폼 솔루션을 택한 (미쉐린 등) 글로벌 고객의 영향력과 후기를 살펴보면 일단 AWS, AZR, GCP 등 클라우드 마켓 리더가 제공하는 데이터 에코시스템과 차별화를 인정받고 있는 것으로 보입니다. 엔터프라이즈 데이터 솔루션 부문에서는 Dataiku 등 신흥 경쟁자를 압도하는 10년차 기업의 파워를 느낄 수 있습니다. 생성형AI를 중심으로 한 산업의 변화에 대해서는 프롬프트 또는 챗봇 스타일의 쿼리 서비스인 Genie Project를 준비중이라고 하셨고, 현장에서 Genie를 이용해서 SQL 문법 지식 없이 프롬프트에 자연어를 입력하여 데이터 레이크의 데이터를 조회하는 방법을 시연해 주셨어요.

누군가 클라우드, 인공지능 산업에서 전문적인 역량을 쌓고, 차별화된 역량을 인정받고 싶은 사람이 있다면, 어떤 경력 관리의 길을 선택하고, 어떤 리듬으로 나아가야 할까? 그런 사람에게 AWS 네이티브 데이터 도구를 잘 다루는 것보다 데이터브릭스 플랫폼을 잘 활용하는 것이 유리할까? 디지털 산업에 입문하고 경력을 쌓아나가는 다양한 방법 중 개발자 트랙이 선호됐지만, 요즘은 전문 데이터 엔지니터, 데이터 분석가 모두 각광받는 트랙입니다. 혹시 제 조카가 22~24살에 기존 전공과 무관하게 새로 경력을 쌓겠다고 한다면, (1) 소프트웨어 엔지니어로서 기본 역량을 쌓기 시작하면서, (2) 클라우드와 데이터 에코시스템에서 전문성을 인정받는 방식을 권하지 않을까 생각합니다. 저는 8년차 클라우드, AWS 강연자 입장에서, (1) 일단 AWS나 AZR, GCP, NCP 등 클라우드 리더의 데이터 생태계 요소를 섭렵하고, 핸즈온 경험까지 쌓은 뒤, (2) 데이터브릭스 또는 스노우플레이크 등 데이터 특화 도구를 활용하고, 차별화 요소를 파악하는 편이 좋지 않을까 생각합니다. 이 무렵, 데이터브릭스의 14일 free-trial이 도움이 될 듯 합니다.

(기업 고객을 위한 클라우드, 인공지능 강연자인) 나는 올해 어떤 주제를 발굴하고 강연 콘텐츠로 만드는 것이 현명한 선택일까? 어떤 주제의 책을 번역하거나 집필해야 할까? 저는 작년 5월부터 12월까지 거의 7개월동안 ‘데이터 마이닝 4판 – 개념과 기술’이라는 책을 번역했는데요, 오랜 시간 한 주제로 지내다보니 인공지능, 데이터 이런 주제를 벗어나서 뭔가 새롭고 흥미로운 주제가 궁금해졌습니다. 그 후 두 달여간 열심히 다른 주제를 찾았지만, 디지털 산업에 발을 담그고 있는 이상, 당분간은 인공지능, 특히 생성형AI를 벗어나는 것은 쉽지 않다는 결론을 얻었습니다. 따라서, 저는 제조, 물류, 생명공학 등 기존 산업 부분과 인공지능을 결합하는 전략, 성공과 실패 사례를 찾으며 시간을 보낼 계획입니다. 또 다른 접근은 제조, 회계, 재무, 영업, 마케팅 등 업무 부문과 인공지능을 결합하는 콘텐츠도 흥미로워 보입니다. 새 책을 번역한다면 출판사 편집자님께 ‘클라우드 기반의 생성형 인공지능’ 원서를 번역해도 되는지 여쭤보려 합니다.

고객 또는 지인에게 이번 세미나 다녀온 것을 자랑할까? 다음에 이런 세미나가 열리면 한번 꼭 가보라고 권하게 될까? 세미나 참석을 위해 새벽부터 비행기 타고 이동하고 몇 시간의 대기 시간도 있었지만, 현장 세미나는 좋은 책, 좋은 글 읽기 만큼이나 유익하다고 생각합니다. 이번 데이터브릭스 세미나에서 제 예상보다 좀 더 강한 데이터 플랫폼에 대한 실수요를 확인했고, 주요 연사의 발표를 들으며 (예전에는 혼재돼 있던) 데이터 산업과 인공지능 산업이 명확하게 분리됐구나… 하는 느낌을 얻었습니다. 이번 세미나는 제 고민에 대한 치료약까지는 아니지만 고민을 풀어가는 데 필요한 비타민 또는 종합영양제 역할은 충분히 했다고 생각합니다. 그래서 세미나를 준비해주신 데이터브릭스 김동욱 아키텍트, AWS 박진우, 민지수 아키텍트, 그리고 생생한 사용 후기를 전해주신 imweb 이슬아 매니저님께 감사의 인사를 전합니다.


세미나 노트


참고자료

Democratize insights with Databricks
https://www.databricks.com/

2024 상반기, Databricks의 핵심 제안 가치 (Core Value Proposition) – 모든 임직원의 데이터 기반 통찰

Michelin uses Databricks

Databricks 개발자 문서
https://docs.databricks.com/en/introduction/index.html

Databricks pricing
https://www.databricks.com/product/pricing

QuickSight Gallery
https://aws.amazon.com/quicksight/gallery/?quicksight-gallery-cards.sort-by=item.additionalFields.industry&quicksight-gallery-cards.sort-order=asc

QuickSight | Call Center Overview Dashboard 예시
https://d2lzvqq4w5ulk4.cloudfront.net/?dashboardName=callcenter

Powering Business
https://partners.wsj.com/aws

Lake Formation
https://aws.amazon.com/lake-formation/

Back to Basics: Building an Efficient Data Lake

Amazon SageMaker Canvas Immersion Day
https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US


세미나 슬라이드 다운로드

PDF | AWS에서 데이터 수집하기
https://drive.google.com/file/d/1zS2sf3kw1FGJqb9U7iIqyDImuXH8rqI1/view?usp=sharing

PDF | Databricks Data Intelligence Platform on AWS
https://drive.google.com/file/d/1GUsMEiK5xIs6j6cDc8cZHmEz5H2U1kUg/view?usp=sharing

PDF | Databricks로 데이터 처리하고 Quicksight로 연결해보기
https://drive.google.com/file/d/17ZgZXF3mV4ZGWxjYyLWut9TSxnAnNQR9/view?usp=sharing

PDF | IMWEB의 데이터의 가치를 만드는 팀으로 나아가기
https://drive.google.com/file/d/1S_IxU939igBM5vS1DGaN3dT46XwqIAma/view?usp=sharing


이상으로 저의 2024 첫 세미나 참관기를 마칩니다. 봄 비와 함께 2월 중순에 갑자기 봄이 찾아온 느낌입니다. 자연과 사람 모두에게 찾아온 변화의 시기에 여러분 모두의 안녕을 바랍니다. 감사합니다.

동준상.넥스트플랫폼 (naebon1@gmail.com)

Leave a Reply