최근 여러 기업 개발팀·데이터팀과 이야기하다 보면
공통적으로 나오는 문제가 있습니다.
Spark Job 처리 지연
ETL 파이프라인 병목
데이터 품질·버저닝 관리 어려움
ML 실험·Model Tracking 환경 흩어짐
시스템별로 데이터가 사일로로 분리됨
이게 계속 누적되면 데이터팀이 “서비스 개발”보다
“장애 예방·튜닝·임시방편 작업”에 시간을 더 쓰게 됩니다.
이번에 Databricks Lakehouse 기반으로 PoC를 진행하면서
확실히 체감한 점이 있어 공유합니다.
단일 플랫폼에서 ETL → Feature Engineering → ML 실험 → 분석/BI까지
전부 돌아가는 환경은 생각보다 큰 차이를 만들어 냅니다.
Delta Lake를 통한 데이터 품질·버저닝 관리
Spark 엔진 최적화
자동 확장(Auto-scaling) 클러스터
통합된 ML 실험/추적(MLflow)