2024년 기업들이 발표한 데이터브릭스 활용 아키텍처에 대하여 정리한 글 입니다.
작년에는 발표 기업들이 데이터브릭스를 왜 선택하였는지 기존 환경에서 데이터브릭스 도입한 환경 및 이유가 무엇인지와 같이 간단한 배경 위주의 발표였습니다.
올해에는 더 나아가 기업들의 직면한 구체적인 데이터 환경, 일일 데이터 처리량, 퍼포먼스 튜닝 결과, 데이터브릭스의 여러 기능들을 도입한 후기에 대하여 수치적으로 자세히 공유해주셨습니다.
해당 기업들의 데이터 환경은 어떠하고 기존 환경에서의 한계점과 데이터브릭스를 통해 개선된 사항들에 대하여 흥미롭게 청취하였습니다.

1. 크래프톤
- 데이터 처리량
→ 누적 : 20+ PB Data / 200+ DB / 20,000+ Tables
→ 일 처리량 : 60+ TB Data / 100,000+ vCPU / 10,000+ TB Memory - 직면한 상황
- 팀, 부서마다 다른 개발환경 / 우선순위
→ Challenges of scaling up : 높은 시스템 복잡도 - 확장 어려움, 제어 어려움, 비용 문제
→ Databricks를 통한 통합 환경 구축 - 데이터 사일로 현상
→ 비슷한 성격의 데이터가 중복 저장
→ 통합 관점에서의 분석 어려움 - 데이터 카탈로그 부재
→ 유연한 권한 관리 어려움
- 팀, 부서마다 다른 개발환경 / 우선순위
- Databricks 활용
→ Unity Catalog
→ External Data
→ Near real-time with Streaming Connector, Auto Loader
→ Delta Sharing
→ Infra Ops with Terraform - New Point
Asset Bundle 기반 개발 프로세스
1. 노트북 코드 작성
2. Yaml 기반 배치 설정 파일 작성
3. Git 서버에 Push
4. CI/CD 파이프라인에서 bundle 커맨드 실행
5. 배치 검증 및 production 코드 배포
2. LG전자
- 데이터 처리량
→ 100,000,000+ 의 Device에서 나오는 데이터 - 직면한 상황
- 비슷한 사례의 데이터 반복 전달, 일부 Data만 사용, 활용 사례 공유 어려움
→ Databricks를 통한 통합 환경 구축 - Scalability - 특정 기간에 필요한 확장성
→ 특정 기간에만 클러스터 확장하여 해결
- 비슷한 사례의 데이터 반복 전달, 일부 Data만 사용, 활용 사례 공유 어려움
3. Bagelcode
- 데이터 처리량
→ 누적 : 1 PB Data
→ 일 처리량 : 12 TB Data
→ 일 적재량 : 1 TB - 직면한 상황
Databricks에서 오케스트레이션 후 분석을 위한 Redshift 운영
→ 분석을 위한 Redshift 운영 코스트 제거
→ Redshift to Databricks Serverless SQL - 비용 절감 → $10,000/ month
- Redshift (ra3.4xlarge)
Cluster + Data sink: $11,000 / month
Classic SQL X-Small Cluster
AWS $800 / month + Databricks $700 / month - Serverless • $2700 / month
- Redshift (ra3.4xlarge)
- Furthermore
→ Databricks SQL Serverless 를 이용한 Data Serving API 리뉴얼
→ 목적별로 나누어져 있는 SQL Serverless Warehouse의 운영 최적화
→ SQL Serverless의 비용 최적화
→ Serverless Job, Serverless Notebook 도입
4. 자비스 앤 빌런스
- 데이터 처리량
→ 누적 가입자 2000만명
→ 사용자 행동 데이터 Monthly Events : 2억 2400만개 / Events Type : 500개 - 직면한 상황
→ 더 빠른 실시간 대응이 필요 : 실시간 처리
→ 특정 기간에 치솟는 데이터에 대한 유연한 대응 - Databricks 활용
→ Custom Python Package : 모든 데이터는 파이썬 코드화
→ 일원화된 데이터 테이블 구조 : Delta managed table
→ 프로세스 마다 적합한 클러스터 타입 및 사이즈로 관리
→ 개인정보 차단된 환경 제공 : Secured zone <> Cleaned zone 운영
→ 데이터 설명, 태그, 리니지 with unity catalog
→ 퍼포먼스 개선 : Optimize, Vacuum, Z-order, photon engine - Conclusion
→ 데이터 파이프라인 인프라 및 환경 세팅은 데이터브릭스에 위임하고 온전히 데이터에 포커스
→ 조직원 모두가 동일한 데이터를 바라봄 with Unity Catalog
→ 데이터 서빙 속도 향상, 서비스 운영 속도 향상
Link
'Databricks' 카테고리의 다른 글
[Databricks] 데이터브릭스 학습하기 1 (0) | 2024.04.22 |
---|