배경
데이터 브릭스 PoC를 위해 찾아본 자료를 정리합니다.
해당 글의 자료는 데이터브릭스코리아 유튜브 영상에서 확인할 수 있습니다.

데이터브릭스의 주요 콘텐츠를 키워드로 정리합니다.
기존 클라우드 플랫폼에서 제공하는 기능은 대부분 제공하는 것 같습니다.
또한, 기존 클라우드 플랫폼을 당장 대체하는 것이 아닌 확장해서 사용해볼 수 있도록 잘 되어있습니다.
Main Keyword
- Unity Catalog
- 단일/통합된 보안 및 관리
- 공유 → Delta Sharing
- DBFS를 학습 → 더 나은 Magic Command 가능 - 보안
기존의 SSO 그대로 연동하여 사용 가능
Ex. Azure AD 연동하여 추가 설정 필요하지 않음 - 독립적인 작업 환경 및 클러스터
- 각 용도에 맞는 노트북 및 클러스터 생성
- 노트북에 따른 접근 권한 설정 - Cluster
- Instance
- Photon Engine - Delta Lake
Table Format → Parquet이지만 ACID 보장 - Delta Live Table
- Auto Loader
- Rescue Data - Photon Engine
기존 Spark Engine을 C++로 재개발하여 더 빠른 속도 보장 - SQL Warehouse
- ML Flow

- Unity Catalog

- Rescue Data in Delta live table
기존 설정한 스키마와 다른 데이터에 대해서 삭제하는 것이 아닌 Rescue data 컬럼으로 저장 가능
→ 부적합한 데이터로 인한 ETL 끊김 방지 및 대응 가능

- Delta Sharing
Unity Catalog에서 관리되며 Recipient 작성을 통해 관리

Ref.
01. [Youtube] https://www.youtube.com/@databrickskorea9797
'Databricks' 카테고리의 다른 글
| [Databricks] Data Intelligence Day Korea 2024 정리글 (0) | 2024.06.27 |
|---|