본문 바로가기

Databricks

[Databricks] 데이터브릭스 학습하기 1

배경

데이터 브릭스 PoC를 위해 찾아본 자료를 정리합니다.

해당 글의 자료는 데이터브릭스코리아 유튜브 영상에서 확인할 수 있습니다.

 


 


데이터브릭스의 주요 콘텐츠를 키워드로 정리합니다.

기존 클라우드 플랫폼에서 제공하는 기능은 대부분 제공하는 것 같습니다.

또한, 기존 클라우드 플랫폼을 당장 대체하는 것이 아닌 확장해서 사용해볼 수 있도록 잘 되어있습니다.


Main Keyword

  • Unity Catalog
    - 단일/통합된 보안 및 관리
    - 공유 → Delta Sharing 
    - DBFS를 학습 → 더 나은 Magic Command 가능
  • 보안
    기존의 SSO 그대로 연동하여 사용 가능
    Ex. Azure AD 연동하여 추가 설정 필요하지 않음
  • 독립적인 작업 환경 및 클러스터
    - 각 용도에 맞는 노트북 및 클러스터 생성
    - 노트북에 따른 접근 권한 설정
  • Cluster
    - Instance
    - Photon Engine
  • Delta Lake
    Table Format → Parquet이지만 ACID 보장
  • Delta Live Table
    - Auto Loader
    - Rescue Data
  • Photon Engine
    기존 Spark Engine을 C++로 재개발하여 더 빠른 속도 보장
  • SQL Warehouse
  • ML Flow

Overview

 

 

  • Unity Catalog

 

  • Rescue Data in Delta live table
    기존 설정한 스키마와 다른 데이터에 대해서 삭제하는 것이 아닌 Rescue data 컬럼으로 저장 가능
    → 부적합한 데이터로 인한 ETL 끊김 방지 및 대응 가능

 

  • Delta Sharing
    Unity Catalog에서 관리되며 Recipient 작성을 통해 관리

 

 


Ref.

01. [Youtube] https://www.youtube.com/@databrickskorea9797

'Databricks' 카테고리의 다른 글