전체 글 (25) 썸네일형 리스트형 [Spark] Spark Data Structures 들어가며 대용량 처리 기술의 Base Engine인 Spark 학습을 진행하며 기술 내용을 정리한다.Spark 기반 리소스 활용을 위해 보다 개념적인 학습 및 코드 학습을 학습 범위로 한다. 대용량 데이터 처리를 위한 아키텍처들은 대부분 Spark 엔진을 베이스로 구성되어있다. Ex. Databricks, HD Spark가 지원하는 데이터 구조는 다음과 같다.RDD (Resilient Distributed Dataset) : 스파크에서 가장 기본적인 데이터 구조로, 불변하며 분산된 객체의 컬렉션입니다. RDD는 여러 개의 파티션으로 분할되어 클러스터의 여러 노드에서 처리됩니다.DataFrame : RDD의 확장된 버전으로, 스파크에서 구조화된 데이터 처리를 위해 사용되는 API입니다. DataFrame은.. 이전 1 ··· 6 7 8 9 다음