목록RDD (1)
On the journey of

3장 Apache Spark’s Structured APIs 소개글 Apache Spark가 어떻게 생겨났고, Spark의 버전들의 특성을 간략하게 소개하고 있다. 새로운 API를 살펴보기 전에 RDD API 모델을 살펴보자고 한다. 1. Spark: What’s Underneath an RDD? RDD는 스파크에서 가장 기초적인 추상화이고, RDD에는 3가지의 중요한 특성이 있다 종속성 (Dependencies) 파티션 (Partitions) 계산 기능 (Compute function) => Iterator[T] Iterator 관련 자료 https://onlyfor-me-blog.tistory.com/319 3가지 모두 간단한 RDD 프로그래밍 API 모델에 필수적이다. 종속성 스파크에 입력으로 RD..
Experiences & Study/PySPARK & Data Engineering
2023. 8. 31. 00:06