목록Experiences & Study/PySPARK & Data Engineering (13)
On the journey of
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/cT1JkV/btssAzahiZ0/gEOgALiXEVZvrjOKL91o5k/img.png)
데이터프레임을 파케이 파일이나 SQL 테이블로 저장하기 parquet_path = … fire_df.write.format(“parquet”).save(parquet_path) # 혹은 하이브 메타스토어에 메타데이터로 등록되는 테이블로 저장 parquet_table = … fire_df.write.format(“parquet”).saveAsTable(parquet_Table) 트랜스포메이션과 액션 칼럼의 구성 확인 (타입 확인, null 값 확인 등) 프로젝션과 필터 프로젝션: 필터를 이용해 특정 관계 상태와 매치되는 행들만 되돌려 주는 방법 select() 메서드로 수행 필터: filter()나 where() 메서드로 표현 few_fire_df = (fire_df .select(“IncidentNumb..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/b93hOM/btssv0lW32q/6HOogoYQzgky5qLrrJYgn1/img.png)
3장 Apache Spark’s Structured APIs 소개글 Apache Spark가 어떻게 생겨났고, Spark의 버전들의 특성을 간략하게 소개하고 있다. 새로운 API를 살펴보기 전에 RDD API 모델을 살펴보자고 한다. 1. Spark: What’s Underneath an RDD? RDD는 스파크에서 가장 기초적인 추상화이고, RDD에는 3가지의 중요한 특성이 있다 종속성 (Dependencies) 파티션 (Partitions) 계산 기능 (Compute function) => Iterator[T] Iterator 관련 자료 https://onlyfor-me-blog.tistory.com/319 3가지 모두 간단한 RDD 프로그래밍 API 모델에 필수적이다. 종속성 스파크에 입력으로 RD..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/HqS43/btssALolqVT/AOSkkiNmpLhwKKHteCJ7V0/img.png)
이제 본격적으로 Spark를 다운받아 실행해보자 . 1단계 : 아파치 스파크 다운로드 Apache Spark 다운로드 페이지에서 아래와 같은 옵션으로 다운로드 해준다. 필요한 하둡 관련 바이너리를 포함하고 있으며, 운영중인 HDFS나 하둡 설치본이 있다면 버전을 맞춰준다. 2. 오직 파이썬으로만 Spark를 사용할 경우에는 PyPI로 파이스파크를 간단하게 설치해준다. pip install pyspark #SQL, ML, MLlib 을 위한 추가적인 라이브러리 설치 pip install pyspark[sql,ml,mllib] # SQL 의존성만 필요하다면 pip install pyspark[sql] 3. R을 사용할 경우는 R을 설치한후 sparkR을 실행해야한다. R을 통한 분산 컴퓨팅을 위해선 R 오픈..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/ceuvAf/btsshqyFDCZ/GCpgerKaYD0znlsKMTQHEk/img.png)
Graph X 그래프를 조작하고 ex) SNS 친구 관계 그래프, 경로 등 그래프 병렬 연산을 수행하기 위한 라이브러리 분석, 연결 탐색 등 표준 그래프 알고리즘을 제공 커뮤니티 사용자들이 기여한 PageRank, 삼각 집계 등의 알고리즘도 포함 아파치 스파크의 분산 실행 스파크는 분산 데이터 처리 엔진이며, 각 컴포넌트들이 클러스터의 머신들 위에서 협업해 동작한다 아파치 스파크 컴포넌트와 아키텍처 [이미지 출처 blog.knoldus.com] 하나의 스파크 애플리케이션은 스파크 클러스터의 병렬 작업들을 조율하는 하나의 드라이버 프로그램으로 이루어진다. 드라이버는 SparkSession 객체를 통해 클러스터의 분산 컴포넌트(executor)에 접근한다. ✨아파치 스파크 컴포넌트 1. 스파크 드라이버 Sp..