목록옵티마이저 (1)
On the journey of
[PySPARK] 정형 API 활용하기 (2)
데이터프레임을 파케이 파일이나 SQL 테이블로 저장하기 parquet_path = … fire_df.write.format(“parquet”).save(parquet_path) # 혹은 하이브 메타스토어에 메타데이터로 등록되는 테이블로 저장 parquet_table = … fire_df.write.format(“parquet”).saveAsTable(parquet_Table) 트랜스포메이션과 액션 칼럼의 구성 확인 (타입 확인, null 값 확인 등) 프로젝션과 필터 프로젝션: 필터를 이용해 특정 관계 상태와 매치되는 행들만 되돌려 주는 방법 select() 메서드로 수행 필터: filter()나 where() 메서드로 표현 few_fire_df = (fire_df .select(“IncidentNumb..
Experiences & Study/PySPARK & Data Engineering
2023. 8. 31. 09:15