목록스파크 (6)
On the journey of
효율적으로 스파크를 최적화 및 튜닝하기 스파크는 튜닝을 위한 많은 설정이 있지만 중요하고 자주 사용되는 것만 다뤘다. 아파치 스파크 설정 확인 및 세팅 스파크 설정을 확인하고 설정하는 방법은 세가지가 있다. 설정 파일을 통한 방법 배포한 $SPARK_HOME 디렉터리안에 conf/spark-defaults.conf.template, conf/log4j.properties.template, conf/spark-env.sh.template 이 파일들 에 있는 기본값을 변경하고 .template 부분을 지우고 저장한다. (conf/spark-defaults.conf 설정을 바꾸면 클러스터와 모든 애플리케이션에 적용 스파크 애플리케이션 안에서 혹은 명령 행에서 —conf 옵션을 사용 2-1) 명령 행에서 —co..
데이터프레임을 파케이 파일이나 SQL 테이블로 저장하기 parquet_path = … fire_df.write.format(“parquet”).save(parquet_path) # 혹은 하이브 메타스토어에 메타데이터로 등록되는 테이블로 저장 parquet_table = … fire_df.write.format(“parquet”).saveAsTable(parquet_Table) 트랜스포메이션과 액션 칼럼의 구성 확인 (타입 확인, null 값 확인 등) 프로젝션과 필터 프로젝션: 필터를 이용해 특정 관계 상태와 매치되는 행들만 되돌려 주는 방법 select() 메서드로 수행 필터: filter()나 where() 메서드로 표현 few_fire_df = (fire_df .select(“IncidentNumb..
3장 Apache Spark’s Structured APIs 소개글 Apache Spark가 어떻게 생겨났고, Spark의 버전들의 특성을 간략하게 소개하고 있다. 새로운 API를 살펴보기 전에 RDD API 모델을 살펴보자고 한다. 1. Spark: What’s Underneath an RDD? RDD는 스파크에서 가장 기초적인 추상화이고, RDD에는 3가지의 중요한 특성이 있다 종속성 (Dependencies) 파티션 (Partitions) 계산 기능 (Compute function) => Iterator[T] Iterator 관련 자료 https://onlyfor-me-blog.tistory.com/319 3가지 모두 간단한 RDD 프로그래밍 API 모델에 필수적이다. 종속성 스파크에 입력으로 RD..
이제 본격적으로 Spark를 다운받아 실행해보자 . 1단계 : 아파치 스파크 다운로드 Apache Spark 다운로드 페이지에서 아래와 같은 옵션으로 다운로드 해준다. 필요한 하둡 관련 바이너리를 포함하고 있으며, 운영중인 HDFS나 하둡 설치본이 있다면 버전을 맞춰준다. 2. 오직 파이썬으로만 Spark를 사용할 경우에는 PyPI로 파이스파크를 간단하게 설치해준다. pip install pyspark #SQL, ML, MLlib 을 위한 추가적인 라이브러리 설치 pip install pyspark[sql,ml,mllib] # SQL 의존성만 필요하다면 pip install pyspark[sql] 3. R을 사용할 경우는 R을 설치한후 sparkR을 실행해야한다. R을 통한 분산 컴퓨팅을 위해선 R 오픈..