목록하둡 (2)
On the journey of
효율적으로 스파크를 최적화 및 튜닝하기 스파크는 튜닝을 위한 많은 설정이 있지만 중요하고 자주 사용되는 것만 다뤘다. 아파치 스파크 설정 확인 및 세팅 스파크 설정을 확인하고 설정하는 방법은 세가지가 있다. 설정 파일을 통한 방법 배포한 $SPARK_HOME 디렉터리안에 conf/spark-defaults.conf.template, conf/log4j.properties.template, conf/spark-env.sh.template 이 파일들 에 있는 기본값을 변경하고 .template 부분을 지우고 저장한다. (conf/spark-defaults.conf 설정을 바꾸면 클러스터와 모든 애플리케이션에 적용 스파크 애플리케이션 안에서 혹은 명령 행에서 —conf 옵션을 사용 2-1) 명령 행에서 —co..
Chapter 1. 아파치 스파크 소개: 통합 분석 엔진 구글은 대규모 데이터의 저장, 처리, 분석, 검색, 추천 등을 위해 분산 처리 시스템과 빅데이터 기술을 중요하게 다뤄왔다. 그 결과, 구글 파일 시스템(Google File System), 맵리듀스(MapReduce), 빅테이블(BigTable) 등을 만들어냈다. 구글 파일 시스템(Google File System) : 대규모 클러스터에서 서버가 내결합성을 가지는 분산 파일시스템 하둡 파일 시스템(HDFS) 빅테이블(BigTable) : GFS를 기반으로 정형화된 대규모 데이터의 저장 수단을 제공 HBase 맵리듀스(MapRedue) : 함수형 프로그래밍 개념을 기반으로 GFS와 빅테이블 위에서 대규모 데이터 분산 처리 프레임워크 분산 시스템의 특..