목록spark (10)
On the journey of
아파치 스파크의 스트림 처리 엔진의 진화 스트림 처리: 끝없이 들어오는 데이터 흐름을 연속적으로 처리하는 것 빅데이터의 등장: 단일 노드 처리 엔진 → 멀티 노드 분산 처리 엔진 레코드 단위 처리 모델: 전통적인 분산 스트림 처리 처리 파이프라인은 각 노드들의 지향성 그래프로 구성 각 노드는 지속적으로 한번에 하나씩 레코드를 받고 처리하여 생성된 레코드를 다음 노드로 전송 → 매우 짧은 응답시간 But, 특정 노드가 장애를 겪거나 다른 노드보다 느린 상황에서 회복하는 것에 효과x 많은 복구 자원을 써서 빨리 복구하는 것이 아니라면, 최소한의 복구 자원으로 느리게 복구됨 마이크로 배치 스트림 처리의 출현 스파크 스트리밍(or DStream) == 마이크로 배치 스트림 처리 스트리밍 처리를 아주 작은 맵리듀..
효율적으로 스파크를 최적화 및 튜닝하기 스파크는 튜닝을 위한 많은 설정이 있지만 중요하고 자주 사용되는 것만 다뤘다. 아파치 스파크 설정 확인 및 세팅 스파크 설정을 확인하고 설정하는 방법은 세가지가 있다. 설정 파일을 통한 방법 배포한 $SPARK_HOME 디렉터리안에 conf/spark-defaults.conf.template, conf/log4j.properties.template, conf/spark-env.sh.template 이 파일들 에 있는 기본값을 변경하고 .template 부분을 지우고 저장한다. (conf/spark-defaults.conf 설정을 바꾸면 클러스터와 모든 애플리케이션에 적용 스파크 애플리케이션 안에서 혹은 명령 행에서 —conf 옵션을 사용 2-1) 명령 행에서 —co..
자바와 스칼라를 위한 단일 API 데이터세트는 강력한 형식의 객체를 위해 통합되고 단일한 API를 제공 오직 스칼라와 자바만이 강력하게 형식화된 타입으로 지정됨 파이썬과 R은 형식화되지 않은 타입의 데이터 프레임 API를 지원 데이터 세트는 데이터 프레임 API에서 익숙하게 사용되는 DSL 연산자나 함수형 프로그래밍을 사용하여 병렬로 작동할 수 있는 도메인별 형식화된 객체 데이터세트를 위한 스칼라 케이스 클래스와 자바빈 스파크는 작업 중 인코더를 통해 아래의 내부적 데이터 타입을 언어별 타입에 맞게 맵핑 stringType BinaryType IntegerType BooleanType MapType Dataset[T] 생성을 위한 예제 설명, T는 스칼라 객체이며 객체를 정의하는 case class가 필..
복잡한 데이터 유형을 처리하기 위한 함수부터 작성해서... part.2를 마쳐보자 😂 복잡한 데이터 유형을 위한 내장 함수들 위의 복잡한 데이터 유형을 처리하는 두가지 방법은 잠재적 비용이 많이 소요될 수 있다. 그렇기 때문에 복잡한 데이터 유형에 대한 내장 함수를 사용하는 것이 좋다. 내장 함수 목록은 링크에서 확인할 수 있다. 배열 유형 함수 예시 array_distinct array_distinct(array) - Removes duplicate values from the array. > SELECT array_distinct(array(1, 2, 3, null, 3)); [1,2,3,null] array_except array_except(array1, array2) - Returns an ar..