목록Experiences & Study/PySPARK & Data Engineering (13)
On the journey of
AWS와...여러 교육과..논문에 치여 1달 만에(마지막 chapter 10이 ... 9월 10일 글이었다) PySPARK 글을 쓴다.... https://nowolver.tistory.com/148 [PySPARK] MLlib을 사용한 머신러닝 지금까지는 스파크를 사용한 데이터 엔지니어링 워크로드에 중점을 뒀지만 이번장에서는 데이터를 활용한 머신러닝에 초점을 둘 것. 아파치 스파크의 머신러닝 라이브러리인 MLlib을 사용하여 M nowolver.tistory.com 모델 관리 머신러닝 솔루션의 종단 간 재현성 모델을 생성한 코드, 훈련에 사용된 환경, 훈련된 데이터 및 모델 자체를 재현할 수 있어야 함 재현성 관리 예시 라이브러리 버전 관리 라이브러리 버전이 언급되지 않은 경우 일반적으로 최신 버전을 ..
지금까지는 스파크를 사용한 데이터 엔지니어링 워크로드에 중점을 뒀지만 이번장에서는 데이터를 활용한 머신러닝에 초점을 둘 것. 아파치 스파크의 머신러닝 라이브러리인 MLlib을 사용하여 ML 모델을 구축하는데, 그 이전에 머신러닝이 무엇인지 살펴볼 것이다. 머신러닝이란 무엇인가? 머신러닝은 학습방식에 따라 아래와 같이 분류될 수 있다. 지도(supervised)학습 - 레이블이 존재하는 데이터로 학습하여, 레이블이 없는 데이터의 레이블 예측 반지도(semi-supervised)학습 - 레이블이 없는 데이터를 지도학습에 사용, 예를들어 분류 테스크에서 인접한 미분류 데이터를 동일 집단으로 레이블링하여 학습에 사용 비지도(unsupervised)학습 - 데이터의 구성,특징,패턴을 스스로 학습하는 방식 강화(r..
아파치 스파크의 스트림 처리 엔진의 진화 스트림 처리: 끝없이 들어오는 데이터 흐름을 연속적으로 처리하는 것 빅데이터의 등장: 단일 노드 처리 엔진 → 멀티 노드 분산 처리 엔진 레코드 단위 처리 모델: 전통적인 분산 스트림 처리 처리 파이프라인은 각 노드들의 지향성 그래프로 구성 각 노드는 지속적으로 한번에 하나씩 레코드를 받고 처리하여 생성된 레코드를 다음 노드로 전송 → 매우 짧은 응답시간 But, 특정 노드가 장애를 겪거나 다른 노드보다 느린 상황에서 회복하는 것에 효과x 많은 복구 자원을 써서 빨리 복구하는 것이 아니라면, 최소한의 복구 자원으로 느리게 복구됨 마이크로 배치 스트림 처리의 출현 스파크 스트리밍(or DStream) == 마이크로 배치 스트림 처리 스트리밍 처리를 아주 작은 맵리듀..
효율적으로 스파크를 최적화 및 튜닝하기 스파크는 튜닝을 위한 많은 설정이 있지만 중요하고 자주 사용되는 것만 다뤘다. 아파치 스파크 설정 확인 및 세팅 스파크 설정을 확인하고 설정하는 방법은 세가지가 있다. 설정 파일을 통한 방법 배포한 $SPARK_HOME 디렉터리안에 conf/spark-defaults.conf.template, conf/log4j.properties.template, conf/spark-env.sh.template 이 파일들 에 있는 기본값을 변경하고 .template 부분을 지우고 저장한다. (conf/spark-defaults.conf 설정을 바꾸면 클러스터와 모든 애플리케이션에 적용 스파크 애플리케이션 안에서 혹은 명령 행에서 —conf 옵션을 사용 2-1) 명령 행에서 —co..