목록스파크 (6)
On the journey of
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/ceuvAf/btsshqyFDCZ/GCpgerKaYD0znlsKMTQHEk/img.png)
Graph X 그래프를 조작하고 ex) SNS 친구 관계 그래프, 경로 등 그래프 병렬 연산을 수행하기 위한 라이브러리 분석, 연결 탐색 등 표준 그래프 알고리즘을 제공 커뮤니티 사용자들이 기여한 PageRank, 삼각 집계 등의 알고리즘도 포함 아파치 스파크의 분산 실행 스파크는 분산 데이터 처리 엔진이며, 각 컴포넌트들이 클러스터의 머신들 위에서 협업해 동작한다 아파치 스파크 컴포넌트와 아키텍처 [이미지 출처 blog.knoldus.com] 하나의 스파크 애플리케이션은 스파크 클러스터의 병렬 작업들을 조율하는 하나의 드라이버 프로그램으로 이루어진다. 드라이버는 SparkSession 객체를 통해 클러스터의 분산 컴포넌트(executor)에 접근한다. ✨아파치 스파크 컴포넌트 1. 스파크 드라이버 Sp..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bwUiup/btssAIYGEQx/Gc4yjqDvXoROKKOyvJFYwk/img.png)
Chapter 1. 아파치 스파크 소개: 통합 분석 엔진 구글은 대규모 데이터의 저장, 처리, 분석, 검색, 추천 등을 위해 분산 처리 시스템과 빅데이터 기술을 중요하게 다뤄왔다. 그 결과, 구글 파일 시스템(Google File System), 맵리듀스(MapReduce), 빅테이블(BigTable) 등을 만들어냈다. 구글 파일 시스템(Google File System) : 대규모 클러스터에서 서버가 내결합성을 가지는 분산 파일시스템 하둡 파일 시스템(HDFS) 빅테이블(BigTable) : GFS를 기반으로 정형화된 대규모 데이터의 저장 수단을 제공 HBase 맵리듀스(MapRedue) : 함수형 프로그래밍 개념을 기반으로 GFS와 빅테이블 위에서 대규모 데이터 분산 처리 프레임워크 분산 시스템의 특..