목록StreamingQuery (1)
On the journey of
[PySPARK] 정형 스트리밍 Part.1
아파치 스파크의 스트림 처리 엔진의 진화 스트림 처리: 끝없이 들어오는 데이터 흐름을 연속적으로 처리하는 것 빅데이터의 등장: 단일 노드 처리 엔진 → 멀티 노드 분산 처리 엔진 레코드 단위 처리 모델: 전통적인 분산 스트림 처리 처리 파이프라인은 각 노드들의 지향성 그래프로 구성 각 노드는 지속적으로 한번에 하나씩 레코드를 받고 처리하여 생성된 레코드를 다음 노드로 전송 → 매우 짧은 응답시간 But, 특정 노드가 장애를 겪거나 다른 노드보다 느린 상황에서 회복하는 것에 효과x 많은 복구 자원을 써서 빨리 복구하는 것이 아니라면, 최소한의 복구 자원으로 느리게 복구됨 마이크로 배치 스트림 처리의 출현 스파크 스트리밍(or DStream) == 마이크로 배치 스트림 처리 스트리밍 처리를 아주 작은 맵리듀..
Experiences & Study/PySPARK & Data Engineering
2023. 9. 5. 18:13