목록pyspark (7)
On the journey of

AWS와...여러 교육과..논문에 치여 1달 만에(마지막 chapter 10이 ... 9월 10일 글이었다) PySPARK 글을 쓴다.... https://nowolver.tistory.com/148 [PySPARK] MLlib을 사용한 머신러닝 지금까지는 스파크를 사용한 데이터 엔지니어링 워크로드에 중점을 뒀지만 이번장에서는 데이터를 활용한 머신러닝에 초점을 둘 것. 아파치 스파크의 머신러닝 라이브러리인 MLlib을 사용하여 M nowolver.tistory.com 모델 관리 머신러닝 솔루션의 종단 간 재현성 모델을 생성한 코드, 훈련에 사용된 환경, 훈련된 데이터 및 모델 자체를 재현할 수 있어야 함 재현성 관리 예시 라이브러리 버전 관리 라이브러리 버전이 언급되지 않은 경우 일반적으로 최신 버전을 ..

지금까지는 스파크를 사용한 데이터 엔지니어링 워크로드에 중점을 뒀지만 이번장에서는 데이터를 활용한 머신러닝에 초점을 둘 것. 아파치 스파크의 머신러닝 라이브러리인 MLlib을 사용하여 ML 모델을 구축하는데, 그 이전에 머신러닝이 무엇인지 살펴볼 것이다. 머신러닝이란 무엇인가? 머신러닝은 학습방식에 따라 아래와 같이 분류될 수 있다. 지도(supervised)학습 - 레이블이 존재하는 데이터로 학습하여, 레이블이 없는 데이터의 레이블 예측 반지도(semi-supervised)학습 - 레이블이 없는 데이터를 지도학습에 사용, 예를들어 분류 테스크에서 인접한 미분류 데이터를 동일 집단으로 레이블링하여 학습에 사용 비지도(unsupervised)학습 - 데이터의 구성,특징,패턴을 스스로 학습하는 방식 강화(r..

아파치 스파크의 스트림 처리 엔진의 진화 스트림 처리: 끝없이 들어오는 데이터 흐름을 연속적으로 처리하는 것 빅데이터의 등장: 단일 노드 처리 엔진 → 멀티 노드 분산 처리 엔진 레코드 단위 처리 모델: 전통적인 분산 스트림 처리 처리 파이프라인은 각 노드들의 지향성 그래프로 구성 각 노드는 지속적으로 한번에 하나씩 레코드를 받고 처리하여 생성된 레코드를 다음 노드로 전송 → 매우 짧은 응답시간 But, 특정 노드가 장애를 겪거나 다른 노드보다 느린 상황에서 회복하는 것에 효과x 많은 복구 자원을 써서 빨리 복구하는 것이 아니라면, 최소한의 복구 자원으로 느리게 복구됨 마이크로 배치 스트림 처리의 출현 스파크 스트리밍(or DStream) == 마이크로 배치 스트림 처리 스트리밍 처리를 아주 작은 맵리듀..

Spark .. 엔지니어링 공부 때문에 약간 급하게 벼락치기 아닌 벼락치기 하면서 공부중 ^0^....아무렴 어때 화이팅 SparkSql 특징 다양한 구조화된 형식(예: JSON, Hive 테이블, Parquet, Avro, ORC, CSV)으로 데이터를 읽고 쓸 수 있다. Tableau, Power BI, Talend와 같은 외부 비즈니스 인텔리전스(BI)부터 MySQL 및 PostgreSQL과 같은 RDBMS등 에서 JDBC/ODBC 커넥터를 사용하여 데이터를 쿼리할 수 있다. Spark 애플리케이션의 데이터베이스에 테이블 또는 view로 저장된 정형 데이터와 상호 작용할 수 있는 프로그래밍 방식 인터페이스를 제공한다. 정형 데이터에 대해 SQL 쿼리를 실행하기 위한 대화형 셸을 제공한다. Spark..