목록API (8)
On the journey of

Spark .. 엔지니어링 공부 때문에 약간 급하게 벼락치기 아닌 벼락치기 하면서 공부중 ^0^....아무렴 어때 화이팅 SparkSql 특징 다양한 구조화된 형식(예: JSON, Hive 테이블, Parquet, Avro, ORC, CSV)으로 데이터를 읽고 쓸 수 있다. Tableau, Power BI, Talend와 같은 외부 비즈니스 인텔리전스(BI)부터 MySQL 및 PostgreSQL과 같은 RDBMS등 에서 JDBC/ODBC 커넥터를 사용하여 데이터를 쿼리할 수 있다. Spark 애플리케이션의 데이터베이스에 테이블 또는 view로 저장된 정형 데이터와 상호 작용할 수 있는 프로그래밍 방식 인터페이스를 제공한다. 정형 데이터에 대해 SQL 쿼리를 실행하기 위한 대화형 셸을 제공한다. Spark..

이제 본격적으로 Spark를 다운받아 실행해보자 . 1단계 : 아파치 스파크 다운로드 Apache Spark 다운로드 페이지에서 아래와 같은 옵션으로 다운로드 해준다. 필요한 하둡 관련 바이너리를 포함하고 있으며, 운영중인 HDFS나 하둡 설치본이 있다면 버전을 맞춰준다. 2. 오직 파이썬으로만 Spark를 사용할 경우에는 PyPI로 파이스파크를 간단하게 설치해준다. pip install pyspark #SQL, ML, MLlib 을 위한 추가적인 라이브러리 설치 pip install pyspark[sql,ml,mllib] # SQL 의존성만 필요하다면 pip install pyspark[sql] 3. R을 사용할 경우는 R을 설치한후 sparkR을 실행해야한다. R을 통한 분산 컴퓨팅을 위해선 R 오픈..

Chapter 1. 아파치 스파크 소개: 통합 분석 엔진 구글은 대규모 데이터의 저장, 처리, 분석, 검색, 추천 등을 위해 분산 처리 시스템과 빅데이터 기술을 중요하게 다뤄왔다. 그 결과, 구글 파일 시스템(Google File System), 맵리듀스(MapReduce), 빅테이블(BigTable) 등을 만들어냈다. 구글 파일 시스템(Google File System) : 대규모 클러스터에서 서버가 내결합성을 가지는 분산 파일시스템 하둡 파일 시스템(HDFS) 빅테이블(BigTable) : GFS를 기반으로 정형화된 대규모 데이터의 저장 수단을 제공 HBase 맵리듀스(MapRedue) : 함수형 프로그래밍 개념을 기반으로 GFS와 빅테이블 위에서 대규모 데이터 분산 처리 프레임워크 분산 시스템의 특..
* 이 포스트는 3차 세미나 (2)를 준비해주신 두 부원분의 강의를 기준으로 작성되었음을 밝힙니다. 01. REST API에 대해 알아보자. 1, REST API란 뭘까? 기본적으로 REST는 Representational State Transfer의 약자로, 자원을 이름으로 구분해 해당 자원의 상태를 주고받는 모든 것을 의미한다. 자원은 서버에 존재하는 모든 데이터의 총칭으로, 고유의 URL을 가지며 클라이언트는 이 URL(URI)를 지정해 해당 자원에 대해 CRUD Operation(명령어)을 수행한다. 이외에 '행위'는 클라이언트가 HTTP Method를 사용해 자원을 조작하는 것을, '표현'은 클라이언트가 자원을 조작하면 서버가 HTTP Pay Load를 통해 응답을 보내는 것을 의미한다. 2. ..