목록dataframe (2)
On the journey of

Spark .. 엔지니어링 공부 때문에 약간 급하게 벼락치기 아닌 벼락치기 하면서 공부중 ^0^....아무렴 어때 화이팅 SparkSql 특징 다양한 구조화된 형식(예: JSON, Hive 테이블, Parquet, Avro, ORC, CSV)으로 데이터를 읽고 쓸 수 있다. Tableau, Power BI, Talend와 같은 외부 비즈니스 인텔리전스(BI)부터 MySQL 및 PostgreSQL과 같은 RDBMS등 에서 JDBC/ODBC 커넥터를 사용하여 데이터를 쿼리할 수 있다. Spark 애플리케이션의 데이터베이스에 테이블 또는 view로 저장된 정형 데이터와 상호 작용할 수 있는 프로그래밍 방식 인터페이스를 제공한다. 정형 데이터에 대해 SQL 쿼리를 실행하기 위한 대화형 셸을 제공한다. Spark..

3장 Apache Spark’s Structured APIs 소개글 Apache Spark가 어떻게 생겨났고, Spark의 버전들의 특성을 간략하게 소개하고 있다. 새로운 API를 살펴보기 전에 RDD API 모델을 살펴보자고 한다. 1. Spark: What’s Underneath an RDD? RDD는 스파크에서 가장 기초적인 추상화이고, RDD에는 3가지의 중요한 특성이 있다 종속성 (Dependencies) 파티션 (Partitions) 계산 기능 (Compute function) => Iterator[T] Iterator 관련 자료 https://onlyfor-me-blog.tistory.com/319 3가지 모두 간단한 RDD 프로그래밍 API 모델에 필수적이다. 종속성 스파크에 입력으로 RD..