목록Experiences & Study/PySPARK & Data Engineering (13)
On the journey of
자바와 스칼라를 위한 단일 API 데이터세트는 강력한 형식의 객체를 위해 통합되고 단일한 API를 제공 오직 스칼라와 자바만이 강력하게 형식화된 타입으로 지정됨 파이썬과 R은 형식화되지 않은 타입의 데이터 프레임 API를 지원 데이터 세트는 데이터 프레임 API에서 익숙하게 사용되는 DSL 연산자나 함수형 프로그래밍을 사용하여 병렬로 작동할 수 있는 도메인별 형식화된 객체 데이터세트를 위한 스칼라 케이스 클래스와 자바빈 스파크는 작업 중 인코더를 통해 아래의 내부적 데이터 타입을 언어별 타입에 맞게 맵핑 stringType BinaryType IntegerType BooleanType MapType Dataset[T] 생성을 위한 예제 설명, T는 스칼라 객체이며 객체를 정의하는 case class가 필..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/c6YM6T/btssT7DYcKN/GrxxKSyxwcoHnghq1p4Gf1/img.png)
복잡한 데이터 유형을 처리하기 위한 함수부터 작성해서... part.2를 마쳐보자 😂 복잡한 데이터 유형을 위한 내장 함수들 위의 복잡한 데이터 유형을 처리하는 두가지 방법은 잠재적 비용이 많이 소요될 수 있다. 그렇기 때문에 복잡한 데이터 유형에 대한 내장 함수를 사용하는 것이 좋다. 내장 함수 목록은 링크에서 확인할 수 있다. 배열 유형 함수 예시 array_distinct array_distinct(array) - Removes duplicate values from the array. > SELECT array_distinct(array(1, 2, 3, null, 3)); [1,2,3,null] array_except array_except(array1, array2) - Returns an ar..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/cA72te/btssT7DXdFY/OgKUEe2WFWooyXW9HpKGVk/img.png)
✨흐름 (for me...) 1. 아파치 하이브 및 아파치 스파크 모두에 대해 UDF를 사용한다. 2. JDBC 및 SQL 데이터베이스, PostgreSQL, MySQL, 태블로, 애저 코스모스 DB 및 MS SQL 서버와 같은 외부 데이터 원본과 연결한다. 3. 단순하거나 복잡한 유형, 고차 함수 그리고 일반적인 관계 연산자를 사용하여 작업한다. (part.2 (2)로 쓸 거) 스파크 SQL과 아파치 하이브 spark SQL 관계형 처리와 스파크의 함수형 프로그래밍 API를 통합하는 아파치 스파크의 기본 구성요소 더 빠른 성능 및 관계형 프로그래밍의 이점을 활용 가능 복잡한 분석 라이브러리 호출 가능 사용자 정의 함수 사용자 정의 함수 자신의 기능을 정의할 수 있는 유연성을 제공하는 함수 스파크 SQL..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/clEHXd/btssvedJt05/9a7tLq3iYNhD0Zkmshye90/img.png)
Spark .. 엔지니어링 공부 때문에 약간 급하게 벼락치기 아닌 벼락치기 하면서 공부중 ^0^....아무렴 어때 화이팅 SparkSql 특징 다양한 구조화된 형식(예: JSON, Hive 테이블, Parquet, Avro, ORC, CSV)으로 데이터를 읽고 쓸 수 있다. Tableau, Power BI, Talend와 같은 외부 비즈니스 인텔리전스(BI)부터 MySQL 및 PostgreSQL과 같은 RDBMS등 에서 JDBC/ODBC 커넥터를 사용하여 데이터를 쿼리할 수 있다. Spark 애플리케이션의 데이터베이스에 테이블 또는 view로 저장된 정형 데이터와 상호 작용할 수 있는 프로그래밍 방식 인터페이스를 제공한다. 정형 데이터에 대해 SQL 쿼리를 실행하기 위한 대화형 셸을 제공한다. Spark..