목록쿼리 (17)
On the journey of
자바와 스칼라를 위한 단일 API 데이터세트는 강력한 형식의 객체를 위해 통합되고 단일한 API를 제공 오직 스칼라와 자바만이 강력하게 형식화된 타입으로 지정됨 파이썬과 R은 형식화되지 않은 타입의 데이터 프레임 API를 지원 데이터 세트는 데이터 프레임 API에서 익숙하게 사용되는 DSL 연산자나 함수형 프로그래밍을 사용하여 병렬로 작동할 수 있는 도메인별 형식화된 객체 데이터세트를 위한 스칼라 케이스 클래스와 자바빈 스파크는 작업 중 인코더를 통해 아래의 내부적 데이터 타입을 언어별 타입에 맞게 맵핑 stringType BinaryType IntegerType BooleanType MapType Dataset[T] 생성을 위한 예제 설명, T는 스칼라 객체이며 객체를 정의하는 case class가 필..

복잡한 데이터 유형을 처리하기 위한 함수부터 작성해서... part.2를 마쳐보자 😂 복잡한 데이터 유형을 위한 내장 함수들 위의 복잡한 데이터 유형을 처리하는 두가지 방법은 잠재적 비용이 많이 소요될 수 있다. 그렇기 때문에 복잡한 데이터 유형에 대한 내장 함수를 사용하는 것이 좋다. 내장 함수 목록은 링크에서 확인할 수 있다. 배열 유형 함수 예시 array_distinct array_distinct(array) - Removes duplicate values from the array. > SELECT array_distinct(array(1, 2, 3, null, 3)); [1,2,3,null] array_except array_except(array1, array2) - Returns an ar..

✨흐름 (for me...) 1. 아파치 하이브 및 아파치 스파크 모두에 대해 UDF를 사용한다. 2. JDBC 및 SQL 데이터베이스, PostgreSQL, MySQL, 태블로, 애저 코스모스 DB 및 MS SQL 서버와 같은 외부 데이터 원본과 연결한다. 3. 단순하거나 복잡한 유형, 고차 함수 그리고 일반적인 관계 연산자를 사용하여 작업한다. (part.2 (2)로 쓸 거) 스파크 SQL과 아파치 하이브 spark SQL 관계형 처리와 스파크의 함수형 프로그래밍 API를 통합하는 아파치 스파크의 기본 구성요소 더 빠른 성능 및 관계형 프로그래밍의 이점을 활용 가능 복잡한 분석 라이브러리 호출 가능 사용자 정의 함수 사용자 정의 함수 자신의 기능을 정의할 수 있는 유연성을 제공하는 함수 스파크 SQL..

앱이든 웹이든, 결과물을 위해서는 지속적으로 데이터를 가져올 수 있는 수단이 있어야 한다. 인터넷과 연결하여 크롤링이든 뭐든 해와도 되겠지만, 우리는 '개인화'된 서비스에 초점을 맞추기로 했기에 데이터베이스가 필요했다! 여러 종류가 있겠지만, 우선은 MySQL를 사용하기로 했다 그나마 경험 있는 게 MySQL뿐이라 ^0^... 1. MySQL 설치 : https://dev.mysql.com/downloads/windows/installer/8.0.html : 위 링크에 접속해서 본인 PC 버전에 맞춰 아래 버전(체크된 거) 다운받으면 된다. 저거 download 클릭하면 화면이 아래와 같이 바뀌는데, 로그인/가입 필요없이 그냥 다운 클릭하면 됨 ㅎㅎ 다운 시 installer 프로그램이 다운된다. 이를 ..