'Mlib' 태그의 글 목록

Notice

[공지] About this blog, and⋯

Recent Posts

Recent Comments

Link

공부가 아닌, 일상을 담는 블로그

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

목록Mlib (2)

On the journey of

[PySPARK] MLlib을 사용한 머신러닝

지금까지는 스파크를 사용한 데이터 엔지니어링 워크로드에 중점을 뒀지만 이번장에서는 데이터를 활용한 머신러닝에 초점을 둘 것. 아파치 스파크의 머신러닝 라이브러리인 MLlib을 사용하여 ML 모델을 구축하는데, 그 이전에 머신러닝이 무엇인지 살펴볼 것이다. 머신러닝이란 무엇인가? 머신러닝은 학습방식에 따라 아래와 같이 분류될 수 있다. 지도(supervised)학습 - 레이블이 존재하는 데이터로 학습하여, 레이블이 없는 데이터의 레이블 예측 반지도(semi-supervised)학습 - 레이블이 없는 데이터를 지도학습에 사용, 예를들어 분류 테스크에서 인접한 미분류 데이터를 동일 집단으로 레이블링하여 학습에 사용 비지도(unsupervised)학습 - 데이터의 구성,특징,패턴을 스스로 학습하는 방식 강화(r..

Experiences & Study/PySPARK & Data Engineering 2023. 9. 10. 11:40

[PySPARK를 활용한 데이터분석] 개괄 및 소개

Chapter 1. 아파치 스파크 소개: 통합 분석 엔진 구글은 대규모 데이터의 저장, 처리, 분석, 검색, 추천 등을 위해 분산 처리 시스템과 빅데이터 기술을 중요하게 다뤄왔다. 그 결과, 구글 파일 시스템(Google File System), 맵리듀스(MapReduce), 빅테이블(BigTable) 등을 만들어냈다. 구글 파일 시스템(Google File System) : 대규모 클러스터에서 서버가 내결합성을 가지는 분산 파일시스템 하둡 파일 시스템(HDFS) 빅테이블(BigTable) : GFS를 기반으로 정형화된 대규모 데이터의 저장 수단을 제공 HBase 맵리듀스(MapRedue) : 함수형 프로그래밍 개념을 기반으로 GFS와 빅테이블 위에서 대규모 데이터 분산 처리 프레임워크 분산 시스템의 특..

Experiences & Study/PySPARK & Data Engineering 2023. 8. 30. 08:13

이전 Prev 1 Next 다음

목록Mlib (2)

On the journey of

티스토리툴바