On the journey of
[세미나] 넷플릭스 데이터 분석 with 파이썬 라이브러리 (2) 본문
* 이 글은 교내 프로그래밍 동아리 SOLUX의 세미나를 들으며 공부하는 포스팅입니다.
* 강의의 저작권은 세미나를 준비해주신 부원분께 있음을 밝힙니다.
3. 데이터 불러오기
기본적으로 python 패키지 내에 내장된 데이터(iris dataset)도 있지만, 대부분의 데이터는 그렇지 않다. 이번 분석에서 활용할 넷플릭스 데이터는 kaggle에서 다운받을 수 있다. (하이퍼링크 걸어뒀음)
요런 화면이 떴다면 여기서 우측 상단 DOWNLOAD 클릭해주면 된다 : 데이터셋 다운받은 거 열면 됨(archive 압축파일).
대충 요렇게 생겼다.
4. 데이터 Colab에 업로드하기
나는 다운로드 폴더에 저장했지만 이건 상관없다 :) 바탕화면에 저장해도 되고 문서에 저장해도 되고. 여하간 코랩에서 dataset을 지지고볶고 분석하고 전처리하고 해야 하므로 코랩에 데이터셋을 업로드하자. 여러 가지 방법이 있다 :)
- 파일 업로드하기 (매우 간단하지만, 런타임이 끊길 때마다 다시 업로드해야 한다)
왼쪽에 보면 파일 형태의 아이콘이 있다. 이를 클릭해주면 위 화면처럼 공간이 뜨는데, 여기다 파일을 드래그하면 됨.
요렇게 뜨면 성공!
2. Pandas를 이용해 넷플릭스 데이터 불러오기
업로드하면 끝이 아니고 이제 코드를 통해 코랩 코드 상에서 사용할 수 있도록 해야 한다.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
netflix = pd.read_csv("/content/netflix_titles.csv")
업로드 후 .csv 파일에 마우스 갖다 대고 우클릭 해보자 .그러면 옵션이 여러 개 뜨는데 , 그중 경로 복사하면 된다.
5. 데이터 확인해보기
어떻게 생겼는지(뭐 칼럼명은 뭐가 있고, 분량은 얼마나 되고, 잘 열리긴 하는지 등등) 확인해보자.
- 넷플릭스 데이터 변수명 확인
* .columns : 컬럼명 확인
* print(netflix.columns) 입력, 실행하면 변수 이름 확인 가능
print(netflix.columns) #실행 시 변수 이름 확인 가능
굳이 print 안 해도 결과는 동일하다 :)
다음 포스팅부터는 본격적으로 데이터를 갖고 놀아보는 걸로 😎
'학교 프로그램 > SOLUX' 카테고리의 다른 글
[3차 세미나] 배워두면 개발할 때 잘 써먹는 Git 씹어먹기 (3) (3) | 2023.05.30 |
---|---|
[3차 세미나] 배워두면 개발할 때 잘 써먹는 Git 씹어먹기 (2) (2) | 2023.05.30 |
[3차 세미나] 배워두면 개발할 때 잘 써먹는 Git 씹어먹기 (1) (0) | 2023.05.29 |
[세미나] 넷플릭스 데이터 분석 with 파이썬 라이브러리 (3) (0) | 2023.05.02 |
[세미나] 넷플릭스 데이터분석 with 파이썬 라이브러리(1) (0) | 2023.05.02 |