On the journey of

[세미나] 넷플릭스 데이터 분석 with 파이썬 라이브러리 (2) 본문

학교 프로그램/SOLUX

[세미나] 넷플릭스 데이터 분석 with 파이썬 라이브러리 (2)

dlrpskdi 2023. 5. 2. 10:51

* 이 글은 교내 프로그래밍 동아리 SOLUX의 세미나를 들으며 공부하는 포스팅입니다.

* 강의의 저작권은 세미나를 준비해주신 부원분께 있음을 밝힙니다.


3. 데이터 불러오기

기본적으로 python 패키지 내에 내장된 데이터(iris dataset)도 있지만, 대부분의 데이터는 그렇지 않다. 이번 분석에서 활용할 넷플릭스 데이터는 kaggle에서 다운받을 수 있다. (하이퍼링크 걸어뒀음)

요런 화면이 떴다면 여기서 우측 상단 DOWNLOAD 클릭해주면 된다 : 데이터셋 다운받은 거 열면 됨(archive 압축파일).

대충 요렇게 생겼다.

4. 데이터 Colab에 업로드하기

나는 다운로드 폴더에 저장했지만 이건 상관없다 :) 바탕화면에 저장해도 되고 문서에 저장해도 되고. 여하간 코랩에서 dataset을 지지고볶고  분석하고 전처리하고 해야 하므로 코랩에 데이터셋을 업로드하자. 여러 가지 방법이 있다 :)

  1.  파일 업로드하기 (매우 간단하지만, 런타임이 끊길 때마다 다시 업로드해야 한다) 

왼쪽에 보면 파일 형태의 아이콘이 있다. 이를 클릭해주면 위 화면처럼 공간이 뜨는데, 여기다 파일을 드래그하면 됨.

요렇게 뜨면 성공!

 

2. Pandas를 이용해 넷플릭스 데이터 불러오기 

업로드하면 끝이 아니고 이제 코드를 통해 코랩 코드 상에서 사용할 수 있도록 해야 한다.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

netflix = pd.read_csv("/content/netflix_titles.csv")

업로드 후 .csv 파일에 마우스 갖다 대고 우클릭 해보자 .그러면 옵션이 여러 개 뜨는데 , 그중 경로 복사하면 된다.

5. 데이터 확인해보기

어떻게 생겼는지(뭐 칼럼명은 뭐가 있고, 분량은 얼마나 되고, 잘 열리긴 하는지 등등) 확인해보자.

  1. 넷플릭스 데이터 변수명 확인

* .columns : 컬럼명 확인

* print(netflix.columns) 입력, 실행하면 변수 이름 확인 가능

print(netflix.columns) #실행 시 변수 이름 확인 가능

굳이 print 안 해도 결과는 동일하다 :)

다음 포스팅부터는 본격적으로 데이터를 갖고 놀아보는 걸로 😎