본문 바로가기
반응형

Python/영화 데이터 분석2

한국 영화 데이터 분석 (2) : 탐색적 자료 분석(EDA)과 상관 시각화 Google Colab Python 지난 시간엔 엑셀로 전 처리하고 코랩에 데이터를 불러오는 데 까지 실행했습니다. 이번 포스팅에서는 불러온 데이터의 형태와 기초 통계치를 출력한 후 상관관계 히트맵을 시각화까지 진행하겠습니다. 1. EDA 데이터 불러오기 기초통계치 출력 개수, 평균, 표준편차, 최댓값, 최솟값, 각 분 위수의 통계치를 확인하며 데이터의 분포를 개략적으로 파악 가능. 데이터의 자료형 출력 데이터의 자료형을 출력하여 기대하지 않은 자료형이 존재하는지 확인했다. 2. 상관 시각화 상관 관계 시각화를 통해 변수간 상관을 알아보았다. 그 전에 seaborn 패키지를 불러와야 한다, data만 지정해주면 다음과 같이 있어 보이는(?) 시각화가 가능하다. 2020. 7. 24.
한국 영화 데이터 분석 (1) : 데이터 수집과 불러오기 Google Colab Python *요새 바빠서 업로드가 늦어지고 있네요 ㅠㅠ 후에 나올 분석이나 결과가 궁금하신 분들은 댓글 부탁드립니다. 원하시는 분이 있으시면 서둘러 노력해서 업로드 하겠습니다. 2019년 2학기 가톨릭대학교 '어드벤쳐 디자인 : Bussiness Analysis' 프로젝트 수업 주제로 영화 데이터 분석을 정했습니다. 데이터를 수집하며 고민해본 결과 영화 수익률을 목표 변수로 한 3종류의 회귀 분석을 진행하게 되었습니다. 이에 대한 포스팅을 순차적으로 하면서 했던 고민과 분석 결과, 결과 시각화를 공유하고자 합니다. 데이터 셋 파일과 작업 노트북 파일은 https://github.com/jaylee4274/Korean-Movie-data-analysis 에 공유합니다. 모든 작업은 구글 코랩환경(Python3)에서 .. 2019. 12. 23.
반응형