본문 바로가기

Dev/AI 인공지능

[ML] EDA (Exploratory Data Analysis) | 탐색적 데이터 분석 | 개별 변수 분석 (Variation) | 변수간의 관계 (Covariation)

728x90
반응형

01. EDA란?

  • EDA(Exporatory Data Analysis, 탐색적 데이터 분석)란 데이터를 탐색하고 가설을 세우고 증명하는 과정
  • 이를 통해 다각도로 데이터를 분석하여 새로운 아이디어를 만들어냄!
  • 데이터의 특징을 분석하면 시각화 및 통계량으로 표현
  • 문제를 해결하기 위해 데이터를 이해하는 것! 이를 위한 적절한 전처리, 방법론들을 선택 및 적용

 

02. EDA 과정

  1. Data에 대한 가설 혹은 의문을 떠올리기
  2. 시각화 혹은 통계량, 모델링을 통한 가설 검정 
    ( 이 과정에서 역으로 인사이트를 찾기도 함 )
  3. 위의 결론을 통해 다시 새로운 가설 혹은 문제 해결을 하며 반복

 

  • 하지만 데이터마다 도메인, 종류, 사용하게 되는 모델이 다르기 때문에 EDA의 방향성은 그때그때 다름!
  • 그래도 EDA에 대한 개요가 없다면 너무 비효율 적이기 때문에 일반적으로 아래의 두 요소를 시작으로 함
  • 개별 변수의 분포 (Variation)
  • 변수간의 분포와 관계 (Covariation)

 

02-1. 개별 변수의 분포 (Variation)

  • 연속형 데이터를 막대 그래프 혹은 선 그래프를 통해 분포를 확인
  • 범주형 데이터를 히스토그램을 통해 분포를 확인

02-2. 변수간의 분포와 관계 (Covariation)

  • 우선적으로 우리가 예측하고자 하는 타겟 변수와의 관계성을 파악하는 것이 중요함!
    • 이 단계부터 중요한 변수들을 눈으로 파악
    • 실질적인 인사이트를 찾을 수 있는 단계
  • 원본 데이터에서 제공되는 컬럼 그대로를 묶어서 분석
  • 원본 데이터에서 제공되는 값을 토대로 새로운 값(컬럼)을 만들어내어 분석할 수도 있음

 

 

본 내용은 부스트코스의 '쇼핑데이터를 활용한 머신러닝' 강의를 토대로 작성되었습니다

728x90
반응형