728x90
반응형
01. EDA란?
- EDA(Exporatory Data Analysis, 탐색적 데이터 분석)란 데이터를 탐색하고 가설을 세우고 증명하는 과정
- 이를 통해 다각도로 데이터를 분석하여 새로운 아이디어를 만들어냄!
- 데이터의 특징을 분석하면 시각화 및 통계량으로 표현
- 문제를 해결하기 위해 데이터를 이해하는 것! 이를 위한 적절한 전처리, 방법론들을 선택 및 적용
02. EDA 과정
- Data에 대한 가설 혹은 의문을 떠올리기
- 시각화 혹은 통계량, 모델링을 통한 가설 검정
( 이 과정에서 역으로 인사이트를 찾기도 함 ) - 위의 결론을 통해 다시 새로운 가설 혹은 문제 해결을 하며 반복
- 하지만 데이터마다 도메인, 종류, 사용하게 되는 모델이 다르기 때문에 EDA의 방향성은 그때그때 다름!
- 그래도 EDA에 대한 개요가 없다면 너무 비효율 적이기 때문에 일반적으로 아래의 두 요소를 시작으로 함
- 개별 변수의 분포 (Variation)
- 변수간의 분포와 관계 (Covariation)
02-1. 개별 변수의 분포 (Variation)
- 연속형 데이터를 막대 그래프 혹은 선 그래프를 통해 분포를 확인
- 범주형 데이터를 히스토그램을 통해 분포를 확인
02-2. 변수간의 분포와 관계 (Covariation)
- 우선적으로 우리가 예측하고자 하는 타겟 변수와의 관계성을 파악하는 것이 중요함!
- 이 단계부터 중요한 변수들을 눈으로 파악
- 실질적인 인사이트를 찾을 수 있는 단계
- 원본 데이터에서 제공되는 컬럼 그대로를 묶어서 분석
- 원본 데이터에서 제공되는 값을 토대로 새로운 값(컬럼)을 만들어내어 분석할 수도 있음
본 내용은 부스트코스의 '쇼핑데이터를 활용한 머신러닝' 강의를 토대로 작성되었습니다
728x90
반응형
'Dev > AI 인공지능' 카테고리의 다른 글
[AI] 실제 그래프와 랜덤 그래프 | 그래프의 경로ㆍ거리ㆍ지름 | 연결성 | 꼬리 분포 | 거대연결요소 | 군집 | 군집 계수 (0) | 2023.02.14 |
---|---|
[AI] 그래프 (Graph) | 그래프의 중요성 | 그래프의 종류| 정점 분류 | 연결 예측 | 추천 | 군집 분석 | 랭킹 및 정보 검색 | 정보 전파 및 바이럴 마케팅 (0) | 2023.02.13 |
[ML] 정형 데이터 | 비정형 데이터 | 평가지표 | 분류와 회귀 | Accuracy | Precision | Recall | ROC | AUC (0) | 2023.02.07 |
[AI] 파이썬 환경설정 | 운영체제 | 파이썬 인터프리터 | 코드 편집기 (0) | 2023.01.19 |
[AI] 파이썬이란? 파이썬의 개요 (0) | 2022.12.20 |