728x90
반응형
01. 정형 데이터와 비정형 데이터
- 정형 데이터: 엑셀 파일 형식이나 관계형 데이터베이스의 테이블에 담을 수 있는 데이터
- 행과 열로 표현 가능한 데이터
- 하나의 행은 하나의 데이터 인스턴스를 나타냄
- 하나의 열은 데이터의 피처(속성)을 나타냄
- 비정형 데이터: 이미지, 비디오, 음성, 자연어 등의 정제되지 않은 데이터
- 틀이 없고, 테이블 형식으로 표현할 수 없는 데이터
- 이미지: 자율주행 자동차, 사물인식 등
- 음성: 음성 검색 서비스, 시리, 빅스비 등
- 자연어: 번역, 이메일 필터 등
02. 정형 데이터의 중요성
AI의 발전을 고려한다면, 비정형 데이터가 더 중요한거 아닌가??
왜 정형 데이터가 중요하다고 할까?!
- 사람, 기업, 현상 등 사회의 많은 부분들이 정형데이터로 기록되기 때문!
- 이 외에도 정형 데이터는 비정형 데이터에 비해 비즈니스 전 분야에 걸쳐서 사용되기 때문!
- 가장 기본적인 데이터이기 때문!
즉, 가장 기본적인 데이터이기 때문에 여전히 정형 데이터를 다루는 것은 중요하다!!
데이터를 잘 다루고 분석하기 위해서는 상상력, 통찰력, 범용적으로 쓰일 수 있는 능력과 경험이 중요!
03. 평가지표
01. 분류와 회귀
- 분류 (Classification)
- 지도 학습의 큰 범주중에 하나인 분류
- 예측해야할 대상의 개수가 정해져 있는 문제
- 예) 이미지에서 개, 고양이를 분류 / 신용카드 거래가 사기 거래인지 정상 거래인지 분류
- 회귀 (Regression)
- 예측해야할 대상이 연속적인 숫자인 문제
- 예) 일기 예보에서 내일의 기온 예측, 주어진 데이터에서 집값 예측
02. 분류 문제에서의 평가 지표
내가 풀고자 하는 문제에 맞게 평가지표를 잘 선정해야, 모델을 잘 평가 및 개선할 수 있다!
그렇다면 분류 문제에서 사용할 수 있는 평가 지표에는 무엇이 있을까?
- Confusion Matrix
- 이진 분류에서 예측 오류가 얼마인지, 어떠한 종류의 오류가 발생하고 있는지 나타내주는 행렬
- 지도 학습의 큰 범주중에 하나인 분류
- 예측해야할 대상의 개수가 정해져 있는 문제
- Accuracy (정확도)
- 전체 데이터 중 모델이 바르게 분류한 비율
- (TP + TN) / (TP + TN + FP + FN)
- 불균형한 데이터에는 부적합한 평가 지표임!
- Precision (정밀도)
- 모델이 Positive라고 예측한 것 중, 실제 값이 Positive인 것
- TP / (TP + FP)
- Negative인 데이터가 중요한 경우에 사용
- 즉, Negative인 데이터를 Positive라고 판단하면 안될 때 주로 사용
- 예) 스팸메일 분류 - 일반 메일을 스팸메일로 분류하면 안됨!
- Recall (재현율)
- 실제 값이 Positive인 것 중, 모델이 Positive라고 분류한 것
- TP / (TP + FN)
- Postivie 데이터가 더 중요한 경우에 사용!
- 즉, Positive인 데이터를 Negative로 분류하면 안되는 경우!
- 예) 종양의 종류를 판단 - 양성 종양을 음성 종양으로 판단하면 안됨
- ROC (Receiver Operating Characteristic, 수신자 조작 특성)
- TPR을 Y축, FPR을 X축으로 하여 모델의 임계값을 변경시켜가며 그린 곡선
- TPR (True Positive Ratio): 1인 케이스에 대해 1로 잘 예측한 비율! TP / (TP + FN)
- FPR (False Positive Ratio): 0인 케이스에 대해 1로 잘못 예측한 비율! FP / FP + TN
- AUC (Area Under Curve)
- ROC 곡선의 면적을 표시한 것으로 0과 1 사이의 값을 가질 수 있음
- 1에 가까울수록 모델이 잘 예측한 것이고, 0에 가까울수록 모델이 잘못 예측한 것임
- 대각선 값을 기준으로 판단하는데, 실제 모델에서는 위 그림인 0.5보다는 최소한 높게 나와야 함
본 내용은 부스트코스의 '쇼핑데이터를 활용한 머신러닝' 강의를 토대로 작성되었습니다
728x90
반응형