본문 바로가기

Dev/AI 인공지능

[ML] 정형 데이터 | 비정형 데이터 | 평가지표 | 분류와 회귀 | Accuracy | Precision | Recall | ROC | AUC

728x90
반응형

01. 정형 데이터와 비정형 데이터

  • 정형 데이터: 엑셀 파일 형식이나 관계형 데이터베이스의 테이블에 담을 수 있는 데이터
    • 행과 열로 표현 가능한 데이터
    • 하나의 행은 하나의 데이터 인스턴스를 나타냄
    • 하나의 열은 데이터의 피처(속성)을 나타냄
  • 비정형 데이터: 이미지, 비디오, 음성, 자연어 등의 정제되지 않은 데이터
    • 틀이 없고, 테이블 형식으로 표현할 수 없는 데이터
    • 이미지: 자율주행 자동차, 사물인식 등
    • 음성: 음성 검색 서비스, 시리, 빅스비 등
    • 자연어: 번역, 이메일 필터 등

 

02. 정형 데이터의 중요성

AI의 발전을 고려한다면, 비정형 데이터가 더 중요한거 아닌가??

왜 정형 데이터가 중요하다고 할까?!

  1. 사람,  기업, 현상 등 사회의 많은 부분들이 정형데이터로 기록되기 때문!
  2. 이 외에도 정형 데이터는 비정형 데이터에 비해 비즈니스 전 분야에 걸쳐서 사용되기 때문!
  3. 가장 기본적인 데이터이기 때문!

즉, 가장 기본적인 데이터이기 때문에 여전히 정형 데이터를 다루는 것은 중요하다!!

데이터를 잘 다루고 분석하기 위해서는 상상력, 통찰력, 범용적으로 쓰일 수 있는 능력과 경험이 중요!

 

03. 평가지표

01. 분류와 회귀

  • 분류 (Classification) 
    • 지도 학습의 큰 범주중에 하나인 분류
    • 예측해야할 대상의 개수가 정해져 있는 문제
    • 예) 이미지에서 개, 고양이를 분류 / 신용카드 거래가 사기 거래인지 정상 거래인지 분류
  • 회귀 (Regression)
    • 예측해야할 대상이 연속적인 숫자인 문제
    • 예) 일기 예보에서 내일의 기온 예측, 주어진 데이터에서 집값 예측

 

02. 분류 문제에서의 평가 지표

내가 풀고자 하는 문제에 맞게 평가지표를 잘 선정해야, 모델을 잘 평가 및 개선할 수 있다!

그렇다면 분류 문제에서 사용할 수 있는 평가 지표에는 무엇이 있을까?

 

  • Confusion Matrix 
    • 이진 분류에서 예측 오류가 얼마인지, 어떠한 종류의 오류가 발생하고 있는지 나타내주는 행렬
    • 지도 학습의 큰 범주중에 하나인 분류
    • 예측해야할 대상의 개수가 정해져 있는 문제
  • Accuracy (정확도) 
    • 전체 데이터 중 모델이 바르게 분류한 비율
    • (TP + TN) / (TP + TN + FP + FN)
    • 불균형한 데이터에는 부적합한 평가 지표임!
  • Precision (정밀도)
    • 모델이 Positive라고 예측한 것 중, 실제 값이 Positive인 것
    • TP / (TP + FP)
    • Negative인 데이터가 중요한 경우에 사용
    • 즉, Negative인 데이터를 Positive라고 판단하면 안될 때 주로 사용
    • 예) 스팸메일 분류 - 일반 메일을 스팸메일로 분류하면 안됨!
  • Recall (재현율)
    • 실제 값이 Positive인 것 중, 모델이 Positive라고 분류한 것
    • TP / (TP + FN)
    • Postivie 데이터가 더 중요한 경우에 사용!
    • 즉, Positive인 데이터를 Negative로 분류하면 안되는 경우!
    • 예) 종양의 종류를 판단 - 양성 종양을 음성 종양으로 판단하면 안됨

 

본 사진은 네이버 부스트캠프 강의자료에서 제공되었습니다

  • ROC (Receiver Operating Characteristic, 수신자 조작 특성)
    • TPR을 Y축, FPR을 X축으로 하여 모델의 임계값을 변경시켜가며 그린 곡선
    • TPR (True Positive Ratio): 1인 케이스에 대해 1로 잘 예측한 비율! TP / (TP + FN)
    • FPR (False Positive Ratio): 0인 케이스에 대해 1로 잘못 예측한 비율! FP / FP + TN

 

  • AUC (Area Under Curve)
    • ROC 곡선의 면적을 표시한 것으로 0과 1 사이의 값을 가질 수 있음
    • 1에 가까울수록 모델이 잘 예측한 것이고, 0에 가까울수록 모델이 잘못 예측한 것임
    • 대각선 값을 기준으로 판단하는데, 실제 모델에서는 위 그림인 0.5보다는 최소한 높게 나와야 함

 

 

본 내용은 부스트코스의 '쇼핑데이터를 활용한 머신러닝' 강의를 토대로 작성되었습니다

728x90
반응형