본문 바로가기
Tech Blog

다양한 데이터 전처리 기법

by Cloud 9 2022. 1. 3.
728x90
반응형
728x90

 

 

“데이터 분석의 8할은 데이터 전처리이다.”

 

전처리에 따라서 데이터 분석의 질이 달라진다.

 

  • 전처리가 충분히 되어있지 않거나 잘못된 데이터를 사용한 경우에는

1. 분석 결과의 신뢰도가 떨어지고,

2. 예측 모델의 정확도도 떨어진다.

 

  • 전처리가 잘 되어 있는 경우, 데이터 분석의 질이 높아지고 예측 모델의 성능을 높일 수 있다.
  1. 결측치(Missing Data)
  2. 중복된 데이터
  3. 이상치(Outlier)
  4. 정규화(Normalization)
  5. 원-핫 인코딩(One-Hot Encoding)
  6. 구간화(Binning)

결측치(Missing Data); 누락된 데이터

> 처리하는 방법은 2가지

  1. 결측치가 있는 데이터를 제거한다.
  2. 결측치를 어떤 값으로 대체한다. (데이터마다 특성을 반영하여 해결하여야 함

 

수치형 데이터를 보완할 방법은 많습니다.

  1. 특정 값을 지정해 줄 수 있다.
    그러나 결측치가 많은 경우에 모두 같은 값으로 대체하면 데이터의 분산이 실제보다 작아지는 문제가 생길 수 있다.
  2. 평균, 중앙값 등으로 대체할 수 있다.
    위에서 특정 값으로 대체했을 때와 마찬가지로 결측치가 많은 경우, 데이터의 분산이 실제보다 작아지는 문제가 발생할 수 있다.
  3. 다른 데이터를 이용해 예측값으로 대체할 수 있다.
  4. 시계열 특성을 가진 데이터의 경우에는 앞뒤 데이터를 통해 결측치를 대체할 수 있다. 예를 들어 기온을 측정하는 센서 데이터에서 결측치가 발생할 경우, 전후 데이터의 평균으로 보완할 수 있다.
반응형

 

728x90
반응형

'Tech Blog' 카테고리의 다른 글

node 8 : 파이썬 잘 사용하기  (0) 2022.01.04
셸 기능  (0) 2022.01.04
리눅스 기반 운영체제  (0) 2022.01.04
파이썬 준비, 시작!  (0) 2021.12.29