728x90
반응형
728x90
“데이터 분석의 8할은 데이터 전처리이다.”
전처리에 따라서 데이터 분석의 질이 달라진다.
- 전처리가 충분히 되어있지 않거나 잘못된 데이터를 사용한 경우에는
1. 분석 결과의 신뢰도가 떨어지고,
2. 예측 모델의 정확도도 떨어진다.
- 전처리가 잘 되어 있는 경우, 데이터 분석의 질이 높아지고 예측 모델의 성능을 높일 수 있다.
- 결측치(Missing Data)
- 중복된 데이터
- 이상치(Outlier)
- 정규화(Normalization)
- 원-핫 인코딩(One-Hot Encoding)
- 구간화(Binning)
결측치(Missing Data); 누락된 데이터
> 처리하는 방법은 2가지
- 결측치가 있는 데이터를 제거한다.
- 결측치를 어떤 값으로 대체한다. (데이터마다 특성을 반영하여 해결하여야 함
수치형 데이터를 보완할 방법은 많습니다.
- 특정 값을 지정해 줄 수 있다.
그러나 결측치가 많은 경우에 모두 같은 값으로 대체하면 데이터의 분산이 실제보다 작아지는 문제가 생길 수 있다. - 평균, 중앙값 등으로 대체할 수 있다.
위에서 특정 값으로 대체했을 때와 마찬가지로 결측치가 많은 경우, 데이터의 분산이 실제보다 작아지는 문제가 발생할 수 있다. - 다른 데이터를 이용해 예측값으로 대체할 수 있다.
- 시계열 특성을 가진 데이터의 경우에는 앞뒤 데이터를 통해 결측치를 대체할 수 있다. 예를 들어 기온을 측정하는 센서 데이터에서 결측치가 발생할 경우, 전후 데이터의 평균으로 보완할 수 있다.
반응형
728x90
반응형
'Tech Blog' 카테고리의 다른 글
node 8 : 파이썬 잘 사용하기 (0) | 2022.01.04 |
---|---|
셸 기능 (0) | 2022.01.04 |
리눅스 기반 운영체제 (0) | 2022.01.04 |
파이썬 준비, 시작! (0) | 2021.12.29 |