Project/DACON: 건설기계 오일 상태 분류 AI 경진대회

EDA (3) 결측치, 이상치 확인

문세희 2023. 1. 10. 19:14

결측치 확인

test.csv와 train.csv의 결측치를 확인하였다. Train 데이터의 Feature 중 Test 데이터에 존재하지 않는 Feature(진단 환경이 아닌 Feature)는 대부분 결측치인 것을 확인할 수 있다.

 

이상치 확인

boxplot을 그려 이상치를 확인하는 방법

column 특성에 따라 정의

# 범주형, 연속형 변수의 특징으로 분할해 정의함.
categorical_features = ['ID','COMPONENT_ARBITRARY', 'YEAR', 'Y_LABEL']
numerical_features = [i for i in train.columns if i not in categorical_features]
test_features = [i for i in test.columns]

 

이상치 확인

# boxplot을 그려 연속형 변수에 대한 이상치를 확인한다.
for col in numerical_features :
    plt.figure(figsize=(12, 8))
    plt.boxplot(train[col], sym='r*')
    plt.title(col)
    plt.show()

위의 boxplot을 참고하면 대부분의 데이터에서 Outlier 값이 매우 많은 것을 확인할 수 있다. 따라서 outlier 값을 제거하게 되면 데이터의 대부분이 소실되어 정확한 데이터 정보 파악이 불가능해 outlier 값을 포함해 데이터 시각화를 진행했다.