결측치 확인
test.csv와 train.csv의 결측치를 확인하였다. Train 데이터의 Feature 중 Test 데이터에 존재하지 않는 Feature(진단 환경이 아닌 Feature)는 대부분 결측치인 것을 확인할 수 있다.
이상치 확인
boxplot을 그려 이상치를 확인하는 방법
column 특성에 따라 정의
# 범주형, 연속형 변수의 특징으로 분할해 정의함.
categorical_features = ['ID','COMPONENT_ARBITRARY', 'YEAR', 'Y_LABEL']
numerical_features = [i for i in train.columns if i not in categorical_features]
test_features = [i for i in test.columns]
이상치 확인
# boxplot을 그려 연속형 변수에 대한 이상치를 확인한다.
for col in numerical_features :
plt.figure(figsize=(12, 8))
plt.boxplot(train[col], sym='r*')
plt.title(col)
plt.show()
위의 boxplot을 참고하면 대부분의 데이터에서 Outlier 값이 매우 많은 것을 확인할 수 있다. 따라서 outlier 값을 제거하게 되면 데이터의 대부분이 소실되어 정확한 데이터 정보 파악이 불가능해 outlier 값을 포함해 데이터 시각화를 진행했다.
'Project > DACON: 건설기계 오일 상태 분류 AI 경진대회' 카테고리의 다른 글
Data Processing (2) Feature Scaling (0) | 2023.01.11 |
---|---|
Data Processing (1) 결측치 처리 (0) | 2023.01.10 |
EDA (4) 데이터 시각화 (0) | 2023.01.10 |
EDA (2) 데이터프레임으로 정리 (0) | 2023.01.10 |
EDA (1) 도메인 지식, Column 정의 (0) | 2023.01.06 |