2022 빅콘테스트 퓨처스부문에 참가하게 되었다. 데이터 분석에 대하여 아는 바가 거의 없었지만 맨땅에 헤딩하는 심정으로 참여하게 되었고, 감사하게도 같은 과 선배들이 팀원으로 받아들여주셨다.
대회 문제는 아래와 같다.
앱 사용성 데이터를 통한 대출신청 예측분석
- 가명화된 데이터를 기반으로 고객의 대출상품 신청여부 예측
(2022년 3~5월 데이터제공 / 2022년 6월 예측) - 예측모델을 활용하여 탐색적 데이터 분석 수행
- 대출신청, 미신청 고객을 분류하여 고객의 특성 분석결과 도출
크게 두 가지의 문제로 나누어 볼 수 있는데,
- 하나는 고객의 대출상품의 신청여부를 예측하는 이진분류 문제,
- 다른 하나는 고객의 특성 분석결과를 도출하는 클러스터링 문제이다.
먼저 데이터테이블 정의서를 통하여 데이터를 탐색해보았다.



3개의 데이터 테이블로 이루어져 있었고, 1)과 2)는 application_id라는 컬럼으로 연결되어 있었다.
그 후에 바로 컬럼들의 결측치를 확인해보았다.
for i in df_list:
a = df_spec[i].isnull().sum()*100/1394216
print(i ,'결측지' , a ,'%')

연속형 변수는 boxplot을 이용하여 이상치를 확인하였다.

결측치와 이상치가 있는 컬럼이 꽤 많았고 이에 대한 처리방안을 팀원들과 같이 논했다.
'Project > 2022 빅콘테스트' 카테고리의 다른 글
| [2022 빅콘테스트] 앱 사용성 데이터를 통한 대출신청 예측분석 - 한계 및 보완 (0) | 2023.02.20 |
|---|---|
| [2022 빅콘테스트] 앱 사용성 데이터를 통한 대출신청 예측분석 - 고객 군집화 (0) | 2023.02.20 |
| [2022 빅콘테스트] 앱 사용성 데이터를 통한 대출신청 예측분석 - Modeling (0) | 2023.02.19 |
| [2022 빅콘테스트] 앱 사용성 데이터를 통한 대출신청 예측분석 - 데이터 전처리 (2) (0) | 2023.02.19 |
| [2022 빅콘테스트] 앱 사용성 데이터를 통한 대출신청 예측분석 - 데이터 전처리 (1) (0) | 2023.02.18 |