Project/2022 빅콘테스트

[2022 빅콘테스트] 앱 사용성 데이터를 통한 대출신청 예측분석 - 문제 파악 및 데이터 살펴보기

문세희 2023. 2. 17. 21:01

2022 빅콘테스트 퓨처스부문에 참가하게 되었다. 데이터 분석에 대하여 아는 바가 거의 없었지만 맨땅에 헤딩하는 심정으로 참여하게 되었고, 감사하게도 같은 과 선배들이 팀원으로 받아들여주셨다. 

 

대회 문제는 아래와 같다.

 

앱 사용성 데이터를 통한 대출신청 예측분석

  • 가명화된 데이터를 기반으로 고객의 대출상품 신청여부 예측
    (2022년 3~5월 데이터제공 / 2022년 6월 예측)
  • 예측모델을 활용하여 탐색적 데이터 분석 수행
  • 대출신청, 미신청 고객을 분류하여 고객의 특성 분석결과 도출

크게 두 가지의 문제로 나누어 볼 수 있는데,

  • 하나는 고객의 대출상품의 신청여부를 예측하는 이진분류 문제,
  • 다른 하나는 고객의 특성 분석결과를 도출하는 클러스터링 문제이다.
  •  

먼저 데이터테이블 정의서를 통하여 데이터를 탐색해보았다.

1) user_spec 테이블의 컬럼

 

2) loan_result 테이블의 컬럼
3) log_data 테이블의 컬럼

3개의 데이터 테이블로 이루어져 있었고, 1)과 2)는 application_id라는 컬럼으로 연결되어 있었다.

 

그 후에 바로 컬럼들의 결측치를 확인해보았다. 

for i in df_list:
  a = df_spec[i].isnull().sum()*100/1394216
  print(i ,'결측지' , a ,'%')

컬럼별 결측치 비율

연속형 변수는 boxplot을 이용하여 이상치를 확인하였다.

boxplot을 그려 확인한 데이터 분포의 예시. 데이터를 4분위로 나누어 박스를 나타내고, 그 외의 값들을 이상치로 나타내어준다.

결측치와 이상치가 있는 컬럼이 꽤 많았고 이에 대한 처리방안을 팀원들과 같이 논했다.