Project/2022 빅콘테스트

[2022 빅콘테스트] 앱 사용성 데이터를 통한 대출신청 예측분석 - 데이터 전처리 (2)

문세희 2023. 2. 19. 23:32

모델의 성능을 높이기 위해서 우리 팀은 외부 변수를 추가하기로 결정했다. 이 부분에서는 조금 더 많은 도메인 지식이 필요했다. 

리서칭을 통해 은행대출과의 상관관계가 높은 수치나 데이터가 있는지 확인해 보았고,

 

유한수, 정재호, "주택시장에서의 매매가격지수와 소비심리지수의 관계", 부동산연구, vol.25, no.4, pp. 49-61, 한국부동산연구원, 2015

박연우, 방두완, "주택가격과 은행대출의 상관관계에 관한 연구", 금융연구, vol.26, no.1, pp. 107-141, 한국금융학회, 2012

 

위 두 논문을 통해 소비자 심리지수와 은행대출과의 상관관계가 높다는 배경적 이론지식을 확인하였다.

소비자 심리지수 (2021.09 ~ 2022.09)
소비자 심리지수 추이
한국은행 기준금리 변동추이

따라서 우리 팀은 소비자 물가지수를 파생변수로 추가하여 모델의 성능을 높이고자 하였다.

a = {'2022-03' : 103.2, '2022-04' : 103.8, '2022-05' : 102.6, '2022-06' : 96.4}

merge['CSI'] = merge['loanapply_insert_time'].map(a)

데이터 테이블에서 시계열 데이터를 활용하여 월별로 소비자심리지수를 mapping 하여 새로운 컬럼으로 추가해 주었다.

 

그 후, LGBM의 feature selection을 활용하여 피쳐의 importance를 확인한 결과, 

컬럼별 타겟값에 미치는 영향 중요도 (feature importance)

새롭게 추가해 준 CSI(소비자 물가지수)가 높은 중요도를 가진 컬럼이라는 것을 확인할 수 있었다. 이로써 소비자 물가지수는 결과에 긍정적인 영향을 미치는 파생변수임이 입증되었다.