모델의 성능을 높이기 위해서 우리 팀은 외부 변수를 추가하기로 결정했다. 이 부분에서는 조금 더 많은 도메인 지식이 필요했다.
리서칭을 통해 은행대출과의 상관관계가 높은 수치나 데이터가 있는지 확인해 보았고,
유한수, 정재호, "주택시장에서의 매매가격지수와 소비심리지수의 관계", 부동산연구, vol.25, no.4, pp. 49-61, 한국부동산연구원, 2015
박연우, 방두완, "주택가격과 은행대출의 상관관계에 관한 연구", 금융연구, vol.26, no.1, pp. 107-141, 한국금융학회, 2012
위 두 논문을 통해 소비자 심리지수와 은행대출과의 상관관계가 높다는 배경적 이론지식을 확인하였다.
따라서 우리 팀은 소비자 물가지수를 파생변수로 추가하여 모델의 성능을 높이고자 하였다.
a = {'2022-03' : 103.2, '2022-04' : 103.8, '2022-05' : 102.6, '2022-06' : 96.4}
merge['CSI'] = merge['loanapply_insert_time'].map(a)
데이터 테이블에서 시계열 데이터를 활용하여 월별로 소비자심리지수를 mapping 하여 새로운 컬럼으로 추가해 주었다.
그 후, LGBM의 feature selection을 활용하여 피쳐의 importance를 확인한 결과,
새롭게 추가해 준 CSI(소비자 물가지수)가 높은 중요도를 가진 컬럼이라는 것을 확인할 수 있었다. 이로써 소비자 물가지수는 결과에 긍정적인 영향을 미치는 파생변수임이 입증되었다.
'Project > 2022 빅콘테스트' 카테고리의 다른 글
[2022 빅콘테스트] 앱 사용성 데이터를 통한 대출신청 예측분석 - 한계 및 보완 (0) | 2023.02.20 |
---|---|
[2022 빅콘테스트] 앱 사용성 데이터를 통한 대출신청 예측분석 - 고객 군집화 (0) | 2023.02.20 |
[2022 빅콘테스트] 앱 사용성 데이터를 통한 대출신청 예측분석 - Modeling (0) | 2023.02.19 |
[2022 빅콘테스트] 앱 사용성 데이터를 통한 대출신청 예측분석 - 데이터 전처리 (1) (0) | 2023.02.18 |
[2022 빅콘테스트] 앱 사용성 데이터를 통한 대출신청 예측분석 - 문제 파악 및 데이터 살펴보기 (0) | 2023.02.17 |