관리 메뉴

데이터 과학

신용카드 채무 불이행 예측 모델 본문

Kaggle 데이터 분석, 딥러닝

신용카드 채무 불이행 예측 모델

티에스윤 2022. 5. 30. 22:21

Predict if a customer will default in the future라는 주제로 경쟁(competiton)이 진행되고 있어서 소개해 드립니다. 

간단한 Pandas 라이브러리를 활용해서 프로그래밍을 할 수 있는 내용으로 예측 모델링을 공부하는데 도움이 되는 내용입니다. 

 

2022년 8월 17일까지 엔트리 마감일자로 1등은 4만달러를 지급받습니다.

경력 쌓기에는 좋은 대회로 데이터 마이닝을 위해 기계학습을 도입하여 프로그래밍 해 봅시다. 

 

 

https://www.kaggle.com/competitions/amex-default-prediction/overview/description

 

American Express - Default Prediction | Kaggle

 

www.kaggle.com

 

 

데이터는 훈련 데이터와 테스트 데이터로 구분되어 있는데 다운받아 보려면 competition에 참여하라고 메시지가 뜨면서 인증 번호를 요구합니다. 

승인을 선택하면 20GB 용량의 파일이 다운로드 됩니다. 

 

 

이른바 용량이 큰 데이터를 분석하는 빅데이터 분석입니다.

관련 소스를 찾아서 분석하다 보면 LGBM을 많이 사용하는 것을 볼 수 있습니다. 

Light GBM(Gradient Boosting Machine) 알고리즘으로 Leaf wise tree 방법으로 분화하는 방법의 알고리즘으로 Kaggle 알고리즘에서 많이 사용하는 알고리즘입니다. 

 

 

출처 :  https://www.analyticsvidhya.com/blog/2017/06/which-algorithm-takes-the-crown-light-gbm-vs-xgboost/

 

 

아래 프로그램 소스가 LGBM의 간단한 소스입니다. 

 

https://www.kaggle.com/code/munumbutt/simple-lgbm-starter/notebook

 

Simple LGBM Starter

Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources

www.kaggle.com

 

조금은 쉽게 접근한 프로그램 소스도 있습니다. 

기초적인 내용을 서술해서 작성중인 내용인데 처음 접근을 어렵지 않게 진행하는 것이 초보자들에게는 좋습니다. 

 

https://www.kaggle.com/code/mvvppp/explorory-data-analysis-on-huge-data-with-dask

 

Explorory Data Analysis on Huge Data with Dask

Explore and run machine learning code with Kaggle Notebooks | Using data from American Express - Default Prediction

www.kaggle.com

 

https://www.kaggle.com/code/balabaskar/memory-reduction-using-pandas

 

Memory_reduction_using_pandas

Explore and run machine learning code with Kaggle Notebooks | Using data from American Express - Default Prediction

www.kaggle.com

 

 

출처:

https://jhkim0759.tistory.com/12

https://nicola-ml.tistory.com/51

https://velog.io/@ahj1592/LGBM