Prognose seltener Ereignisse: Credit Scoring
Das Ziel
Lässt sich mit Hilfe von Machine-Learning-Verfahren prognostizieren, ob ein Kunde stornieren wird, einen Schaden melden wird, einen Kredit zurückzahlen kann oder nicht? Und schneiden diese Methoden besser ab als klassische statistische Verfahren wie beispielsweise eine logistische Regression? Diese und weitere Fragen werden im Rahmen des vorliegenden Use Cases zur Binärklassifikation adressiert und auf Basis einer umfangreichen Analyse beantwortet. Konkret werden einerseits verschiedene Machine-Learning-Verfahren (u. a. CatBoost, logistische Regression ohne und mit Regularisierung, künstliche neuronale Netze, LightGBM & XGBoost) hinsichtlich ihrer Prognosegüte miteinander verglichen. Im Fokus liegen darüber hinaus auch Themen wie Datenvorverarbeitung, Erklärbarkeitsmethoden, Over- und Underfitting sowie Hyperparameter-Tuning. Das Ziel des Use Cases besteht darin, einen ersten Zugang zur Anwendung von Methoden der Actuarial Data Science anhand eines Supervised-Learning-Problems aufzuzeigen.
Das Notebook
Die vorgenommene Analyse ist als Jupyter-Notebook in Python konzipiert und öffentlich zugänglich. Während im nachfolgenden Bericht die wesentlichen Aspekte und Ergebnisse dieser Analyse stark verkürzt vorgestellt werden, finden sich im Jupyter-Notebook detailliertere Betrachtungen, Kommentierungen, Tabellen und Grafiken wieder. Das Jupyter-Notebook kann von allen Interessierten kommentiert, kopiert, verändert sowie um eigene Ansätze ergänzt werden und findet sich unter folgendem Link:
https://www.kaggle.com/floser/binary-classification-credit-scoring
Hinweis: Die DAV ist nicht verantwortlich für den Code und die Daten, die mit Kaggle verbunden sind und auf die in den Repositories verwiesen wird. Diese spiegeln die individuelle Meinung der entsprechenden Nutzer von Kaggle wider.
Die Inhalte
Diesem Actuarial Data Science Use Case liegt der Datensatz application_train des Kaggle- Wettbewerbs Home Credit Default Risk zugrunde. Dieser Datensatz einer internationalen Bank enthält für über 300.000 bewilligte Kreditanträge ein Kennzeichen, ob Zahlungsschwierigkeiten aufgetreten sind. Zudem umfasst er 120 Merkmale, die für die Modellierung als Features verwendet werden können, darunter demografische Angaben, Angaben zu Kredit und Einkommen sowie Angaben aus externen Quellen. Da bei diesem recht unbalancierten Datensatz nur etwa acht Prozent der Anträge Zahlungsschwierigkeiten aufweisen, wird die Prognosegüte über den AUC-Wert bestimmt.
In Teil A des Notebooks wird demonstriert, wie nach minimaler Datenaufbereitung mit dem Gradient-Boosting-Verfahren CatBoost bereits mit Standardparametern ein sehr gutes Prognosemodell erstellt werden kann. Zusätzlich liefern die eingebauten Feature Importances des CatBoost-Modells einen ersten Einblick in die Vorhersagequalität der einzelnen Merkmale.
Teil B verfolgt das Ziel, tiefere Erkenntnisse aus den Daten und deren Modellierung zu erlangen. Zunächst befasst sich dieser Teil mit der klassischen logistischen Regression, um dann eine kurze explorative Datenanalyse, die Generierung neuer Merkmale ("Feature Engineering") und die Interpretierbarkeit von Modellen mittels des Explainable-AIVerfahrens "SHAP" zu behandeln. Weiter werden Datenvorverarbeitungsschritte wie Kodierung, Skalierung und Subsampling unbalancierter Daten diskutiert, und wir untersuchen deren Auswirkungen auf die Prognosegüte des CatBoost-Standardmodells.
Teil C widmet sich der Optimierung und praktischen Anwendung von Machine-Learning- Modellen. Es geht zunächst um Overfitting am Beispiel der regularisierten logistischen Regression sowie um Hyperparameter-Tuning bei künstlichen neuronalen Netzen und den Gradient-Boosting-Verfahren CatBoost, LightGBM und XGBoost. Nach einer umfassenden Modellevaluierung anhand von Validierungs- und Testdaten werden abschließend Anwendungsaspekte im Hochrisikobereich erörtert.
Die Erkenntnisse
Zum Abschluss werden die wichtigsten Erkenntnisse für derartige Aufgabenstellungen zusammengefasst:
- CatBoost: Dieses Machine-Learning-Verfahren zeichnet sich dadurch aus, dass es nur eine minimale Vorverarbeitung erfordert, kategoriale Merkmale nativ verarbeiten kann und bei binären Klassifikationsproblemen schnell und einfach hochwertige Ergebnisse liefert.
- Feature Engineering: Die Anreicherung der vorhandenen Daten durch die Generierung neuer Merkmale aus bestehenden Merkmalen (z. B. Verhältnis von Kredit zu Einkommen) ist ein entscheidender Schritt – wenn nicht gar der entscheidende Schritt – um die Prognosegüte relevant zu verbessern. Dies unterstreicht die Bedeutung domänenspezifischer Expertise bei der Optimierung von Vorhersagemodellen.
- Hyperparameter-Tuning: Obwohl Feature Engineering den größeren Einfluss hat, kann Hyperparameter-Tuning mittels Kreuzvalidierung auf Basis leistungsfähiger Hardware (z. B. GPU-unterstützt) zu einer erkennbaren Verbesserung der Modellleistung der Gradient-Boosting-Tools LightGBM und XGBoost führen.
- Subsampling: Die hier verwendete Anreicherung der Ereignisrate von 8% auf 25% durch die Entfernung zahlreicher Nicht-Ereignisse aus den Trainingsdaten hilft den Modellen bei einer ausgewogeneren Betrachtung der Ereignisse und Nicht-Ereignisse und führt bereits dadurch zu einer leicht besseren Prognosegüte. Der so verringerte Umfang der Trainingsdaten verkürzt die Berechnungszeiten stark und ermöglicht damit zusätzliche Tuningmaßnahmen zur weiteren Verbesserung der Vorhersagequalität.
Diese Ergebnisse demonstrieren eindrucksvoll, wie Methoden des maschinellen Lernens und branchenspezifisches Wissen zusammenwirken und den Weg für eine effektivere Modellierung ebnen.