Schadenhäufigkeitsmodellierung in der Schadentarifierung mit GLM, Deep Learning und Gradient Boosting
Abstract
Die bereits in der ersten Version des Anwendungsfalles dafür genutzten verallgemeinerten linearen Modellen, tiefen künstlichen neuronalen Netzen und entscheidungsbaumbasierten Modell-Ensembles (eXtreme Gradient Boosting, „XGBoost“) werden um regularisierte verallgemeinerte lineare Modelle (LASSO und Ridge), generalisierte additive Modelle (GAM) sowie um zwei weitere, modernere Vertreter aus der Klasse der entscheidungsbaumbasierten Modell-Ensembles („LightGBM“ und „CatBoost“) ergänzt.
Dabei wird auch die in Schelldorfer und Wüthrich (2019) gezeigte Integration klassischer Modelle in neuronale Netze samt vorgeschalteter Dimensionsreduktion verwendet. Zusätzlich werden Fragen der Tariforganik sowie der Modellstabilität beleuchtet, eine Kreuzvalidierung durchgeführt und auf die Frage der Erklärbarkeit von komplexen entscheidungsbaumbasierten Verfahren mittels SHAP eingegangen.
Es zeigt sich, dass sowohl tiefe neuronale Netze als auch entscheidungsbaumbasierte Modell-Ensembles mindestens für die Verbesserung klassischer Modelle verwendet werden können, wobei sich bei den klassischen Modellen das generalisierte additive Modell als überlegen erweist, jedoch nicht an die Prognosefähigkeiten der entscheidungsbaumbasierten Modell-Ensembles heranreicht.
Darüber hinaus erweisen sich die entscheidungsbaumbasierten Modell-Ensembles „XGBoost“ und „LightGBM“ auch bei Beachtung der Tariforganik am untersuchten Datensatz als weit überlegene Prognosemodelle.
Die vorgenommene Analyse ist als R-Notebook öffentlich zugänglich. Im folgenden Bericht werden die wesentlichen Aspekte und Ergebnisse stark verkürzt vorgestellt. Die detaillierten Betrachtungen sind als Analysebericht (Jupyter Notebook) mit zahlreichen Graphiken verfügbar und können von allen Interessierten kommentiert, kopiert, verändert und um eigene Ansätze ergänzt werden:
https://www.kaggle.com/floser/glm-neural-nets-and-xgboost-for-insurance-pricing
Neu hinzugekommen ist ein Python-Notebook, aus dem die optimierten Hyperparameter stammen:
https://www.kaggle.com/code/floser/use-case-claim-frequency-modeling-python
Die DAV ist nicht verantwortlich für den Code und die Daten, die mit Kaggle verbunden sind und auf die in den Repositories verwiesen wird. Diese spiegeln die individuelle Meinung jedes Nutzers von Kaggle wider.
0. Motivation und Quellen
Die vorliegende Untersuchung soll zeigen, wie ausgewählte Methoden des Maschinellen Lernens (ML) zu genaueren Prognosen eines oder mehrerer Schadensfälle führen können. Sie beruht in einigen Teilen (GLM2, GLM4 und Deep Learning) auf R-Codes von Mario Wüthrich und wurde um Daten¬visualisierung, generalisierte additive Modelle, verschiedeneren entscheidungsbaumbasierte Modellensembles (XGBoost, LightGBM und CatBoost), Kreuzvalidierung, Tariforganik und Interpretierbarkeit mit SHAP ergänzt.
1. Datenbestand
Die Untersuchung wird an einem öffentlich verfügbaren französischen Autohaftpflichtversicherungs¬bestand mit 678.031 Policen auf Einzelvertragsebene durchgeführt. Der Datensatz enthält neben der Schadenanzahl und Versicherungsdauer neun beschreibende Merkmale, darunter Fahrzeugmerkmale (*4), Regionalmerkmale (*3), das Fahreralter und die Bonus-Malus-Einstufung. Der Datensatz wird mit dem korrespondierenden Schadenhöhen-Datensatz angereichert und um Schäden ohne zugehöriger Schadenhöhe bereinigt. Dadurch verringert sich die Datenbasis auf 678.013 Policen und ein in der ersten Version sehr auffälliges, unplausibles Schadensegment wird eliminiert. Bei den i.d.R. weit komplexeren unternehmensinternen Datensätzen haben die Verfahren des Maschi¬nellen Lernens daher größeres Verbesserungspotential als an diesem „dünnen“ Datensatz aufgezeigt werden kann.
2. Modelle und Methodik
a) Verallgemeinerte Lineare Modelle
Als Vertreter der klassischen aktuariellen Schadenhäufigkeitsmodelle werden ein einfaches verallgemeinertes lineares Model sowie um Polynomterme und Interaktionen erweiterte Modelle verwendet, wobei in die weiterentwickelten GLM Erkenntnisse aus Vergleichen mit neuronalen Netzen und Interaktionsanalysen aus entscheidungsbaumbasierten Modellen, eingeflossen sind.
b) Regularisierte GLM (R-Notebook)
Der Gefahr des Overfittings im GLM wird mit zwei Regularisierungsansätzen über einen "Strafterm" in der Verlustfunktion für zu hohe Modellkomplexität begegnet. Die L1-Regularisierung ("LASSO") kann dazu führen, dass einige Koeffizienten auf Null gesetzt werden, was eine Form der Merkmalsauswahl darstellt, während die L2-Regularisierung ("Ridge Regression") dazu führt, dass die entsprechenden Koeffizienten nahe an Null herankommen, aber nicht genau Null erreichen.
c) Generalisierte additives Modell „GAM" (R-Notebook)
Verallgemeinerte additive Modelle (GAMs) erweitern die GLMs, um bestimmte nichtlineare Beziehungen zu berücksichtigen, wobei die Additivität erhalten bleibt. Folglich sind GAM flexibler als GLM
d) Tiefe künstliche neuronale Netze
Als tief gelten bereits Netze mit zwei verborgenen Schichten. Im Fokus stehen hier die in Schelldorfer und Wüthrich (2019) gezeigten Netze, die sich zum einen durch eine vorgeschaltete Dimensionsreduktion (sog. „Embeddings") bei den beiden Merkmalen Region und Automarke auszeichnen (Modell „NNemb"). Zum anderen können dort klassische aktuarielle Modelle wie hier im Modell „NNGLM" ein GLM zu einem „Combined Actuarial Neural Net (CANN) integriert werden und auf dieser Basis die Rechenzeit für das Netz verkürzt und ggf. mittels einer Residualanalyse die klassischen Modelle verbessert werden. Diese Netze sind mit drei verborgenen Schichten mit je 10 bis 20 Neuronen umgesetzt und haben eine, für vergleichbar leitungsfähige Netze, geringe Parameteranzahl.
e)Entscheidungsbaumbasierte Modell-Ensembles
Derzeit sind entscheidungsbaumbasierten Modell-Ensembles bei tabularen Daten die leistungsfähigsten und relativ einfach zu verwendenden Werkzeuge für das maschinelle Lernen. Dies wurde auch in Vorgängerversion dieses Anwendungsfalles anhand „XGBoost“-Modellen demonstriert. Neu hinzu kommen nun die Alternativen „LightGBM“ und „CatBoost“.
Zunächst wird das volle Potenzial eines unbeschränkten Boosting-Modells demonstriert, um anschließend eine monoton steigende Beschränkung auf das Merkmal „BonusMalus“ als beispielhafte Betrachtung eines Tarifsystems einzusetzent.
Die Interpretierbarkeit dieser Modelle wird mittels des auf der Spieltheorie beruhenden SHAP-Verfahrens global und lokal dargestellt.
f)Nullmodell INT (Intercept only)
Zur Einordnung der unterschiedlichen Treffsicherheit der oben genannten Modelle wird als Benchmark ein „Nullmodell" ohne weitere Differenzierung (Prognose auf Basis der durchschnittlichen Schadenhäufigkeit) erstellt.
Alle zwölf Modelle werden auf Basis von 80% der Daten gefittet und die Modellgüte wird auf den zurück¬gehaltenen 20% der Daten evaluiert. Als Gütemaß wird die gewichtetet Devianz mit zugrundeliegender Poisson-Verteilungsannahme „Poisson Deviance" verwendet.
Da die gewählte Aufteilung in Trainings- und Teststichprobe einen deutlichen Einfluss auf die absolute Höhe der gemessenen und prognostizierten Schadenhäufigkeiten haben kann, wird die Analyse mittels 5-facher Kreuzvalidierung durchgeführt.
3. Ergebnisse
Die Modell-Vergleiche zeigen, dass sich die entscheidungsbaumbasierte Modell-Ensembles mit ihrer höheren Prognosegenauigkeit (kleinere Poisson Deviance) von den anderen Modellen absetzen können. Die dabei beobachteten Schwankungsbreiten werden zum großen Teil von zufälligen Unterschieden in den verwendeten Stichproben erzeugt und verringern sich bei einer relativen Betrachtung.
4. Fazit
Zusammenfassend lässt sich feststellen, dass sich in beiden Notebooks die Gradient-Boosting-Modelle im untersuchten Datensatz als die überlegenen Prognosemodelle erweisen, auch unter Berücksichtigung des Tarifsystems. XGBoost schneidet dabei weiterhin sehr gut ab, noch etwas besser und dabei deutlich schneller ist jedoch LightGBM. Um die Interpretierbarkeit zu gewährleisten, wurde SHAP, das auf der Spieltheorie aufbaut, verwendet, um die Entscheidungen von LightGBM global und lokal zu erklären.
Während Standard-GLM am schlechtesten abschneiden (ebenso wie regularisierte GLM), funktionierten verallgemeinerte additive Modelle, die als Erweiterungen von GLM angesehen werden können, im R-Notebook bemerkenswert gut. Neuronale Netze mit zweidimensionalen Einbettungen, die sich gut visualisieren lassen, zeigen eine ähnlich gute Prognosegüte wie GAM, sind jedoch wesentlich komplizierter zu implementieren.
Quelle
Faraway, J. J. (2016), "Extending the Linear Model with R"https://julianfaraway.github.io/faraway/ELM/
Hastie, T., Tibshirani, R. (1984), "Generalized Additive Models", SLAC PUB-3531: https://www.slac.stanford.edu/pubs/slacpubs/3500/slac-pub-3531.pdf
James et al., "An Introduction to Statistical Learning", 2ed, 2021-2023. Available in two versions with R or Python examples, see https://www.statlearning.com/
Mayer, M., Meier, D., Wüthrich, M. V. (2023), "SHAP for Actuaries: Explain any Model": https://github.com/actuarial-data-science/Tutorials/tree/master/14%20-%20SHAP
Schelldorfer, J., Wüthrich, M. V. (2019) "Nesting Classical Actuarial Models into Neural Networks", SSRN-Preprint 3320525 https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3320525
Wüthrich, M. V., Merz, M. (2023) "Statistical Foundations of Actuarial Learning and its Applications"open-access book: https://link.springer.com/book/10.1007/978-3-031-12409-9