Der selektive Markt der privaten Pflegevorsorge: Eine Machine-Learning-Analyse mit SOEP-Daten
Die Ergebnisse zeigen, dass der Anteil der Personen mit einer PPZV im SOEP gering ist und das Vorhandensein dieser Vorsorge stark von ökonomischen Ressourcen und institutionellen Faktoren abhängt. Besonders relevant sind das Haushaltseinkommen, der Besitz von Wohneigentum, der Status in der gesetzlichen Krankenversicherung sowie vor allem das Vorhandensein anderer privater Zusatzversicherungen. Demografische Merkmale und einstellungsbezogene Faktoren spielen dagegen eine untergeordnete Rolle. Die Modellvergleiche verdeutlichen, dass alle eingesetzten Verfahren eine sehr solide Trennschärfe erreichen (ROC-AUC ≈ 0,85), wobei die logistische Regression nur geringfügig schlechtere Ergebnisse als komplexere Verfahren liefert. Insgesamt wird deutlich, dass private Pflegevorsorge in Deutschland vor allem einkommens- und statusgetrieben ist. Für die Praxis ergibt sich daraus die Notwendigkeit, gezielt einkommensschwächere Gruppen durch finanzielle Anreize, transparente Kommunikation und niederschwellige Informationsangebote anzusprechen und zugleich bei zusatzversicherungsaffinen Kundinnen und Kunden Cross-Selling-Potenziale zu nutzen.
1. Einleitung
Die SPV in Deutschland wurde mit dem Ziel konzipiert, eine grundlegende Absicherung gegen das Pflegerisiko im Alter zu gewährleisten. Sie ist jedoch als Teilleistungsversicherung ausgestaltet, die nicht alle ambulanten und stationären Pflegeleistungen vollumfänglich abdeckt. Dieses Design führt zu einer unvermeidlichen Finanzierungslücke, die Pflegebedürftige und ihre Familien mit erheblichen Zuzahlungen belastet. Eine Analyse des Verbands der Ersatzkassen e. V. (vdek) (vgl. [20]) zeigt, dass die durchschnittlichen monatlichen Eigenanteile im ersten Jahr eines Heimaufenthalts für stationäre Heimpflege zur Jahresmitte 2025 bei 3.108 Euro lagen.
Neben der Absicherung von Pflegeleistungen dient die PPZV als ein Instrument zur Vermögenssicherung. Im Pflegefall müssen Haushalte ihr Vermögen mobilisieren, wenn laufende Einnahmen und Ersparnisse nicht ausreichen. Dies unterstreicht die doppelte Funktion der privaten Vorsorge: sie soll nicht nur die Finanzierungslücke schließen, sondern auch den Verlust von erarbeiteten Rücklagen verhindern.
Das auf dem Umlageverfahren basierende System der SPV steht zunehmend unter Druck. Demografische Entwicklungen, insbesondere das Missverhältnis zwischen einer geringeren Zahl zukünftiger Beitragszahler und einer wachsenden Zahl Pflegebedürftiger, haben zu einem prognostizierten Anstieg der Beitragssätze geführt (vgl. [15]).
Die DAV (vgl. [5]) sieht in einer aktuellen Stellungnahme aus dem Jahr 2025 die steigenden Kosten und Eigenanteile als ein „klares Warnsignal“, das notwendige Reformen unaufschiebbar macht. Die DAV verweist explizit auf ein „Missverständnis“, das die gesetzliche Pflegeversicherung als Vollkaskosystem wahrnimmt, obwohl sie von Natur aus eine Teilleistung darstellt. Dieses Informationsdefizit in der Bevölkerung ist ein wesentlicher Faktor, der die geringe Nachfrage nach ergänzender privater Vorsorge erklären kann.
Vor diesem Hintergrund untersucht die vorliegende Analyse die Rolle und Verbreitung der PPZV in Deutschland. Ausgehend von der geringen Marktdurchdringung wird den zentralen Fragen nachgegangen: Warum ist die Nachfrage nach diesen Policen trotz des zunehmenden Pflegerisikos gering? Welche Faktoren treiben den Abschluss einer PPZV an? Welche Implikationen ergeben sich aus den empirischen Befunden für die zukünftige Gestaltung der Pflegefinanzierung in Deutschland?
Die empirischen Grundlagen dieser Untersuchung bilden die umfassenden Daten des Sozio-oekonomischen Panels (SOEP) (siehe z.B. [9]), einer der längsten und umfangreichsten multidisziplinären Langzeitstudien in Deutschland. Die SOEP-Daten erlauben es, das Vorhandensein einer privaten Pflegezusatzversicherung mit einer breiten Palette von sozioökonomischen, demografischen und einstellungsbezogenen Merkmalen zu verknüpfen.
Zur Beantwortung der Forschungsfragen werden neben deskriptiven Analysen auch fortgeschrittene statistische Verfahren und maschinelle Lernmodelle (ML) eingesetzt. Diese Methoden, darunter Gradient Boosting und Random Forests, sind in der Lage komplexe, nicht-lineare Zusammenhänge aufzudecken, die traditionelle lineare Modelle wie die logistische Regression übersehen könnten. Darüber hinaus werden Techniken der erklärbaren künstlichen Intelligenz (Explainable AI, XAI), insbesondere die SHapley Additive exPlanations (SHAP), genutzt, um die Relevanz der einzelnen Einflussfaktoren quantitativ zu bewerten und die Funktionsweise der komplexen Modelle transparent zu machen.
2. Datenbasis und Variablenbeschreibung
Der dieser Arbeit zugrunde liegende SOEP-Datensatz stellt eine der weltweit am längsten laufenden und umfassendsten Haushaltsbefragungen (vgl. [9]) dar. Seit 1984 werden jährlich rund 30.000 Personen aus etwa 15.000 Haushalten zu einer Vielzahl von Themen befragt, wodurch eine umfangreiche Längsschnittdatenbank für die Analyse sozioökonomischer Verhältnisse entstanden ist. Die multidisziplinäre Natur des SOEP ist für die vorliegende Analyse von zentraler Bedeutung, da sie nicht nur harte ökonomische Daten wie Einkommen und Vermögen erfasst, sondern auch psychologische und einstellungsbezogene Merkmale. Dieser breite Ansatz erlaubt eine differenziertere Modellierung des Entscheidungsverhaltens als dies mit rein versicherungs- oder finanzwirtschaftlichen Datensätzen möglich wäre (siehe hierzu auch [7],[8] und [14]).
Grundlage dieses Artikels bilden hierbei die SOEP-Daten des Jahres 2018, die jüngsten verfügbaren Daten zur PPZV ohne potenzielle Einflüsse durch die COVID-19-Pandemie. Es wird untersucht, welche Einflussgrößen für das Vorhandensein einer PPZV entscheidend sind. Dabei wird ein breites Spektrum an Variablen einbezogen, das ökonomische Ressourcen, institutionelle Rahmenbedingungen, demografische Merkmale und individuelle Einstellungen umfasst. Mittels verschiedener statistischer Verfahren und maschineller Lernmodelle wird sowohl die Vorhersagegüte als auch die relative Bedeutung der Einflussfaktoren analysiert.
In [11] wird auf Basis der SOEP-Daten aus dem Jahr 2020 eine deskriptive Analyse zum Abschluss einer privaten Pflegezusatzversicherung erarbeitet, aus der sich eine hohe soziale Selektivität ergibt. Konkret wird dort die Schlussfolgerung gezogen, dass die Verbreitung dieser Versicherungen überwiegend auf wohlhabende Bevölkerungsgruppen und Personen mit privater Pflegepflichtversicherung (PPV) konzentriert ist. Die Untersuchung verdeutlicht zudem einen engen Zusammenhang zwischen dem Versicherungsstatus und dem Besitz einer PPZV sowie einer starken Korrelation zwischen Versicherungsstatus und Einkommen.
Im Rahmen der vorliegenden Analyse wurden grundsätzlich alle im SOEP verfügbaren Variablen aus dem Befragungsjahr 2018 herangezogen, um die Forschungsfragen umfassend zu bearbeiten. Tabelle 1 zeigt exemplarisch einen Auszug ausgewählter unabhängiger Variablen, die geclustert nach übergeordneten Kategorien verschiedene Aspekte der sozioökonomischen Lage, der Demografie sowie individueller Einstellungen und Lebensumstände abbilden. Die Zielvariable (Vorhandensein einer PPZV) ist dichotom kodiert und gibt an, ob eine Person über eine PPZV verfügt (1) oder nicht (0). Da weniger als zehn Prozent der Beobachtungen positiv sind, liegt ein deutlich unausgeglichenes Klassifikationsproblem vor. Die Auswahl der in Tabelle 1 dargestellten Merkmale folgt dem Ziel, sowohl ökonomische Ressourcen und institutionelle Rahmenbedingungen als auch individuelle Einstellungen, soziodemografische Merkmale und regionale Kontexte in die Analyse einzubeziehen.

Die Vorverarbeitung der Daten folgt gängigen Verfahren. Für numerische Variablen mit fehlenden Werten wird der beobachtete Mittelwert angesetzt. Für kategorielle Variablen wird eine separate Kategorie „Missing“ erstellt. Perfekt kollineare Variablen werden entfernt. Kontinuierliche Variablen mit rechtsschiefen Verteilungen, wie Einkommen und Ersparnisse, wurden zur Modellierung logarithmiert. Kategoriale Variablen wurden im Rahmen der Modellierung in Dummy-Variablen umgewandelt. Nach dem Entfernen rein administrativer Metadaten und dem Ausschluss aller Variablen mit mehr als 20 % fehlenden Werten umfasst der finale Datensatz insgesamt 937 erklärende Variablen und rd. 25.600 Beobachtungen. Die beiden nachfolgenden Abbildungen zeigen exemplarisch einige deskriptive Statistiken für verschiedene kategorielle und numerische Merkmale.
Die deskriptive Analyse der SOEP-Daten aus dem Jahr 2018 zeigt deutliche Unterschiede in Bezug auf das Vorhandensein einer PPZV in Abhängigkeit von sozioökonomischen und versicherungsbezogenen Merkmalen. Zum einen weisen Personen mit privater Krankenversicherung, zum anderen Personen mit privaten Krankenzusatzversicherungen jeweils höhere Anteile auf als gesetzlich Versicherte beziehungsweise Personen ohne Zusatzversicherung. Auch innerhalb der gesetzlichen Krankenversicherung zeigen sich Differenzierungen: Während Pflichtversicherte nur selten eine PPZV besitzen, ist der Anteil unter freiwillig Versicherten deutlich höher (vgl. Abbildung 1).

Darüber hinaus verdeutlichen die Ergebnisse einen klaren Zusammenhang mit dem Bildungsniveau und dem sozioökonomischen Status. Mit zunehmender Bildungsdauer steigt der Anteil an PPZV-Versicherten kontinuierlich an. Hauseigentümer besitzen deutlich öfter eine PPZV als Nicht-Eigentümer, was auf den Einfluss von Vermögen und finanzieller Absicherung hinweist. Regionale Unterschiede nach Bundesländern sind zwar erkennbar, jedoch weniger ausgeprägt als die Effekte von Bildung, Versicherungsstatus und Eigentumsverhältnissen.
Die kontinuierlichen Variablen erlauben einen genaueren Blick auf die sozioökonomische Struktur (vgl. Abbildung 2). Das Haushaltseinkommen (logarithmiert) weist eine Konzentration im mittleren Bereich auf, wobei Zusatzversicherte tendenziell etwas höhere Einkommen erzielen. Das Alter verteilt sich über den gesamten Lebensverlauf, mit einer Häufung in den mittleren Altersgruppen. Auch hier zeigt sich, dass Zusatzversicherte eher im mittleren bis höheren Alter liegen. Bei der monatlichen Ersparnis fällt auf, dass die meisten Haushalte nur geringe Beträge zurücklegen, während höhere Ersparnisse selten vorkommen. Personen mit PPZV weisen jedoch im Durchschnitt höhere monatliche Sparbeträge auf. Insgesamt lässt sich festhalten, dass die Verbreitung der PPZV stark durch sozialstrukturelle Faktoren bestimmt ist: Insbesondere einkommens- und bildungsstärkere Gruppen sowie Personen mit bereits bestehenden privaten Krankenzusatzversicherungen sind deutlich häufiger abgesichert.

3. Modellkonzeption
Die Aufgabe, das Vorliegen einer PPZV zu prognostizieren, stellt ein binäres Klassifikationsproblem dar. Eine wesentliche methodische Herausforderung ist dabei die erwähnte stark unausgeglichene Klassenverteilung (Klassenimbalance). In der vorliegenden Situation sind gängige Evaluierungsmetriken wie die Genauigkeit (Accuracy) irreführend, da ein triviales Modell, das immer die Mehrheitsklasse („keine PPZV“) vorhersagt, bereits eine hohe Genauigkeit von über 90 % erreichen würde. Aus diesem Grund ist es erforderlich Gütekriterien zu verwenden, die die Leistung bei der Identifikation der Minderheitsklasse (Personen mit PPZV) in den Fokus rücken (vgl. dazu auch [12] und [18]).
Als verlässliche und interpretierbare Referenz (Benchmark) dient hierbei die logistische Regression (inkl. L1-Regularisierung). Zusätzlich wurden fortschrittlichere, nicht-lineare Machine-Learning-Verfahren angewandt, um die Vorhersagekraft zu steigern. Dazu gehören unter anderem verschiedene Gradient-Boosting-Modelle wie XGBoost, LightGBM und CatBoost. Diese Modelle sind in der Lage komplexe, nicht-lineare Zusammenhänge und Interaktionseffekte zu erfassen, was in traditionellen linearen Modellen oft nicht möglich ist (vgl. [12]). Vergleichende Studien zur Vorhersage von Lebensversicherungen oder Risikoeinstellungen zeigen, dass Machine-Learning-Verfahren hierbei traditionelle GLM-Ansätze übertreffen können (vgl. [8] und [14]).
Die Evaluierung der Modellperformance erfolgte auf den Testdaten, um eine robuste Beurteilung der Generalisierungsfähigkeit zu gewährleisten. Neben der ROC-Kurve (Receiver Operating Characteristic) und ihrem Flächenmaß (AUC) wurden insbesondere die Precision-Recall-Kurve (PRC) und der F1-Score herangezogen. Die ROC-AUC ist zwar ein etabliertes Gütemaß, kann aber bei unausgeglichenen Datensätzen zu optimistische Ergebnisse liefern, da sie die Leistung bei beiden Klassen gleich gewichtet. Die Precision-Recall-Kurve hingegen visualisiert den Trade-off zwischen Precision (Präzision), dem Anteil der korrekt als positiv vorhergesagten Fälle unter allen positiven Vorhersagen, und Recall (Sensitivität), dem Anteil der korrekt als positiv erkannten Fälle an allen tatsächlich positiven Fällen (vgl. dazu auch [12] und [18]). Der F1-Score kombiniert diese beiden Metriken zu einem einzigen Wert durch Bildung des harmonischen Mittels. Bei dem in Tabelle 2 dargestellten Best F1-Score wird nun die 0/1-Schwelle so gewählt, dass der Score maximal wird.
Da Machine-Learning-Modelle oft als „Black Boxes“ agieren und wenig Einblick in ihre Entscheidungsfindung gewähren, wurden Ansätze der erklärbaren künstlichen Intelligenz (XAI) eingesetzt. Insbesondere die SHAP-Werte (SHapley Additive exPlanations) bieten eine mathematisch fundierte Methode, um den Beitrag jedes Merkmals zur Vorhersage einer einzelnen Beobachtung und zur globalen Merkmalsbedeutung zu quantifizieren (vgl. [15]). Als komplementäre Methode zur Validierung der Befunde wurde die Permutation Feature Importance verwendet (siehe auch [14]). Diese misst die Relevanz eines Merkmals, indem sie den Rückgang der Vorhersagegüte des Modells nach einer zufälligen Permutation der Merkmalswerte bestimmt.
4. Analyseergebnisse
Die Evaluation der Modelle in Tabelle 2 zeigt, dass alle eingesetzten Verfahren eine solide Trennschärfe zwischen Personen mit und ohne private Pflegezusatzversicherung erreichen. Die ROC-AUC-Werte auf den Testdaten liegen bei allen Modellen zwischen 0,84 und 0,85. Insbesondere die Boosting-Verfahren erreichen die besten Werte, weichen jedoch nur geringfügig voneinander ab. Bemerkenswert ist die Feststellung, dass die logistische Regression eine nur geringfügig schlechtere Performance als die komplexeren Machine-Learning-Modelle liefert und sich somit als robuster Referenzpunkt erweist.

Die niedrigeren Precision-Recall-AUC-Werte (zwischen 0,29 und 0,32) sowie die F1-Scores (um 0,40) spiegeln die Herausforderung der Klassenimbalance wider und unterstreichen die Schwierigkeit, die relativ seltenen positiven Fälle zuverlässig zu identifizieren. Ein Vergleich der Konfusionsmatrizen und der ROC- bzw. PR-Recall-Kurven in Abbildung 3 zeigt, dass die Modelle eine hohe Zahl an negativen Fällen korrekt klassifizieren, sich aber im Umgang mit den positiven Fällen unterscheiden. Während CatBoost einen höheren Recall aufweist (es werden mehr positive Fälle erkannt), überzeugt LightGBM durch eine geringere Fehlalarmrate und höhere Präzision. Insgesamt liefern die Modelle sehr ähnliche Ergebnisse, wobei kein einzelnes Verfahren die übrigen signifikant übertrifft.

Die Analyse der Merkmalsbedeutungen in den Abbildungen 4 und 5, die mittels SHAP- und Permutation-Feature-Importance durchgeführt wurde, verdeutlicht, dass die Vorhersage des Vorhandenseins einer PPZV von wenigen zentralen Variablen dominiert wird. Mit deutlichem Abstand ist der Besitz anderer privater Zusatzversicherungen (PrivateKZV) der stärkste Indikator für das Vorhandensein einer PPZV. Dieses Ergebnis unterstreicht, dass sich Personen, die bereits eine Präferenz für private Vorsorge zeigen, sich mit höherer Wahrscheinlichkeit auch für eine zusätzliche Pflegeabsicherung entscheiden. Damit eröffnet sich für Unternehmen zugleich die Möglichkeit, bestehende Kundenbeziehungen durch gezielte Cross-Selling-Strategien auszubauen. An zweiter Stelle rangiert das Haushaltseinkommen, dessen Höhe die Wahrscheinlichkeit eines Vertragsabschlusses erheblich erhöht und damit den Befund einer klaren ökonomischen Selektivität bestätigt.
Weitere relevante Faktoren sind der Wohnstatus (Hauseigentümer) und der Versicherungsstatus in der gesetzlichen Krankenversicherung (StatusGKV). Demgegenüber spielen demografische Merkmale wie Alter und Bildung sowie einstellungsbezogene Faktoren, wie politisches Interesse oder Spendenbereitschaft, eine nachrangige Rolle. Das bedeutet, dass messbare ökonomische Ressourcen und der bereits bestehende Absicherungsstatus die zentralen Treiber sind, während Aspekte der Persönlichkeit oder der politischen Orientierung kaum zur Erklärung des Versicherungsverhaltens beitragen. Dies steht im Gegensatz zu Studien über andere Versicherungsformen wie Lebensversicherungen oder Einstellungen zum Risiko, bei denen psychologische Merkmale oder die Risikobereitschaft eine wichtige Rolle spielen (vgl. [8] und [14]). Die Ergebnisse für die private Pflegezusatzversicherung deuten stattdessen darauf hin, dass das Vorhandensein weniger eine Frage der individuellen Risikoeinstellung ist, sondern primär von der finanziellen Machbarkeit abhängt.


5. Diskussion der Implikationen
Die Ergebnisse belegen eine starke soziale Selektivität beim Zugang zur privaten Pflegevorsorge. Haushalte mit überdurchschnittlichem Einkommen, Vermögen und bereits bestehenden Zusatzversicherungen sind deutlich häufiger abgesichert (siehe dazu auch [11] und [13]).
Dies führt zu einer Ungleichheit, bei der jene vulnerablen Bevölkerungsgruppen, die angesichts geringer Einkommen im Pflegefall besonders auf eine zusätzliche Absicherung angewiesen wären, diese am seltensten abschließen.
Die DAV fordert in [5] eine demografisch tragfähige Ausrichtung der Pflegefinanzierung durch mehr Kapitaldeckung und betont, dass die soziale Pflegeversicherung ein Teilleistungssystem ist, sodass die Eigenverantwortung daher notwendig bleibt. Zugleich richtet die DAV den Blick ausdrücklich auf die breite Bevölkerung und hält „Anreize und Förderung“ für erforderlich, damit möglichst viele Menschen passende Pflegezusatzprodukte nutzen.
Unsere Analyse zeigt, dass der Abschluss privater Pflegezusatzversicherungsprodukte derzeit stark einkommens- und statusabhängig ist. Vor diesem Hintergrund wäre bspw. eine ausschließlich steuerbasierte Förderung nach unserer Einschätzung tendenziell regressiv, weil sie vor allem jenen Bevölkerungsgruppen zugutekäme, die sich auch ohne zusätzliche Entlastung absichern könnten.
Im Sinne der von der DAV angestrebten Verbreitung kapitalgedeckter Vorsorge sprechen unsere Befunde für sozial ausgewogene Anreizmechanismen, etwa einkommensabhängige Zuschüsse oder gedeckelte Pauschalzuschüsse, kombiniert mit standardisierten, leicht zugänglichen Basisprodukten (z. B. Opt-out-Lösungen) und einer niederschwelligen Informationsstrategie. Solche Instrumente würden die Zielrichtung der DAV – mehr Kapitaldeckung und Entlastung der SPV – unterstützen und zugleich die Gefahr einer Verstärkung sozialer Ungleichheiten beim Zugang zur Vorsorge mindern.
Zum anderen ist die Einführung von obligatorischen Zusatzbausteinen, wie sie auch von Expertinnen und Experten und Verbänden diskutiert wird (vgl. [2] und [4]), ein mögliches Werkzeug, um eine breitere Marktdurchdringung zu erreichen (siehe auch [19]) und die auf dem Umlageverfahren basierende SPV zu entlasten, was zu mehr Generationengerechtigkeit führen würde (siehe dazu auch [1] und [17]).
Ein weiterer Ansatz sind gezielte Informationskampagnen, um das Informationsdefizit und die Fehleinschätzung des Pflegerisikos zu beheben (vgl. [10]). Angesichts der dominierenden Rolle ökonomischer Faktoren in der vorliegenden Analyse ist es jedoch fraglich, ob Aufklärung allein die Nachfrage nennenswert steigern kann, wenn die finanzielle Machbarkeit das primäre Hindernis darstellt.
6. Fazit
Die vorliegende Studie auf Basis aller SOEP-Daten aus dem Jahr 2018 hat die zentralen Einflussgrößen für das Vorhandensein einer privaten Pflegezusatzversicherung in Deutschland identifiziert und quantifiziert. Die Analyse zeigt, dass – unter Berücksichtigung aller verfügbaren Merkmale im Datensatz – die Nachfrage nach dieser Absicherung überwiegend durch sozioökonomische Faktoren, insbesondere das Haushaltseinkommen und den Besitz von Wohneigentum, sowie durch den bereits bestehenden Status in der privaten Vorsorge geprägt ist. Entgegen den Befunden für andere Verhaltensweisen und Versicherungsformen zeigen einfache statistische Modelle wie die logistische Regression eine mit komplexen Machine-Learning-Modellen vergleichbare Vorhersageleistung. Dies deutet darauf hin, dass die zugrunde liegenden Mechanismen weniger komplex und nicht-linear sind als bei anderen ökonomischen Präferenzen (vgl. [12]).
Die geringe Marktdurchdringung der PPZV ist demnach nicht primär auf mangelnde Risikobereitschaft oder fehlende Informationen zurückzuführen, sondern ist das Ergebnis klarer Selektionsmechanismen, die zu einer Ungleichheit im Zugang zu privater Vorsorge führen. Die Befunde unterstreichen die Notwendigkeit von Reformen, die über freiwillige, statusgetriebene Ansätze hinausgehen, um die zukünftigen Herausforderungen der Pflegefinanzierung in Deutschland zu bewältigen. Nur durch eine gezielte Ansprache und Förderung einkommensschwächerer Gruppen kann eine breitere Verankerung der privaten Pflegevorsorge erreicht werden.




