Statistische Gütemaße
Ist die Entscheidungsgrenze wirklich gut gewählt?
Zur Beantwortung dieser Frage und zur Validierung des Kreditvergabesystems werden wir den Gesamtprofit sowie verschiedene statische Gütemaße nutzen.
Die Entscheidungsgrenze nutzen wir zur Vorhersage. Hat eine Person einen Kreditscore größer oder gleich unserer Entscheidungsgrenze, so sagen wir voraus, dass diese Person den Kredit zurückzahlen wird. Bei einem Kreditscore kleiner als unsere Entscheidungsgrenze sagen wir voraus, dass diese Person den Kredit nicht zurückzahlen wird. Die Entscheidungsgrenze wurde zunächst fest auf 70 gesetzt. Für alle Personen mit einem Score größer oder gleich 70 gehen wir davon aus, dass sie den Kredit zurückzahlen werden (Vorhersage: zahlt zurück). Für alle Personen mit einem Score unter 70 gehen wir davon aus, dass sie den Kredit nicht zurückzahlen werden (Vorhersage: zahlt nicht zurück). Diese Vorhersagen können wir nun mit den vorliegenden Daten vergleichen.
Erinnerung: Wir arbeiten mit Daten von Personen, bei denen bekannt ist, ob sie ihren Kredit in der Vergangenheit zurückgezahlt haben (Daten: zahlt zurück oder Daten: zahlt nicht zurück) und nutzen dies zum Abgleich mit unserer Vorhersage.
Die Konfusionsmatrix
Die Anzahl der richtigen und falschen Vorhersagen für beide Personengruppen (“zahlt zurück” und “zahlt nicht zurück”) sind in der folgenden Tabelle dargestellt. Diese Tabelle wird auch als Konfusionsmatrix bezeichnet.
Bewertung des Entscheidungsmodells
Es gibt verschiedene Gütemaße, die wir zur Bewertung unseres Modells verwenden können:
- Genauigkeit: Die Genauigkeit gibt den prozentualen Anteil der richtigen Vorhersagen an der Gesamtzahl aller Datenpunkte an.
- Positivrate: Die Positivrate gibt den prozentualen Anteil der positiven Vorhersagen (Vorhersage: zahlt zurück) an der Gesamtzahl aller Datenpunkte an.
- Richtig-positiv-Rate: Die Richtig-positiv-Rate gibt den prozentualen Anteil der richtig positiven Vorhersagen (richtig als "zahlt zurück" vorhergesagt) an der Anzahl aller tatsächlich positiven Datenpunkte (Daten: zahlt zurück) an.
- Gewinn: Erzielter Gesamtgewinn der Bank (Erinnerung: die Bank erhält 300€ für jeden zurückgezahlten Kredit und verliert 700€ für jeden nicht zurückgezahlten Kredit).