Blog

Angenommen, Sie führen eine Direktmarketingkampagne durch, bei der Sie versuchen, Mitglieder Ihres Kundenstamms mit einem Angebot anzusprechen, in der Hoffnung, dass sie antworten und ein neues Produkt kaufen oder einen zusätzlichen Service abonnieren. Mithilfe historischer Daten aus einer früheren Kampagne können wir mithilfe eines Vorhersagemodells die Wahrscheinlichkeit vorhersagen, mit der jeder Kunde auf der Grundlage seiner Merkmale und Verhaltensweisen reagiert. (Siehe zum Beispiel unseren vorherigen Blogbeitrag darüber, wie ein logistisches Regressionsmodell ein nützliches Werkzeug zur Vorhersage der Wahrscheinlichkeit eines binären Ergebnisses sein kann.)

Welche Rendite erhalte ich durch die Durchführung meiner Marketingkampagne?

In diesem Zusammenhang möchten wir verstehen, welchen Nutzen das Vorhersagemodell bei der Vorhersage bieten kann, welche Kunden in einer neuen Kampagne Responder im Vergleich zu Non-Respondern sein werden (im Vergleich zum zufälligen Targeting). Dies kann erreicht werden, indem die mit dem Modell verbundenen kumulativen Gewinne und Verluste untersucht und seine Leistung bei der Ausrichtung auf Responder mit dem Erfolg verglichen werden, den wir ohne den Mehrwert des Modells erzielen würden. Wir können die gleichen Informationen auch verwenden, um zu entscheiden, wie viele Direktmailings gesendet werden sollen, und die Marketingkosten mit den erwarteten Erträgen aus den resultierenden Verkäufen in Einklang bringen. Daher möchten Sie die Anzahl der Befragten, die Sie für die Anzahl der von Ihnen gesendeten Mailings gewinnen, maximieren.

In diesem Blog beschreiben wir die Schritte, die erforderlich sind, um die kumulativen Gewinne und Verluste zu berechnen, die mit einem prädiktiven Klassifizierungsmodell verbunden sind.

Dezilgruppen

In Fortsetzung des Direktmarketing-Beispiels können wir mithilfe des angepassten Modells die beobachteten Ergebnisse der historischen Marketingkampagne, d. H. Wer geantwortet hat und wer nicht, mit den vorhergesagten Antwortwahrscheinlichkeiten für jeden in dieser Kampagne kontaktierten Kunden vergleichen. (Beachten Sie, dass wir das Modell in der Praxis an eine Teilmenge unserer Daten anpassen und dieses Modell verwenden würden, um die Wahrscheinlichkeit einer Reaktion für jeden Kunden in einer “Hold-out” -Stichprobe vorherzusagen, um eine genauere Einschätzung der Leistung des Modells zu erhalten für neue Kunden.)

Wir sortieren die Kunden zunächst nach ihren vorhergesagten Wahrscheinlichkeiten in absteigender Reihenfolge von der höchsten (am nächsten zu eins) zur niedrigsten (am nächsten zu Null). Wenn wir die Kunden in gleich große Segmente aufteilen, erstellen wir Gruppen mit der gleichen Anzahl von Kunden, z. B. 10 Dezilgruppen mit jeweils 10% des Kundenstamms. Die Kunden, von denen wir vorhersagen, dass sie am wahrscheinlichsten antworten, befinden sich in der Dezilgruppe 1, die nächstwahrscheinlichsten in der Dezilgruppe 2 und so weiter. Wenn wir jede der Dezilgruppen untersuchen, können wir eine Dezilzusammenfassung erstellen, wie in Tabelle 1 gezeigt, in der die Anzahl und der Anteil der Kunden und Responder in jedem Dezil zusammengefasst sind.

Die historischen Daten können zeigen, dass insgesamt und daher bei zufälliger Zusendung des Kundenstamms ungefähr 5% der Kunden antworten (506 von 10.000 Kunden). Wenn Sie also 1.000 Kunden mailen, erwarten Sie rund 50 Responder. Wenn wir uns jedoch die Rücklaufquoten ansehen, die in jeder der Dezilgruppen in Tabelle 1 erreicht wurden, sehen wir, dass die Spitzengruppen eine höhere Rücklaufquote haben, sie sind unsere besten Aussichten.

Dezilgruppe Vorhergesagter Wahrscheinlichkeitsbereich Anzahl der Kunden Kumulierte Nr. der Kunden Kumuliert % der Kunden Befragte Rücklaufquote Kumuliert Nr. der Befragten Kumuliert % der Befragten Aufzug
1 0.129-1.000 1,000 1,000 10.0% 143 14.3% 143 28.3% 2.83
2 0.105-0.129 1,000 2,000 20.0% 118 11.8% 261 51.6% 2.58
3 0.073-0.105 1,000 3,000 30.0% 96 9.6% 357 70.6% 2.35
4 0.040-0.073 1,000 4,000 40.0% 51 5.1% 408 80.6% 2.02
5 0.025-0.040 1,000 5,000 50.0% 32 3.2% 440 87.0% 1.74
6 0.018-0.025 1,000 6,000 60.0% 19 1.9% 459 90.7% 1.51
7 0.015-0.018 1,000 7,000 70.0% 17 1.7% 476 94.1% 1.34
8 0.012-0.015 1,000 8,000 80.0% 14 1.4% 490 96.8% 1.21
9 0.006-0.012 1,000 9,000 90.0% 11 1.1% 501 99.0% 1.10
10 0.000-0.006 1,000 10,000 100.0% 5 0.5% 506 100.0% 1.00

Tabelle 1: Decile summary

Zum Beispiel finden wir, dass in der Decile-Gruppe 1 die Rücklaufquote 14,3% betrug (es gab 143 Responder von den 1.000 Kunden), verglichen mit der Gesamtanlaufquote von 5,1%. Wir können die Ergebnisse der Dezil-Zusammenfassung auch in einem Wasserfalldiagramm visualisieren, wie in Abbildung 1 gezeigt. Dies zeigt, dass alle Kunden in den Dezilgruppen 1, 2 und 3 unter Verwendung des Vorhersagemodells eine höhere Rücklaufquote aufweisen.

Abbildung 1: Wasserfalldiagramm zur Visualisierung der Rücklaufquoten für jede Dezilergruppe im Vergleich zur Gesamtrücklaufquote für den gesamten Kundenstamm.

Kumulative Gewinne

Aus der Dezilzusammenfassung können wir auch die kumulativen Gewinne berechnen, die das Modell liefert. Wir vergleichen den kumulierten Prozentsatz der Kunden, die Responder sind, mit dem kumulierten Prozentsatz der Kunden, die in der Marketingkampagne über die Gruppen hinweg kontaktiert wurden. Dies beschreibt den ‘Gewinn’ bei der Ausrichtung auf einen bestimmten Prozentsatz der Gesamtzahl der Kunden unter Verwendung der höchsten modellierten Antwortwahrscheinlichkeiten, anstatt sie zufällig anzusprechen.

Zum Beispiel enthalten die obersten 10% der Kunden mit den höchsten vorhergesagten Wahrscheinlichkeiten (Dezil 1) ungefähr 28,3% der Responder (143/506). Anstatt also 10% der Responder zu erfassen, haben wir 28 gefunden.3% der Responder haben nur 10% des Kundenstamms verschickt. Einschließlich weiterer 10% der Kunden (Dezile 1 und 2) stellen wir fest, dass die obersten 20% der Kunden ungefähr 51.6% der Responder enthalten. Diese Zahlen können in einem Diagramm für kumulierte Gewinne angezeigt werden, wie in Abbildung 2 gezeigt.

Abbildung 2: Diagramm der kumulierten Gewinne, in dem der kumulierte Prozentsatz der erreichten Responder mit dem kumulierten Prozentsatz der kontaktierten Kunden verglichen wird.

Die gestrichelte Linie in Abbildung 2 entspricht “keine Verstärkung”, d.h., was wir erwarten würden, zu erzielen, indem wir Kunden zufällig in Verbindung treten. Je näher die kumulierte Gewinnlinie an der oberen linken Ecke des Diagramms liegt, desto größer ist der Gewinn; Je höher der Anteil der Responder, die für den niedrigeren Anteil der kontaktierten Kunden erreicht werden.

Abhängig von den Kosten, die mit dem Versenden jeder Direktwerbung verbunden sind, und den erwarteten Einnahmen jedes Responders kann das kumulative Gewinndiagramm verwendet werden, um die optimale Anzahl von Kunden zu bestimmen, die kontaktiert werden sollen. Es wird wahrscheinlich einen Wendepunkt geben, an dem wir einen ausreichend hohen Anteil an Respondern erreicht haben und an dem die Kosten für die Kontaktaufnahme mit einem größeren Anteil von Kunden angesichts der sinkenden Renditen zu hoch sind. Dies entspricht im Allgemeinen einer Abflachung der kumulativen Gewinnkurve, wobei von weiteren Kontakten (entsprechend zusätzlichen Dezilen) nicht erwartet wird, dass sie viele zusätzliche Responder liefern. In der Praxis, anstatt Kunden in Dezile zu gruppieren, Eine größere Anzahl von Gruppen könnte untersucht werden, Dies ermöglicht eine größere Flexibilität beim Anteil der Kunden, die wir in Betracht ziehen könnten, Kontakt aufzunehmen.

Lift

Wir können uns auch den Lift ansehen, der erreicht wird, indem wir auf steigende Prozentsätze des Kundenstamms abzielen, geordnet nach abnehmender Wahrscheinlichkeit. Der Lift ist einfach das Verhältnis des Prozentsatzes der erreichten Responder zum Prozentsatz der kontaktierten Kunden.

Ein Lift von 1 entspricht also keinem Gewinn im Vergleich zur zufälligen Kontaktaufnahme mit Kunden. Während ein Lift von 2 beispielsweise der doppelten Anzahl der erreichten Responder entspricht, verglichen mit der Anzahl, die Sie erwarten würden, wenn Sie dieselbe Anzahl von Kunden zufällig kontaktieren. Wir haben also möglicherweise nur 40% der Kunden kontaktiert, aber möglicherweise 80% der Responder im Kundenstamm erreicht. Daher haben wir die Anzahl der Responder, die durch die Ausrichtung auf diese Gruppe erreicht wurden, im Vergleich zum Versenden einer Zufallsstichprobe von Kunden verdoppelt.

Diese Werte können in einer Auftriebskurve angezeigt werden, wie in Abbildung 3 dargestellt. Im Idealfall möchten wir, dass sich die Liftkurve so hoch wie möglich in die obere linke Ecke der Abbildung erstreckt, was darauf hinweist, dass mit der Kontaktaufnahme mit einem kleinen Teil der Kunden ein großer Lift verbunden ist.

Abbildung 3: Liftkurve, die den “Lift” zeigt, der mit den steigenden Prozentsätzen des gesamten Kundenstamms verbunden ist, in Bezug auf das Verhältnis des Prozentsatzes der erreichten Befragten zum Prozentsatz der kontaktierten Kunden.

In einem früheren Blogbeitrag haben wir diskutiert, wie ROC-Kurven verwendet werden können, um zu beurteilen, wie gut ein Modell klassifizieren kann (z. Vorhersage eines Ergebnisses). Neben dem Verständnis der Vorhersagegenauigkeit eines Modells, das für die Klassifizierung verwendet wird, kann es auch hilfreich sein zu verstehen, welchen Nutzen das Modell bietet, verglichen mit dem Versuch, ein Ergebnis ohne es zu identifizieren.

Kumulative Gewinn- und Hebekurven sind ein einfacher und nützlicher Ansatz, um zu verstehen, welche Renditen Sie wahrscheinlich durch die Durchführung einer Marketingkampagne erzielen und wie viele Kunden Sie kontaktieren sollten, basierend auf der Ausrichtung auf die vielversprechendsten Kunden mithilfe eines Vorhersagemodells. Diese Ansätze könnten in ähnlicher Weise im Zusammenhang mit der Vorhersage angewendet werden, welche Personen bei einem Privatkredit in Verzug geraten, um beispielsweise zu entscheiden, wem eine Kreditkarte angeboten werden könnte. In diesem Fall besteht das Ziel darin, die Anzahl der Personen zu minimieren, die wahrscheinlich mit dem Darlehen in Verzug geraten, und gleichzeitig die Anzahl der Kreditkarten zu maximieren, die denjenigen angeboten werden, die nicht in Verzug geraten. Das Vorhersagemodell könnte jeweils ein beliebiger geeigneter statistischer Ansatz zur Erzeugung einer Wahrscheinlichkeit für ein binäres Ergebnis sein, sei es beispielsweise ein logistisches Regressionsmodell, ein Random Forest oder ein neuronales Netzwerk.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.