Blog

stel dat u een direct marketingcampagne voert, waarbij u probeert leden van uw klantenbestand te targeten met een aanbod in de hoop dat ze zullen reageren en een nieuw product kopen of zich abonneren op een aanvullende dienst. Met behulp van historische gegevens van een vorige campagne, een voorspellend model stelt ons in staat om de waarschijnlijkheid van elke klant te voorspellen op basis van hun kenmerken en gedrag. (Zie bijvoorbeeld onze vorige blogpost over hoe een logistiek regressiemodel een nuttig hulpmiddel kan zijn om de waarschijnlijkheid van een binaire uitkomst te voorspellen.)

wat krijg ik van het uitvoeren van mijn marketingcampagne?

in deze context willen we begrijpen welk voordeel het voorspellende model kan bieden in het voorspellen van welke klanten responders versus non-responders zullen zijn in een nieuwe campagne (vergeleken met hen willekeurig targeting). Dit kan worden bereikt door de cumulatieve voordelen en lift die verbonden zijn aan het model te onderzoeken, en de prestaties in het richten van responders te vergelijken met hoe succesvol we zouden zijn zonder de toegevoegde waarde die het model biedt. We kunnen ook gebruik maken van dezelfde informatie om te helpen beslissen hoeveel stukken direct mail te verzenden, het balanceren van de marketingkosten met de verwachte opbrengsten van de resulterende verkoop. Er zijn kosten verbonden aan elke klant die u mailt en daarom wilt u het aantal respondenten dat u ontvangt maximaliseren voor het aantal mailings dat u verzendt.

in deze blog beschrijven we de stappen die nodig zijn om de cumulatieve winsten en lift te berekenen die geassocieerd zijn met een voorspellend Classificatiemodel.

deciel groepen

verdergaand met het direct marketing voorbeeld, met behulp van het passende model, kunnen we de waargenomen resultaten van de historische marketingcampagne, dat wil zeggen, wie reageerde en wie niet, vergelijken met de voorspelde kansen om te reageren voor elke klant die in die campagne werd gecontacteerd. (Merk op dat we in de praktijk het model zouden aanpassen aan een subset van onze gegevens en dit model gebruiken om de kans te voorspellen dat elke klant reageert in een “hold-out” – steekproef om een nauwkeuriger beoordeling te krijgen van hoe het model zou presteren voor nieuwe klanten.)

eerst Sorteren we de klanten op hun voorspelde waarschijnlijkheden, in afnemende volgorde van hoogste (het dichtst bij één) tot LAAGSTE (het dichtst bij nul). Door de klanten op te splitsen in segmenten van gelijke grootte, creëren we groepen met dezelfde aantallen klanten, bijvoorbeeld 10 decielgroepen die elk 10% van het klantenbestand bevatten. De klanten waarvan we voorspellen dat ze het meest zullen reageren, bevinden zich in deciel groep 1, de volgende in deciel groep 2, enzovoort. Als we elk van de decielgroepen onderzoeken, kunnen we een decieloverzicht produceren, zoals weergegeven in Tabel 1, waarin de aantallen en verhoudingen van klanten en responders in elk deciel worden samengevat.

uit de historische gegevens kan blijken dat over het geheel genomen, en dus bij het willekeurig mailen van het klantenbestand, ongeveer 5% van de klanten reageert (506 van de 10.000 klanten). Dus, als je mail 1.000 klanten je verwacht te zien rond 50 responders. Maar als we kijken naar de responspercentages die in elk van de decielgroepen in Tabel 1 worden bereikt, zien we dat de topgroepen een hoger responspercentage hebben dan dit, zij zijn onze beste vooruitzichten.

Decielgroep voorspelde waarschijnlijkheid Aantal gebruikers cumulatieve No. van klanten cumulatief % van klanten respondenten responspercentage cumulatieve No. van de respondenten cumulatief % van de respondenten Lift
1 0.129-1.000 1,000 1,000 10.0% 143 14.3% 143 28.3% 2.83
2 0.105-0.129 1,000 2,000 20.0% 118 11.8% 261 51.6% 2.58
3 0.073-0.105 1,000 3,000 30.0% 96 9.6% 357 70.6% 2.35
4 0.040-0.073 1,000 4,000 40.0% 51 5.1% 408 80.6% 2.02
5 0.025-0.040 1,000 5,000 50.0% 32 3.2% 440 87.0% 1.74
6 0.018-0.025 1,000 6,000 60.0% 19 1.9% 459 90.7% 1.51
7 0.015-0.018 1,000 7,000 70.0% 17 1.7% 476 94.1% 1.34
8 0.012-0.015 1,000 8,000 80.0% 14 1.4% 490 96.8% 1.21
9 0.006-0.012 1,000 9,000 90.0% 11 1.1% 501 99.0% 1.10
10 0.000-0.006 1,000 10,000 100.0% 5 0.5% 506 100.0% 1.00

Tabel 1: Deciel samenvatting

bijvoorbeeld, wij vinden dat in deciel groep 1 was de respons 14.3% (er waren 143 hulpverleners uit de 1.000 klanten), vergeleken met de totale respons van 5.1%. We kunnen ook de resultaten van de deciel samenvatting visualiseren in een watervalplot, zoals weergegeven in Figuur 1. Dit illustreert dat alle klanten in decielgroepen 1, 2 en 3 een hoger responspercentage hebben met behulp van het voorspellende model.

figuur 1: waterval plot visualiseren van de responspercentages in verband met elke deciel groep, vergeleken met de totale responspercentages over het gehele klantenbestand.

cumulatieve winsten

uit de deciel-samenvatting kunnen we ook de cumulatieve winsten berekenen die door het model worden verstrekt. We vergelijken het cumulatieve percentage van klanten die responders zijn met het cumulatieve percentage van klanten gecontacteerd in de marketingcampagne over de groepen. Dit beschrijft de’ winst ‘ in targeting een bepaald percentage van het totale aantal klanten met behulp van de hoogste gemodelleerde waarschijnlijkheid van reageren, in plaats van targeting hen op willekeurige.

bijvoorbeeld, de top 10% van de klanten met de hoogste voorspelde waarschijnlijkheden (deciel 1), bevatten ongeveer 28,3% van de responders (143/506). In plaats van 10% van de responders te vangen, hebben we er 28 gevonden.3% van de respondenten heeft slechts 10% van het klantenbestand gemaild. Inclusief nog eens 10% van de klanten (deciles 1 en 2), stellen we vast dat de top 20% van de klanten ongeveer 51,6% van de responders bevat. Deze cijfers kunnen worden weergegeven in een cumulatieve winst grafiek, zoals weergegeven in Figuur 2.

Figuur 2: cumulatieve winsten grafiek vergelijken van het cumulatieve percentage van responders bereikt versus het cumulatieve percentage van klanten gecontacteerd.

de stippellijn in Figuur 2 komt overeen met “No gain”, d.w.z., wat we zouden verwachten te bereiken door contact met klanten op willekeurige. Hoe dichter de cumulatieve winsten lijn is naar de linkerbovenhoek van de grafiek, hoe groter de winst; hoe hoger het aandeel van de responders die worden bereikt voor het lagere aandeel van klanten gecontacteerd.

afhankelijk van de kosten verbonden aan het verzenden van elk direct mailbericht en de verwachte inkomsten van elke responder, kan de cumulatieve winstgrafiek worden gebruikt om te beslissen over het optimale aantal klanten waarmee contact kan worden opgenomen. Er zal waarschijnlijk een kantelpunt zijn waarop we een voldoende hoog percentage respondenten hebben bereikt, en waar de kosten om contact op te nemen met een groter deel van de klanten te hoog zijn gezien het afnemende rendement. Dit komt over het algemeen overeen met een afvlakking van de cumulatieve winstcurve, waar verdere contacten (overeenkomend met extra decielen) naar verwachting niet veel extra responders zullen opleveren. In de praktijk zou in plaats van het groeperen van klanten in deciels een groter aantal groepen kunnen worden onderzocht, waardoor een grotere flexibiliteit mogelijk is in het aantal klanten dat we zouden kunnen contacteren.

Lift

we kunnen ook kijken naar de lift die wordt bereikt door zich te richten op toenemende percentages van het klantenbestand, geordend naar afnemende waarschijnlijkheid. De lift is gewoon de verhouding van het percentage respondenten bereikt tot het percentage klanten gecontacteerd.

een lift van 1 is dus gelijk aan geen winst in vergelijking met willekeurig contact met klanten. Terwijl een lift van 2, bijvoorbeeld, correspondeert met het feit dat er twee keer het aantal responders bereikt in vergelijking met het aantal dat u zou verwachten door contact op te nemen met hetzelfde aantal klanten in willekeurige volgorde. Dus, we hebben misschien slechts 40% van de klanten gecontacteerd, maar we kunnen 80% van de responders in het klantenbestand hebben bereikt. Daarom hebben we het aantal responders verdubbeld door deze groep te targeten in vergelijking met het versturen van een willekeurige steekproef van klanten.

deze cijfers kunnen worden weergegeven in een liftcurve, zoals weergegeven in Figuur 3. Idealiter willen we dat de liftkromme zo hoog mogelijk naar de linkerbovenhoek van de figuur reikt, wat aangeeft dat we een grote lift hebben die gepaard gaat met contact met een klein deel van de klanten.

Figuur 3: Liftcurve die de “lift” toont die gepaard gaat met mailing, stijgende percentages van het totale klantenbestand, in termen van de verhouding van het percentage respondenten dat wordt bereikt ten opzichte van het percentage gecontacteerde klanten.

in een vorige blogpost hebben we besproken hoe ROC-curves kunnen worden gebruikt bij het beoordelen hoe goed een model is in het classificeren (d.w.z. het voorspellen van een uitkomst). Naast het begrijpen van de voorspellende nauwkeurigheid van een model dat wordt gebruikt voor classificatie, kan het ook nuttig zijn om te begrijpen welk voordeel wordt geboden door het model in vergelijking met het proberen om een resultaat te identificeren zonder het.

cumulatieve winsten en liftcurves zijn een eenvoudige en nuttige benadering om te begrijpen welke opbrengsten u waarschijnlijk zult behalen uit het uitvoeren van een marketingcampagne en met hoeveel klanten u contact moet opnemen, gebaseerd op het targeten van de meest veelbelovende klanten met behulp van een voorspellend model. Deze benaderingen kunnen ook worden toegepast in de context van het voorspellen van welke personen in gebreke zullen blijven op een persoonlijke lening om te beslissen wie een kredietkaart zou kunnen worden aangeboden, bijvoorbeeld. In dit geval is het doel het aantal mensen dat waarschijnlijk in gebreke zal blijven op de lening tot een minimum te beperken, terwijl het aantal creditcards dat wordt aangeboden aan degenen die niet in gebreke zullen blijven, wordt gemaximaliseerd. Het voorspellende model kan in elk geval een geschikte statistische benadering zijn voor het genereren van een waarschijnlijkheid voor een binaire uitkomst, bijvoorbeeld een logistiek regressiemodel, een willekeurig forest of een neuraal netwerk.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.