blogg

Antag att du kör en direkt marknadsföringskampanj, där du försöker rikta medlemmar i din kundbas med ett erbjudande i hopp om att de kommer att svara och köpa en ny produkt eller prenumerera på en extra tjänst. Med hjälp av historiska data från en tidigare kampanj kan en prediktiv modell förutsäga sannolikheten för att varje kund svarar baserat på deras egenskaper och beteenden. (Se till exempel vårt tidigare blogginlägg om hur en logistisk regressionsmodell kan vara ett användbart verktyg för att förutsäga sannolikheten för ett binärt resultat.)

vilken avkastning får jag från att köra min marknadsföringskampanj?

i detta sammanhang vill vi förstå vilken nytta den prediktiva modellen kan erbjuda för att förutsäga vilka kunder som kommer att vara svarare jämfört med icke-svarare i en ny kampanj (jämfört med att rikta in dem slumpmässigt). Detta kan uppnås genom att undersöka de kumulativa vinster och lyft i samband med modellen, jämföra dess prestanda i inriktning responders med hur framgångsrika vi skulle vara utan det mervärde som erbjuds av modellen. Vi kan också använda samma information för att avgöra hur många bitar av direktreklam att skicka, balansera marknadsföringskostnaderna med den förväntade avkastningen från den resulterande försäljningen. Det finns en kostnad i samband med varje kund som du skickar och därför vill du maximera antalet svarande som du förvärvar för antalet utskick du skickar.

i den här bloggen beskriver vi de steg som krävs för att beräkna de kumulativa vinsterna och hissen i samband med en prediktiv klassificeringsmodell.

Decilgrupper

fortsätter med direktmarknadsföringsexemplet, med hjälp av den monterade modellen kan vi jämföra de observerade resultaten från den historiska marknadsföringskampanjen, dvs vem som svarade och vem inte, med de förutsagda sannolikheterna att svara för varje kund som kontaktades i den kampanjen. (Observera att vi i praktiken skulle passa modellen till en delmängd av våra data och använda denna modell för att förutsäga sannolikheten för att svara för varje kund i ett “hold-out” – prov för att få en mer exakt bedömning av hur modellen skulle fungera för nya kunder.)

vi sorterar först kunderna efter deras förutsagda sannolikheter, i minskande ordning från högsta (närmast en) till lägsta (närmast noll). Genom att dela upp kunderna i lika stora segment skapar vi grupper som innehåller samma antal kunder, till exempel 10 decilgrupper som vardera innehåller 10% av kundbasen. Så, de kunder som vi förutspår är mest benägna att svara är i decilgrupp 1, nästa mest sannolikt i decilgrupp 2, och så vidare. Genom att undersöka var och en av decilgrupperna kan vi ta fram en decilsammanfattning, som visas i Tabell 1, som sammanfattar antalet och proportionerna av kunder och respondenter i varje decil.

de historiska uppgifterna kan visa att totalt sett, och därför vid utskick av kundbasen slumpmässigt, svarar cirka 5% av kunderna (506 av 10 000 kunder). Så om du skickar 1 000 kunder förväntar du dig att se cirka 50 svarare. Men om vi tittar på de svarsfrekvenser som uppnåtts i var och en av decilgrupperna i Tabell 1 ser vi att de bästa grupperna har en högre svarsfrekvens än detta, de är våra bästa utsikter.

Decilgrupp förutsagt Sannolikhetsområde antal kunder kumulativt nr. av kunder kumulativ % av kunder svar-ers svarsfrekvens kumulativ Nej. av respondenterna kumulativ % av respondenterna lyft
1 0.129-1.000 1,000 1,000 10.0% 143 14.3% 143 28.3% 2.83
2 0.105-0.129 1,000 2,000 20.0% 118 11.8% 261 51.6% 2.58
3 0.073-0.105 1,000 3,000 30.0% 96 9.6% 357 70.6% 2.35
4 0.040-0.073 1,000 4,000 40.0% 51 5.1% 408 80.6% 2.02
5 0.025-0.040 1,000 5,000 50.0% 32 3.2% 440 87.0% 1.74
6 0.018-0.025 1,000 6,000 60.0% 19 1.9% 459 90.7% 1.51
7 0.015-0.018 1,000 7,000 70.0% 17 1.7% 476 94.1% 1.34
8 0.012-0.015 1,000 8,000 80.0% 14 1.4% 490 96.8% 1.21
9 0.006-0.012 1,000 9,000 90.0% 11 1.1% 501 99.0% 1.10
10 0.000-0.006 1,000 10,000 100.0% 5 0.5% 506 100.0% 1.00

Tabell 1: Decilsammanfattning

till exempel finner vi att i decilgrupp 1 var svarsfrekvensen 14,3% (det fanns 143 svarare av de 1 000 kunderna), jämfört med den totala svarsfrekvensen på 5,1%. Vi kan också visualisera resultaten från decilsammanfattningen i en vattenfallstomt, som visas i Figur 1. Detta illustrerar att alla kunder i decilgrupperna 1, 2 och 3 har en högre svarsfrekvens med hjälp av den prediktiva modellen.

Figur 1: Vattenfallstomt som visualiserar svarsfrekvensen för varje decilgrupp, jämfört med den totala svarsfrekvensen för hela kundbasen.

kumulativa vinster

från decilsammanfattningen kan vi också beräkna de kumulativa vinster som tillhandahålls av modellen. Vi jämför den kumulativa andelen kunder som svarar med den kumulativa andelen kunder som kontaktats i marknadsföringskampanjen över grupperna. Detta beskriver ‘vinsten’ i att rikta in sig på en viss procentandel av det totala antalet kunder som använder de högsta modellerade sannolikheterna för att svara, snarare än att rikta in dem slumpmässigt.

till exempel innehåller de 10% av kunderna med högst förutsagda sannolikheter (decile 1) cirka 28,3% av de svarande (143/506). Så, snarare än att fånga 10% av respondenterna, har vi hittat 28.3% av de svarande har skickat endast 10% av kundbasen. Inklusive ytterligare 10% av kunderna (deciles 1 och 2) finner vi att de 20% av kunderna innehåller cirka 51,6% av de svarande. Dessa siffror kan visas i en kumulativ vinster diagram, såsom visas i Figur 2.

Figur 2: kumulativa Vinstdiagram som jämför den kumulativa andelen svarande som uppnåtts jämfört med den kumulativa andelen kunder som kontaktats.

den streckade linjen i Figur 2 motsvarar “no gain”, dvs., vad vi förväntar oss att uppnå genom att kontakta kunder slumpmässigt. Ju närmare den kumulativa vinstlinjen är till det övre vänstra hörnet av diagrammet, desto större blir vinsten; ju högre andel av respondenterna som uppnås för den lägre andelen kunder som kontaktas.

beroende på kostnaderna för att skicka varje bit av direktreklam och de förväntade intäkterna från varje responder, den kumulativa vinster diagrammet kan användas för att besluta om det optimala antalet kunder att kontakta. Det kommer sannolikt att finnas en tipppunkt där vi har nått en tillräckligt hög andel svarare, och där kostnaderna för att kontakta en större andel kunder är för stora med tanke på den minskande avkastningen. Detta kommer i allmänhet att motsvara en utplattning av den kumulativa vinstkurvan, där ytterligare kontakter (motsvarande med ytterligare deciler) inte förväntas ge många ytterligare svarare. I praktiken kan man i stället för att gruppera kunder i deciler undersöka ett större antal grupper, vilket ger större flexibilitet i andelen kunder vi kan överväga att kontakta.

Lift

vi kan också titta på hissen uppnås genom att rikta ökande procentsatser av kundbasen, ordnade genom att minska sannolikheten. Hissen är helt enkelt förhållandet mellan andelen svarare som nås till andelen kunder som kontaktas.

så, en hiss på 1 motsvarar ingen vinst jämfört med att kontakta kunder slumpmässigt. Medan en hiss på 2 till exempel motsvarar att det är dubbelt så många svarare som uppnåtts jämfört med det antal du förväntar dig genom att kontakta samma antal kunder slumpmässigt. Så vi kanske bara har kontaktat 40% av kunderna, men vi kan ha nått 80% av svararna i kundbasen. Därför har vi fördubblat antalet svarare som nås genom att rikta in sig på denna grupp jämfört med att skicka ett slumpmässigt urval av kunder.

dessa siffror kan visas i en lyftkurva, som visas i Figur 3. Helst vill vi att lyftkurvan ska sträcka sig så högt som möjligt in i figurens övre vänstra hörn, vilket indikerar att vi har en stor hiss förknippad med att kontakta en liten andel kunder.

Figur 3: Lyftkurva som visar “hissen” i samband med utskick ökande procentsatser av den totala kundbasen, i termer av förhållandet mellan andelen svarande nått i förhållande till andelen kunder kontaktade.

i ett tidigare blogginlägg diskuterade vi hur ROC-kurvor kan användas för att bedöma hur bra en modell är att klassificera (dvs. förutsäga ett resultat). Förutom att förstå den prediktiva noggrannheten hos en modell som används för klassificering, kan det också vara till hjälp att förstå vilken fördel som erbjuds av modellen jämfört med att försöka identifiera ett resultat utan det.

kumulativa vinster och lyftkurvor är ett enkelt och användbart tillvägagångssätt för att förstå vilken avkastning du sannolikt kommer att få från att driva en marknadsföringskampanj och hur många kunder du ska kontakta, baserat på att rikta in de mest lovande kunderna med en prediktiv modell. Dessa metoder kan på samma sätt tillämpas i samband med att förutsäga vilka individer kommer standard på ett personligt lån för att avgöra vem som kan erbjudas ett kreditkort, till exempel. I detta fall är målet att minimera antalet personer som sannolikt kommer att fallera på lånet, samtidigt som man maximerar antalet kreditkort som erbjuds dem som inte kommer att fallera. Den prediktiva modellen kan i varje fall vara vilken som helst lämplig statistisk metod för att generera en sannolikhet för ett binärt resultat, till exempel en logistisk regressionsmodell, en slumpmässig skog eller ett neuralt nätverk.

Lämna ett svar

Din e-postadress kommer inte publiceras.