Blogg

Anta at du kjører en direkte markedsføringskampanje, der du prøver å målrette medlemmer av kundebasen med et tilbud i håp om at de vil svare og kjøpe et nytt produkt eller abonnere på en tilleggstjeneste. Ved hjelp av historiske data fra en tidligere kampanje, gjør en prediktiv modell oss i stand til å forutsi sannsynligheten for at hver kunde svarer basert på deres egenskaper og atferd. (Se for eksempel vårt tidligere blogginnlegg om hvordan en logistisk regresjonsmodell kan være et nyttig verktøy for å forutsi sannsynligheten for et binært utfall.)

hvilken avkastning får jeg fra å kjøre markedsføringskampanjen min?

I denne sammenheng ønsker vi å forstå hvilken fordel den prediktive modellen kan tilby ved å forutsi hvilke kunder som vil være respondere mot ikke-respondere i en ny kampanje (sammenlignet med å målrette dem tilfeldig). Dette kan oppnås ved å undersøke kumulative gevinster og løft knyttet til modellen, sammenligne ytelsen i målrettingsresponsere med hvor vellykket vi ville være uten merverdien som tilbys av modellen. Vi kan også bruke den samme informasjonen til å bestemme hvor mange deler av direktereklame som skal sendes, og balansere markedsføringskostnadene med forventet avkastning fra det resulterende salget. Det er en kostnad knyttet til hver kunde som du sender og derfor du ønsker å maksimere antall respondenter som du kjøper for antall utsendelser du sender.

i denne bloggen beskriver vi trinnene som kreves for å beregne kumulative gevinster og løft knyttet til en prediktiv klassifiseringsmodell.

Decile Groups

Ved å fortsette med direkte markedsføring, kan vi ved hjelp av den tilpassede modellen sammenligne de observerte resultatene fra den historiske markedsføringskampanjen, dvs. hvem som svarte og hvem som ikke gjorde det, med de forventede sannsynlighetene for å svare for hver kunde kontaktet i den kampanjen. (Merk at vi i praksis vil tilpasse modellen til et delsett av dataene våre og bruke denne modellen til å forutsi sannsynligheten for å svare for hver kunde i en” hold-out ” – prøve for å få en mer nøyaktig vurdering av hvordan modellen vil utføre for nye kunder.)

vi sorterer først kundene etter deres forventede sannsynligheter, i synkende rekkefølge fra høyeste (nærmest en) til laveste (nærmest null). Dele kundene inn i like store segmenter, oppretter vi grupper som inneholder samme antall kunder, for eksempel 10 decile grupper hver inneholder 10% av kundebase. Så, de kundene som vi spår er mest sannsynlig å svare er i decile gruppe 1, den neste mest sannsynlig i decile gruppe 2, og så videre. Undersøke hver av de decile grupper, vi kan produsere en decile sammendrag, som vist i Tabell 1, oppsummerer tall og andeler av kunder og respondere i hver decile.

de historiske dataene kan vise at totalt, og derfor når du sender kundebasen tilfeldig, svarer omtrent 5% av kundene (506 av 10 000 kunder). Så, hvis du sender 1000 kunder forventer du å se rundt 50 respondere. Men hvis vi ser på responsratene oppnådd i Hver av de decile-gruppene I Tabell 1, ser vi at toppgruppene har en høyere responsrate enn dette, de er våre beste prospekter.

Decile Group Forventet Sannsynlighetsområde Antall Kunder Kumulativ Nr. Av Kunder Kumulativ % Av Kundene Svar-ers Svarprosent Kumulativ Nr. Av Respondenter Kumulativ % Av Respondenter Løft
1 0.129-1.000 1,000 1,000 10.0% 143 14.3% 143 28.3% 2.83
2 0.105-0.129 1,000 2,000 20.0% 118 11.8% 261 51.6% 2.58
3 0.073-0.105 1,000 3,000 30.0% 96 9.6% 357 70.6% 2.35
4 0.040-0.073 1,000 4,000 40.0% 51 5.1% 408 80.6% 2.02
5 0.025-0.040 1,000 5,000 50.0% 32 3.2% 440 87.0% 1.74
6 0.018-0.025 1,000 6,000 60.0% 19 1.9% 459 90.7% 1.51
7 0.015-0.018 1,000 7,000 70.0% 17 1.7% 476 94.1% 1.34
8 0.012-0.015 1,000 8,000 80.0% 14 1.4% 490 96.8% 1.21
9 0.006-0.012 1,000 9,000 90.0% 11 1.1% 501 99.0% 1.10
10 0.000-0.006 1,000 10,000 100.0% 5 0.5% 506 100.0% 1.00

Tabell 1: Decile summary

for eksempel finner vi at i decile gruppe 1 var responsraten 14,3% (det var 143 respondere av de 1000 kundene), sammenlignet med den totale responsraten på 5,1%. Vi kan også visualisere resultatene fra decile sammendraget i en foss tomt, som vist I Figur 1. Dette illustrerer at alle kundene i decile gruppe 1, 2 og 3 har en høyere responsrate ved hjelp av prediktiv modell.

Figur 1: Waterfall plot visualisere responsrater knyttet til hver decile gruppe, sammenlignet med den totale responsraten over hele kundebasen.

Kumulative Gevinster

fra decile-sammendraget kan vi også beregne kumulative gevinster gitt av modellen. Vi sammenligner den kumulative prosentandelen av kunder som svarer med den kumulative prosentandelen av kunder som er kontaktet i markedsføringskampanjen på tvers av gruppene. Dette beskriver gevinsten ved å målrette en gitt prosentandel av det totale antallet kunder som bruker de høyeste modellerte sannsynlighetene for å svare, i stedet for å målrette dem tilfeldig.

for eksempel inneholder de 10% av kundene med høyest forventede sannsynligheter (decile 1) omtrent 28,3% av responderne (143/506). Så, i stedet for å fange 10% av respondentene, har vi funnet 28.3% av respondentene har sendt bare 10% av kundebasen. Inkludert ytterligere 10% av kundene (deciles 1 og 2), finner vi at de øverste 20% av kundene inneholder omtrent 51,6% av respondentene. Disse tallene kan vises i et kumulativt gevinstdiagram, som vist i Figur 2.

Figur 2: Kumulative Gevinstdiagram som sammenligner den kumulative prosentandelen av respondenter som er nådd versus den kumulative prosentandelen av kunder som er kontaktet.

den stiplede linjen I Figur 2 tilsvarer “ingen gevinst”, dvs., hva vi forventer å oppnå ved å kontakte kunder tilfeldig. Jo nærmere den kumulative gevinstlinjen er til øverste venstre hjørne av diagrammet, jo større gevinst; jo høyere andel av respondentene som nås for den lavere andelen kunder kontaktet.

avhengig av kostnadene forbundet med å sende hver del av direktereklame og forventede inntekter fra hver responder, kan kumulative gevinster diagrammet brukes til å bestemme det optimale antall kunder å kontakte. Det vil trolig være et vippepunkt hvor vi har nådd en tilstrekkelig høy andel respondenter, og hvor kostnadene ved å kontakte en større andel kunder er for store gitt den avtagende avkastningen. Dette vil generelt korrespondere med en flattning av den kumulative gevinstkurven, hvor ytterligere kontakter (tilsvarende med ekstra desiler) ikke forventes å gi mange flere respondere. I praksis, i stedet for å gruppere kunder i desiler, kunne et større antall grupper undersøkes, noe som gir større fleksibilitet i andelen kunder vi kan vurdere å kontakte.

Løft

Vi kan også se på løftet som oppnås ved å målrette økende prosenter av kundebasen, sortert etter å redusere sannsynligheten. Heisen er rett og slett forholdet mellom prosentandelen av respondenter nådd til prosentandelen av kunder kontaktet.

så en løft på 1 tilsvarer ingen gevinst sammenlignet med å kontakte kunder tilfeldig. Mens en heis på 2, for eksempel, tilsvarer at det er dobbelt så mange respondenter som nås sammenlignet med nummeret du forventer ved å kontakte samme antall kunder tilfeldig. Så, vi har kanskje bare kontaktet 40% av kundene, men vi kan ha nådd 80% av respondentene i kundebasen. Derfor har vi doblet antall respondenter nådd ved å målrette denne gruppen sammenlignet med å sende et tilfeldig utvalg av kunder.

disse tallene kan vises i en løftekurve, som vist i Figur 3. Ideelt sett ønsker vi at løftekurven skal strekke seg så høyt som mulig inn i øverste venstre hjørne av figuren, noe som indikerer at vi har en stor heis forbundet med å kontakte en liten andel kunder.

Figur 3: Løftekurve som viser “løft” knyttet til utsendelse av økende prosenter av den totale kundebasen, i forhold til forholdet mellom prosentandelen av respondentene nådd i forhold til prosentandelen av kunder kontaktet.

i et tidligere blogginnlegg diskuterte VI hvordan ROC-kurver kan brukes til å vurdere hvor god en modell er til å klassifisere (dvs . forutsi et utfall). I tillegg til å forstå den prediktive nøyaktigheten til en modell som brukes til klassifisering, kan det også være nyttig å forstå hvilken fordel modellen tilbyr sammenlignet med å prøve å identifisere et utfall uten det.

Kumulative gevinster og løftekurver er en enkel og nyttig tilnærming for å forstå hvilken avkastning du sannsynligvis vil få fra å kjøre en markedsføringskampanje og hvor mange kunder du bør kontakte, basert på å målrette de mest lovende kundene ved hjelp av en prediktiv modell. Disse tilnærmingene kan også brukes i sammenheng med å forutsi hvilke personer som vil misligholde et personlig lån for å bestemme hvem som kan bli tilbudt et kredittkort, for eksempel. I dette tilfellet er målet å minimere antall personer som sannsynligvis vil misligholde lånet, samtidig som de maksimerer antall kredittkort som tilbys til de som ikke vil misligholde. Den prediktive modellen i hvert tilfelle kan være en hvilken som helst passende statistisk tilnærming for å generere en sannsynlighet for et binært utfall, for eksempel en logistisk regresjonsmodell, en tilfeldig skog eller et nevralt nettverk.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.