Blog

Antag, at du kører en direkte marketingkampagne, hvor du prøver at målrette medlemmer af din kundebase med et tilbud i håb om, at de vil svare og købe et nyt produkt eller abonnere på en ekstra service. Ved hjælp af historiske data fra en tidligere kampagne giver en forudsigelig model os mulighed for at forudsige sandsynligheden for, at hver kunde reagerer baseret på deres egenskaber og adfærd. (Se for eksempel vores tidligere blogindlæg om, hvordan en logistisk regressionsmodel kan være et nyttigt værktøj til at forudsige sandsynligheden for et binært resultat.)

hvilke afkast får jeg fra at køre min marketingkampagne?

i denne sammenhæng ønsker vi at forstå, hvilken fordel den forudsigelige model kan tilbyde ved at forudsige, hvilke kunder der vil være respondenter versus ikke-respondenter i en ny kampagne (sammenlignet med at målrette dem tilfældigt). Dette kan opnås ved at undersøge de kumulative gevinster og løft, der er forbundet med modellen, sammenligne dens ydeevne i målretning af respondenter med, hvor vellykket vi ville være uden den merværdi, som modellen tilbyder. Vi kan også bruge de samme oplysninger til at hjælpe med at beslutte, hvor mange stykker direct mail, der skal sendes, og afbalancere marketingomkostningerne med det forventede afkast fra det resulterende salg. Der er en omkostning forbundet med hver kunde, som du sender, og derfor vil du maksimere antallet af respondenter, som du erhverver for antallet af forsendelser, du sender.

i denne blog beskriver vi de trin, der kræves for at beregne de kumulative gevinster og løft, der er forbundet med en forudsigelig klassificeringsmodel.

Decile grupper

ved at fortsætte med eksemplet med direkte markedsføring kan vi ved hjælp af den tilpassede model sammenligne de observerede resultater fra den historiske marketingkampagne, dvs.hvem der svarede og hvem der ikke gjorde det, med de forudsagte sandsynligheder for at svare for hver kunde, der blev kontaktet i den kampagne. (Bemærk, at vi i praksis ville tilpasse modellen til en delmængde af vores data og bruge denne model til at forudsige sandsynligheden for at reagere for hver kunde i en “hold-out” – prøve for at få en mere nøjagtig vurdering af, hvordan modellen ville fungere for nye kunder.)

vi sorterer først kunderne efter deres forudsagte sandsynligheder i faldende rækkefølge fra højeste (tættest på en) til laveste (tættest på nul). Ved at opdele kunderne i segmenter af samme størrelse opretter vi grupper, der indeholder det samme antal kunder, for eksempel 10 decilgrupper, der hver indeholder 10% af kundegrundlaget. Så de kunder, som vi forudsiger mest sandsynligt svarer, er i decile group 1, Den næste mest sandsynlige i decile group 2 osv. Ved at undersøge hver af decilgrupperne kan vi udarbejde en deciloversigt, som vist i tabel 1, der opsummerer antallet og proportionerne af kunder og respondenter i hver decil.

de Historiske data kan vise, at Samlet set, og derfor når mailing kundegrundlaget tilfældigt, cirka 5% af kunderne reagerer (506 ud af 10.000 kunder). Så hvis du sender 1.000 kunder, forventer du at se omkring 50 respondenter. Men hvis vi ser på svarprocenterne opnået i hver af decilgrupperne i tabel 1, ser vi, at de øverste grupper har en højere svarprocent end dette, de er vores bedste udsigter.

Decilgruppe forudsagt Sandsynlighedsinterval antal kunder kumulativt nr. af kunder kumulativ % af kunder svar-ers svarprocent kumulativ nr. af respondenter kumulativ % af respondenter løft
1 0.129-1.000 1,000 1,000 10.0% 143 14.3% 143 28.3% 2.83
2 0.105-0.129 1,000 2,000 20.0% 118 11.8% 261 51.6% 2.58
3 0.073-0.105 1,000 3,000 30.0% 96 9.6% 357 70.6% 2.35
4 0.040-0.073 1,000 4,000 40.0% 51 5.1% 408 80.6% 2.02
5 0.025-0.040 1,000 5,000 50.0% 32 3.2% 440 87.0% 1.74
6 0.018-0.025 1,000 6,000 60.0% 19 1.9% 459 90.7% 1.51
7 0.015-0.018 1,000 7,000 70.0% 17 1.7% 476 94.1% 1.34
8 0.012-0.015 1,000 8,000 80.0% 14 1.4% 490 96.8% 1.21
9 0.006-0.012 1,000 9,000 90.0% 11 1.1% 501 99.0% 1.10
10 0.000-0.006 1,000 10,000 100.0% 5 0.5% 506 100.0% 1.00

tabel 1: Decile summary

for eksempel finder vi, at responsraten i decile group 1 var 14,3% (der var 143 respondenter ud af de 1.000 kunder) sammenlignet med den samlede responsrate på 5,1%. Vi kan også visualisere resultaterne fra deciloversigten i et vandfaldsplot, som vist i Figur 1. Dette illustrerer, at alle kunder i decile-gruppe 1, 2 og 3 har en højere svarprocent ved hjælp af den forudsigelige model.

Figur 1: Vandfaldsplot, der visualiserer svarprocenterne for hver decilgruppe sammenlignet med den samlede svarprocent på tværs af hele kundegrundlaget.

kumulative gevinster

fra decileoversigten kan vi også beregne de kumulative gevinster, der leveres af modellen. Vi sammenligner den kumulative procentdel af kunder, der er respondenter, med den kumulative procentdel af kunder, der kontaktes i marketingkampagnen på tværs af grupperne. Dette beskriver ‘gevinsten’ ved at målrette mod en given procentdel af det samlede antal kunder, der bruger de højeste modellerede sandsynligheder for at reagere, snarere end at målrette dem tilfældigt.

for eksempel indeholder de øverste 10% af kunder med de højeste forudsagte sandsynligheder (decile 1) cirka 28,3% af respondenterne (143/506). Så i stedet for at fange 10% af respondenterne har vi fundet 28.3% af respondenterne har kun sendt 10% af kundebasen. Inklusive yderligere 10% af kunderne (deciles 1 og 2) finder vi, at de øverste 20% af kunderne indeholder cirka 51,6% af respondenterne. Disse tal kan vises i en kumulativ gevinster diagram, som vist i figur 2.

figur 2: kumulativt Gevinstdiagram, der sammenligner den kumulative procentdel af respondenter nået versus den kumulative procentdel af kontaktede kunder.

den stiplede linje i figur 2 svarer til “ingen gevinst”, dvs., hvad vi ville forvente at opnå ved at kontakte kunder tilfældigt. Jo tættere den kumulative gevinstlinje er i øverste venstre hjørne af diagrammet, jo større gevinst; jo højere andel af respondenterne, der nås for den lavere andel af kontaktede kunder.

afhængigt af omkostningerne forbundet med at sende hvert stykke direct mail og de forventede indtægter fra hver responder, kan det kumulative gevinstdiagram bruges til at bestemme det optimale antal kunder, der skal kontaktes. Der vil sandsynligvis være et vendepunkt, hvor vi har nået en tilstrækkelig høj andel af respondenterne, og hvor omkostningerne ved at kontakte en større andel af kunderne er for store i betragtning af det faldende afkast. Dette svarer generelt til en udfladning af den kumulative gevinstkurve, hvor yderligere kontakter (svarende til yderligere deciler) ikke forventes at give mange yderligere respondenter. I praksis, snarere end at gruppere kunder i deciler, et større antal grupper kunne undersøges, hvilket giver større fleksibilitet i andelen af kunder, vi måske overvejer at kontakte.

Lift

vi kan også se på den lift, der opnås ved at målrette stigende procentdele af kundegrundlaget, ordnet efter faldende Sandsynlighed. Elevatoren er simpelthen forholdet mellem procentdelen af respondenter nået til procentdelen af kunder, der kontaktes.

så en lift på 1 svarer til ingen gevinst sammenlignet med at kontakte kunder tilfældigt. Mens en lift på 2 for eksempel svarer til, at der er dobbelt så mange respondenter nået sammenlignet med det antal, du forventer ved at kontakte det samme antal kunder tilfældigt. Så vi har muligvis kun kontaktet 40% af kunderne, men vi har muligvis nået 80% af respondenterne i kundebasen. Derfor har vi fordoblet antallet af respondenter, der er nået ved at målrette mod denne gruppe sammenlignet med at sende en tilfældig stikprøve af kunder.

disse tal kan vises i en løftekurve, som vist i figur 3. Ideelt set ønsker vi, at liftkurven skal strække sig så højt som muligt ind i figurens øverste venstre hjørne, hvilket indikerer, at vi har en stor lift forbundet med at kontakte en lille del af kunderne.

figur 3: Løftekurve, der viser “løft”, der er forbundet med mailing stigende procentdele af det samlede kundegrundlag, med hensyn til forholdet mellem procentdelen af respondenter nået i forhold til procentdelen af kontaktede kunder.

i et tidligere blogindlæg diskuterede vi, hvordan ROC-kurver kan bruges til at vurdere, hvor god en model er til klassificering (dvs., forudsige et resultat). Ud over at forstå den forudsigelige nøjagtighed af en model, der bruges til klassificering, kan det også være nyttigt at forstå, hvilken fordel modellen tilbyder sammenlignet med at forsøge at identificere et resultat uden det.

kumulative gevinster og løftekurver er en enkel og nyttig tilgang til at forstå, hvilket afkast du sandsynligvis får fra at køre en marketingkampagne, og hvor mange kunder du skal kontakte, baseret på at målrette mod de mest lovende kunder ved hjælp af en forudsigelig model. Disse tilgange kunne ligeledes anvendes i forbindelse med at forudsige, hvilke personer der vil misligholde et personligt lån for at afgøre, hvem der kunne tilbydes et kreditkort, for eksempel. I dette tilfælde er målet at minimere antallet af personer, der sandsynligvis vil misligholde lånet, samtidig med at man maksimerer antallet af kreditkort, der tilbydes dem, der ikke misligholder. Den forudsigelige model kan i hvert tilfælde være en hvilken som helst passende statistisk tilgang til generering af en sandsynlighed for et binært resultat, det være sig en logistisk regressionsmodel, en tilfældig skov eller et neuralt netværk, for eksempel.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.