Blog

Załóżmy, że prowadzisz kampanię marketingu bezpośredniego, w której próbujesz kierować ofertę do członków swojej bazy klientów w nadziei, że odpowiedzą i kupią nowy produkt lub subskrybują dodatkową usługę. Wykorzystując dane historyczne z poprzedniej kampanii, model predykcyjny pozwala nam przewidzieć prawdopodobieństwo reakcji każdego klienta na podstawie jego cech i zachowań. (Zobacz na przykład nasz poprzedni post na blogu o tym, jak model regresji logistycznej może być użytecznym narzędziem do przewidywania prawdopodobieństwa wyniku binarnego.)

jakie korzyści otrzymam z prowadzenia kampanii marketingowej?

w tym kontekście chcemy zrozumieć, jakie korzyści może zaoferować model predykcyjny w przewidywaniu, którzy klienci będą reagować, a nie reagować w nowej kampanii (w porównaniu do kierowania ich losowo). Można to osiągnąć, analizując skumulowane zyski i wzrost związane z modelem, porównując jego wydajność w kierowaniu odpowiedzi na pytania z tym, jak skutecznie odnosilibyśmy sukcesy bez wartości dodanej oferowanej przez model. Możemy również użyć tych samych informacji, aby pomóc zdecydować, ile kawałków direct mail do wysłania, równoważąc koszty marketingowe z oczekiwanymi zwrotami z uzyskanej sprzedaży. Istnieje koszt związany z każdym klientem, który wysyłasz, a zatem chcesz zmaksymalizować liczbę respondentów, które pozyskujesz dla liczby wysyłanych wiadomości.

w tym blogu opisujemy kroki wymagane do obliczenia skumulowanych zysków i podnoszenia związanych z predykcyjnym modelem klasyfikacji.

grupy Decyle

kontynuując przykład marketingu bezpośredniego, korzystając z dopasowanego modelu możemy porównać zaobserwowane wyniki historycznej kampanii marketingowej, tj. kto odpowiedział, a kto nie, z przewidywanymi prawdopodobieństwami odpowiedzi dla każdego klienta, z którym skontaktowano się w tej kampanii. (Należy zauważyć, że w praktyce dopasowalibyśmy model do podzbioru naszych danych i wykorzystali ten model do przewidywania prawdopodobieństwa odpowiedzi dla każdego klienta w próbce “hold-out”, aby uzyskać dokładniejszą ocenę tego, jak model będzie działał dla nowych klientów.)

najpierw sortujemy klientów według przewidywanych prawdopodobieństw, w kolejności malejącej od najwyższego (najbliższego zeru) do najniższego (najbliższego zeru). Dzieląc klientów na segmenty o jednakowej wielkości, tworzymy grupy zawierające tę samą liczbę klientów, na przykład 10 grup decylowych, z których każda zawiera 10% bazy klientów. Tak więc, ci klienci, których przewidujemy, że najprawdopodobniej odpowiedzą, są w grupie decylowej 1, następny najprawdopodobniej w grupie decylowej 2 i tak dalej. Analizując każdą z grup decylowych, możemy sporządzić podsumowanie decylowe, jak pokazano w tabeli 1, podsumowując Liczby i proporcje klientów i osób odpowiedzialnych w każdym decylu.

dane historyczne mogą pokazać, że ogólnie, a zatem przy wysyłaniu wiadomości do bazy klientów losowo, około 5% klientów odpowiada (506 z 10 000 klientów). Tak więc, jeśli wyślesz 1000 klientów, spodziewasz się zobaczyć około 50 odpowiedzi. Ale jeśli przyjrzymy się wskaźnikom odpowiedzi osiągniętym w każdej z grup decylowych w tabeli 1, zobaczymy, że najwyższe grupy mają wyższy wskaźnik odpowiedzi niż ten, są one naszymi najlepszymi perspektywami.

Grupa Decylowa przewidywany zakres prawdopodobieństwa liczba przypadków niestandardowych Łączna liczba klientów skumulowany % klientów respondentów wskaźnik odpowiedzi skumulowana liczba liczba respondentów skumulowany % respondentów
1 0.129-1.000 1,000 1,000 10.0% 143 14.3% 143 28.3% 2.83
2 0.105-0.129 1,000 2,000 20.0% 118 11.8% 261 51.6% 2.58
3 0.073-0.105 1,000 3,000 30.0% 96 9.6% 357 70.6% 2.35
4 0.040-0.073 1,000 4,000 40.0% 51 5.1% 408 80.6% 2.02
5 0.025-0.040 1,000 5,000 50.0% 32 3.2% 440 87.0% 1.74
6 0.018-0.025 1,000 6,000 60.0% 19 1.9% 459 90.7% 1.51
7 0.015-0.018 1,000 7,000 70.0% 17 1.7% 476 94.1% 1.34
8 0.012-0.015 1,000 8,000 80.0% 14 1.4% 490 96.8% 1.21
9 0.006-0.012 1,000 9,000 90.0% 11 1.1% 501 99.0% 1.10
10 0.000-0.006 1,000 10,000 100.0% 5 0.5% 506 100.0% 1.00

Tabela 1: Podsumowanie Decylowe

na przykład w grupie decylowej 1 wskaźnik odpowiedzi wynosił 14,3% (na 1000 klientów było 143 pacjentów), w porównaniu z ogólnym wskaźnikiem odpowiedzi wynoszącym 5,1%. Możemy również zwizualizować wyniki z podsumowania decylowego na wykresie wodospadu, jak pokazano na rysunku 1. To pokazuje, że wszyscy klienci z grup decylowych 1, 2 i 3 mają wyższy wskaźnik odpowiedzi przy użyciu modelu predykcyjnego.

Rysunek 1: Wykres Waterfall przedstawiający wskaźniki odpowiedzi związane z każdą grupą decylową w porównaniu z ogólnym wskaźnikiem odpowiedzi w całej bazie klientów.

skumulowane zyski

na podstawie podsumowania decylowego możemy również obliczyć skumulowane zyski zapewnione przez model. Porównujemy skumulowany odsetek klientów, którzy odpowiadają, ze skumulowanym odsetkiem klientów, z którymi skontaktowano się w kampanii marketingowej w różnych grupach. Opisuje to “zysk” w kierowaniu na określony procent całkowitej liczby klientów, używając najwyższych wzorowanych prawdopodobieństw odpowiedzi, a nie kierując ich losowo.

na przykład 10% klientów z najwyższym przewidywanym prawdopodobieństwem (decyle 1) zawiera około 28,3% respondentów (143/506). Zamiast przechwycić 10% respondentów, znaleźliśmy 28.3% respondentów wysłało tylko 10% bazy klientów. W tym kolejnych 10% klientów (decyle 1 i 2), stwierdzamy, że top 20% klientów zawiera około 51,6% respondentów. Dane te mogą być wyświetlane na wykresie łącznych zysków, jak pokazano na rysunku 2.

Rysunek 2: Wykres skumulowanych zysków porównujący skumulowany odsetek respondentów osiągnięty w porównaniu z skumulowanym odsetkiem klientów, z którymi się skontaktowano.

przerywana linia na rysunku 2 odpowiada “no gain”, tzn., co możemy oczekiwać, aby osiągnąć kontaktując się z klientami w sposób losowy. Im bliżej linii skumulowanych zysków jest do lewego górnego rogu wykresu, tym większy zysk; im wyższy odsetek respondentów, którzy są osiągani, dla niższego odsetka klientów, z którymi się skontaktowano.

w zależności od kosztów związanych z wysyłaniem każdego kawałka direct mail i oczekiwanych przychodów od każdego respondenta, Wykres łącznych zysków może być użyty do podjęcia decyzji o optymalnej liczbie klientów do kontaktu. Prawdopodobnie dojdzie do punktu krytycznego, w którym osiągnęliśmy wystarczająco wysoki odsetek respondentów, a koszty skontaktowania się z większym odsetkiem klientów są zbyt duże, biorąc pod uwagę malejące zyski. Będzie to na ogół odpowiadać spłaszczaniu krzywej łącznych zysków, gdzie dalsze kontakty (odpowiadające dodatkowym decylom) nie powinny zapewniać wielu dodatkowych odpowiedzi. W praktyce, zamiast grupowania klientów w decyle, można by zbadać większą liczbę grup, umożliwiając większą elastyczność w proporcji klientów, z którymi możemy się skontaktować.

Lift

możemy również przyjrzeć się liftingowi uzyskanemu poprzez ukierunkowanie na rosnący odsetek klientów, uporządkowany według malejącego prawdopodobieństwa. Podnośnik jest po prostu stosunkiem odsetka respondentów osiągniętych do odsetka klientów, z którymi się skontaktowano.

tak więc podniesienie o 1 jest równoznaczne z brakiem zysku w porównaniu z przypadkowym kontaktem z klientami. Podczas gdy podniesienie liczby 2, na przykład, odpowiada dwukrotności liczby respondentów osiągniętych w porównaniu z liczbą, której można oczekiwać, kontaktując się z tą samą liczbą klientów losowo. Tak więc skontaktowaliśmy się tylko z 40% klientów, ale mogliśmy dotrzeć do 80% respondentów w bazie klientów. Dlatego podwoiliśmy liczbę respondentów, do których dotarliśmy, kierując tę grupę w porównaniu z wysyłaniem losowej próbki klientów.

liczby te mogą być wyświetlane w krzywej podnoszenia, jak pokazano na rysunku 3. Idealnie, chcemy, aby krzywa podnoszenia rozciągała się jak najwyżej w lewym górnym rogu rysunku, wskazując, że mamy dużą windę związaną z kontaktem z niewielką odsetką klientów.

Rysunek 3: Krzywa Lift pokazująca “lift” związany z mailingiem zwiększający odsetek całkowitej bazy klientów, pod względem stosunku odsetka respondentów osiągniętych w stosunku do odsetka klientów, z którymi się skontaktowano.

w poprzednim poście na blogu omówiliśmy, w jaki sposób krzywe ROC mogą być używane do oceny, jak dobry jest model w klasyfikacji (tj., przewidywanie wyniku). Oprócz zrozumienia predykcyjnej dokładności modelu używanego do klasyfikacji, pomocne może być również zrozumienie, jakie korzyści oferuje model w porównaniu z próbą zidentyfikowania wyniku bez niego.

skumulowane zyski i krzywe podnoszenia są prostym i użytecznym podejściem, aby zrozumieć, jakie zyski możesz uzyskać z prowadzenia kampanii marketingowej i z iloma klientami powinieneś się skontaktować, w oparciu o kierowanie najbardziej obiecujących klientów za pomocą modelu predykcyjnego. Podejścia te można by również zastosować w kontekście przewidywania, które osoby nie spłacą kredytu osobistego, aby zdecydować, komu można na przykład zaoferować kartę kredytową. W tym przypadku celem jest zminimalizowanie liczby osób, które mogą nie skorzystać z kredytu, przy jednoczesnym maksymalizacji liczby kart kredytowych oferowanych tym, którzy nie skorzystają z kredytu. Model predykcyjny w każdym przypadku może być dowolnym odpowiednim podejściem statystycznym do generowania prawdopodobieństwa dla wyniku binarnego, na przykład modelu regresji logistycznej, losowego lasu lub sieci neuronowej.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.