Blog

Supongamos que está ejecutando una campaña de marketing directo, en la que está tratando de dirigirse a los miembros de su base de clientes con una oferta con la esperanza de que respondan y compren un nuevo producto o se suscriban a un servicio adicional. Utilizando datos históricos de una campaña anterior, un modelo predictivo nos permite predecir la probabilidad de que cada cliente responda en función de sus características y comportamientos. (Vea, por ejemplo, nuestra entrada de blog anterior sobre cómo un modelo de regresión logística puede ser una herramienta útil para predecir la probabilidad de un resultado binario.)

¿Qué beneficios obtendré al ejecutar mi campaña de marketing?

En este contexto, queremos comprender qué beneficio puede ofrecer el modelo predictivo para predecir qué clientes serán respondedores frente a no respondedores en una nueva campaña (en comparación con dirigirlos al azar). Esto se puede lograr examinando las ganancias acumuladas y la elevación asociadas con el modelo, comparando su rendimiento en la segmentación de respondedores con el éxito que tendríamos sin el valor agregado que ofrece el modelo. También podemos utilizar la misma información para ayudar a decidir cuántas piezas de correo directo enviar, equilibrando los costos de marketing con los rendimientos esperados de las ventas resultantes. Hay un costo asociado con cada cliente que envías y, por lo tanto, deseas maximizar el número de encuestados que adquieres por el número de correos que envías.

En este blog, describimos los pasos necesarios para calcular las ganancias acumuladas y la elevación asociadas con un modelo de clasificación predictiva.

Grupos de Deciles

Continuando con el ejemplo de marketing directo, utilizando el modelo ajustado, podemos comparar los resultados observados de la campaña de marketing histórica, es decir, quién respondió y quién no, con las probabilidades de respuesta previstas para cada cliente contactado en esa campaña. (Tenga en cuenta que, en la práctica, ajustaríamos el modelo a un subconjunto de nuestros datos y lo utilizaríamos para predecir la probabilidad de respuesta de cada cliente en una muestra de “espera” para obtener una evaluación más precisa de cómo funcionaría el modelo para los nuevos clientes.)

Primero clasificamos a los clientes por sus probabilidades previstas, en orden decreciente de mayor (más cercano a uno) a menor (más cercano a cero). Dividiendo a los clientes en segmentos de igual tamaño, creamos grupos que contienen el mismo número de clientes, por ejemplo, grupos de 10 deciles que contienen cada uno el 10% de la base de clientes. Por lo tanto, los clientes que predecimos que tienen más probabilidades de responder están en el grupo decil 1, el siguiente más probable en el grupo decil 2, y así sucesivamente. Al examinar cada uno de los grupos de deciles, podemos producir un resumen de deciles, como se muestra en la Tabla 1, que resume el número y las proporciones de clientes y respondedores en cada decile.

Los datos históricos pueden mostrar que, en general, y por lo tanto, cuando se envía por correo a la base de clientes al azar, aproximadamente el 5% de los clientes responden (506 de cada 10.000 clientes). Por lo tanto, si envía por correo a 1,000 clientes, espera ver alrededor de 50 respondedores. Pero, si nos fijamos en las tasas de respuesta alcanzadas en cada uno de los grupos de deciles de la Tabla 1, vemos que los grupos principales tienen una tasa de respuesta más alta que esta, son nuestras mejores perspectivas.

Grupo Decil Rango de probabilidad predicho Número de Custom personalizados No acumulativo. de Clientes % acumulado de Clientes Responden-ers Tasa de respuesta No acumulado. de Respuesta – % acumulado de Respuesta-Lift Elevación
1 0.129-1.000 1,000 1,000 10.0% 143 14.3% 143 28.3% 2.83
2 0.105-0.129 1,000 2,000 20.0% 118 11.8% 261 51.6% 2.58
3 0.073-0.105 1,000 3,000 30.0% 96 9.6% 357 70.6% 2.35
4 0.040-0.073 1,000 4,000 40.0% 51 5.1% 408 80.6% 2.02
5 0.025-0.040 1,000 5,000 50.0% 32 3.2% 440 87.0% 1.74
6 0.018-0.025 1,000 6,000 60.0% 19 1.9% 459 90.7% 1.51
7 0.015-0.018 1,000 7,000 70.0% 17 1.7% 476 94.1% 1.34
8 0.012-0.015 1,000 8,000 80.0% 14 1.4% 490 96.8% 1.21
9 0.006-0.012 1,000 9,000 90.0% 11 1.1% 501 99.0% 1.10
10 0.000-0.006 1,000 10,000 100.0% 5 0.5% 506 100.0% 1.00

Tabla 1: Resumen de deciles

Por ejemplo, encontramos que en el grupo deciles 1 la tasa de respuesta fue del 14,3% (hubo 143 respondedores de los 1.000 clientes), en comparación con la tasa de respuesta global del 5,1%. También podemos visualizar los resultados del resumen de deciles en una gráfica de cascada, como se muestra en la Figura 1. Esto ilustra que todos los clientes de los grupos deciles 1, 2 y 3 tienen una tasa de respuesta más alta utilizando el modelo predictivo.

Figura 1: Gráfico de cascada que visualiza las tasas de respuesta asociadas con cada grupo de deciles, en comparación con la tasa de respuesta general en toda la base de clientes.

Ganancias acumulativas

A partir del resumen de deciles, también podemos calcular las ganancias acumulativas proporcionadas por el modelo. Comparamos el porcentaje acumulado de clientes que son respondedores con el porcentaje acumulado de clientes contactados en la campaña de marketing en todos los grupos. Esto describe la “ganancia” en la segmentación de un porcentaje determinado del número total de clientes que utilizan las probabilidades de respuesta modeladas más altas, en lugar de segmentarlos al azar.

Por ejemplo, el 10% de los clientes con mayores probabilidades previstas (decil 1), contiene aproximadamente el 28,3% de los respondedores (143/506). Así que, en lugar de capturar el 10% de los respondedores, hemos encontrado 28.el 3% de los respondedores envió solo el 10% de la base de clientes. Incluyendo un 10% adicional de clientes (deciles 1 y 2), encontramos que el 20% superior de clientes contiene aproximadamente el 51,6% de los respondedores. Estas cifras se pueden mostrar en un gráfico de ganancias acumuladas, como se muestra en la Figura 2.

Figura 2: Gráfico de Ganancias acumuladas que compara el porcentaje acumulado de respondedores alcanzado con el porcentaje acumulado de clientes contactados.

La línea discontinua de la Figura 2 corresponde a “sin ganancia”, p. ej., lo que esperaríamos lograr contactando a los clientes al azar. Cuanto más cerca esté la línea de ganancias acumuladas de la esquina superior izquierda del gráfico, mayor será la ganancia; mayor será la proporción de respondedores que se alcanzan para la menor proporción de clientes contactados.

Dependiendo de los costos asociados con el envío de cada correo directo y los ingresos esperados de cada respondedor, el gráfico de ganancias acumuladas se puede usar para decidir el número óptimo de clientes a contactar. Es probable que haya un punto de inflexión en el que hayamos alcanzado una proporción suficientemente alta de respondedores, y en el que los costos de contactar a una mayor proporción de clientes sean demasiado grandes dados los rendimientos decrecientes. Esto generalmente se corresponderá con un aplanamiento de la curva de ganancias acumulativas, donde no se espera que los contactos adicionales (que corresponden con deciles adicionales) proporcionen muchos respondedores adicionales. En la práctica, en lugar de agrupar a los clientes en deciles, se podría examinar un mayor número de grupos, lo que permitiría una mayor flexibilidad en la proporción de clientes con los que podríamos considerar contactar.

Ascensor

También podemos ver el ascensor logrado dirigiéndonos a porcentajes crecientes de la base de clientes, ordenados por probabilidad decreciente. El ascensor es simplemente el cociente del porcentaje de respondedores alcanzado el porcentaje de clientes contactados.

Por lo tanto, una elevación de 1 es equivalente a ninguna ganancia en comparación con ponerse en contacto con los clientes al azar. Mientras que un ascensor de 2, por ejemplo, corresponde a que se alcance el doble del número de respondedores en comparación con el número que esperarías al contactar con el mismo número de clientes al azar. Por lo tanto, es posible que solo hayamos contactado al 40% de los clientes, pero es posible que hayamos llegado al 80% de los respondedores de la base de clientes. Por lo tanto, hemos duplicado el número de respondedores al dirigirse a este grupo en comparación con el envío de una muestra aleatoria de clientes.

Estas figuras se pueden mostrar en una curva de elevación, como se muestra en la Figura 3. Idealmente, queremos que la curva de elevación se extienda lo más alto posible en la esquina superior izquierda de la figura, lo que indica que tenemos una gran elevación asociada con el contacto con una pequeña proporción de clientes.

Figura 3: Curva de elevación que muestra la “elevación” asociada con el envío de porcentajes crecientes de la base total de clientes, en términos de la proporción del porcentaje de encuestados alcanzado en relación con el porcentaje de clientes contactados.

En una entrada de blog anterior, discutimos cómo se pueden usar las curvas ROC para evaluar qué tan bueno es un modelo para clasificar (p. ej., prediciendo un resultado). Además de comprender la precisión predictiva de un modelo utilizado para la clasificación, también puede ser útil comprender qué beneficio ofrece el modelo en comparación con tratar de identificar un resultado sin él.

Las ganancias acumuladas y las curvas de elevación son un enfoque simple y útil para comprender qué beneficios es probable que obtenga al ejecutar una campaña de marketing y cuántos clientes debe contactar, basado en dirigirse a los clientes más prometedores utilizando un modelo predictivo. Estos enfoques podrían aplicarse de manera similar en el contexto de la predicción de qué personas incumplirán un préstamo personal para decidir a quién se le podría ofrecer una tarjeta de crédito, por ejemplo. En este caso, el objetivo es minimizar el número de personas que probablemente defecto en el préstamo, mientras que maximizar el número de tarjetas de crédito que se ofrecen a aquellos que no predeterminada. El modelo predictivo en cada caso podría ser cualquier enfoque estadístico apropiado para generar una probabilidad de un resultado binario, ya sea un modelo de regresión logística, un bosque aleatorio o una red neuronal, por ejemplo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.