Waardevolle stuurinformatie over je klanten naar boven halen op basis van transactiedata: Een Data Science, CLV literatuur en R business case

Voorspellingsmodellen gebruiken op transactiedata

Een organisatie kan zeer waardevolle informatie halen uit de beschikbare data, dit is een open deur in de Business Intelligence en Data Science wereld. In deze blog post wil ik de resultaten van een klein experiment laten zien hoe ik met R, een voorspellingsmodel en transactiedata van een winkel zeer nuttige inzichten naar boven haal. De ingrediënten voor de onderstaande grafieken met waardevolle informatie over klantgedrag zijn de volgende:

  • R Studio;
  • Transactiedataset: CDNOW.csv;
  • De papers van Fader et al. (2005) en Dziurzynski et al. (2014).

Het allermooiste feit van deze analyses is dat het databestand voor de input slechts vier variabelen heeft:

  • Klant ID van de koper;
  • Datum van de transactie;
  • Aantal (kwantiteit) producten gekocht bij de transactie;
  • Totale waarde (prijs) van de transactie.

cdnow dataset

Zo’n dergelijke transactiedataset over aankopen van klanten kan in vrijwel iedere organisatie snel gemaakt worden, wat betekend dat de voorbereiding voor deze analyses zo minimaal zijn.

Inzicht 1: Hoe is het gemiddeld aantal dagen tussen aankopen bij klanten in mijn klantenbestand verdeeld?

CLV - Gemiddelde tijd klanten aankopen

Deze visualisatie laat per klant de gemiddelde aantal dagen zien tussen zijn of haar aankopen. Het liefst zie je natuurlijk dat aan de linkerkant van de grafiek de staven zo hoog mogelijk zijn, dit zou namelijk betekenen dat klanten frequent (niet veel dagen tussen hun aankopen) kopen.

Inzicht 2: Hoe is de kans dat klanten in mijn klantenbestand nog leven verdeeld?

CLV - kans klant leeft

Deze grafiek geeft informatie over levende en dode klanten in het klantenbestand. Met levend en dood wordt bedoeld dat een klant dood is als hij hoogstwaarschijnlijk geen aankopen meer gaat doen bij jouw winkel (bijvoorbeeld omdat hij dat tegenwoordig bij een concurrent doet of gewoon is afgehaakt). Door het zelflerende voorspellingsmodel kan deze weergave met enkel transactiedata van klanten gemaakt worden. Met deze informatie over klantgedrag zou je kunnen sturen zodat je zoveel mogelijk levende klanten hebt. In deze grafiek wil je de staven zoveel mogelijk aan de rechterkant hebben aangezien de kans (P) dat een klant levend is oplopend op de x-as wordt weergegeven en het aantal klanten op de y-as.

Inzicht 3: Voorspelling aantal herhalingsaankopen klanten: voorspelling vs realiteit

CLV - model vs realiteit aantal herhalingsaankopen klanten

Deze grafiek laat zien hoe het aantal klanten is onderverdeeld in het aantal herhalingsaankopen. Naast het feit dat het nuttige informatie is, is deze grafiek oorspronkelijk gemaakt om het voorspellingsmodel te testen zoals je kunt zien is het voorspellingsmodel erg nauwkeurig t.o.v. de realiteit.

Inzicht 4: Een toekomstbeeld van de ontwikkeling van het aantal transacties over een bepaalde periode

Tracking weekly transactions

Last but not least, je wilt natuurlijk gewoon keihard voorspellen…. en goed ook! Deze visualisatie laat de resultaten zien van een test van het voorspellingsmodel. Het model is namelijk getraind op de eerste 39 van de totaal 78 weken in de dataset, en heeft daarna alle 78 weken voorspeld. Als je daar de realiteit naast zet, zie je dat het model een trendlijn weergeeft die uitstekend met de realiteit meegaat. Zo kun je dus bijzonder nauwkeurig een voorspelling doen over de ontwikkeling van het aankoopgedrag van jouw klanten.

Slot

Dit was even een snel artikeltje over wat je kunt doen met de statistische programmeertaal R, een transactie-dataset en de juiste wetenschappelijke papers om klantgedrag te voorspellen. Ik had er een heel uitgebreid artikel van kunnen maken waarin ik de papers uitleg en iedere stap in R laat zien, maar dan had het een te lange post geworden. Daarom als je vragen hebt kun je ze altijd in de comments zetten of mij mailen. De referenties van de papers staan hieronder. Als je het R script wilt hebben waarin iedere stap wordt uitgelegd, kun je me daarvoor ook mailen (twigt.arie@gmail.com).

Referenties

Fader, P. S., Hardie, B. G., & Lee, K. L. (2005). RFM and CLV: Using iso-value curves for customer base analysis. Journal of Marketing Research, 42(4), 415-430.

Lukasz Dziurzynski, Edward Wadsworth and Daniel McCarthy (2014). BTYD: Implementing Buy ‘Til You Die Models. R package version 2.4. http://CRAN.R-project.org/package=BTYD

CDNOW dataset: http://brucehardie.com/datasets/

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Google photo

Je reageert onder je Google account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s

Deze site gebruikt Akismet om spam te bestrijden. Ontdek hoe de data van je reactie verwerkt wordt.

%d bloggers liken dit: