Kent u het knikkerspel nog? De knikker wordt boven in de kast losgelaten, waarna het zijn weg naar beneden vindt. Bij elk pinnetje ‘kiest’ het balletje waar het heen gaat, om op deze manier uiteindelijk in één van de onderstaande bakjes terecht te komen.

Een beslisboom werkt op vrijwel dezelfde manier, alleen dan met data. Zoals de naam aangeeft, is een beslisboom een manier om tot een beslissing te komen weergegeven als een boom (zie onderstaande plaatjes). De beginselen van de beslisboom gaan terug naar de oorsprong van de mens. De afweging of je naar buiten gaat, wordt gemaakt op basis van het weer. Is het slecht weer, blijf je binnen. Is het mooi weer, dan ga je naar buiten. Met data gaat dit op een identieke manier.

 

Hoe werkt dat dan?

Barry is een autoverkoper met een rijke historie, hij zit al geruime tijd in het vak. Jan, een alleenstaande vader van middelbare leeftijd, is van plan een auto te gaan kopen bij de dealer waar Barry werkt. Maar hoe weet Barry welke auto hij aan Jan kan verkopen?

Definieer de eigenschappen

Voordat Jan een auto koopt, kijkt hij naar de volgende kenmerken:

  • Wat is de kleur van de auto?
  • Wat is de kilometerstand? Als er minder dan 15.000 kilometers op de teller staat, vindt Jan dat de kilometerstand laag is. Bij een stand tussen de 15.000 en 30.000 kilometer, noemt hij deze stand gemiddeld. Elke stand boven de 30.000 duidt hij aan met hoog.
  • Is de auto APK gekeurd?
  • Is de auto van het bouwjaar 2010 of later?

In Barry’s jaren bij de dealer heeft hij data bijgehouden van de klanten die een auto kwamen kopen. In de onderstaande tabel zijn historische gegevens opgenomen van veertien klanten die eerder het bedrijf bezocht hebben om een auto te kopen en zich bevonden in een met Jan vergelijkbare levensfase. De kenmerken van de auto’s en de vraag of de klant de auto gekocht heeft, staan hierin weergegeven.

Het doel van een beslisboom is om in elke stap een gedeelte van de groep af te scheiden, te splitsen van het andere deel van de boom, waarmee de grootste ‘winst’ geboekt wordt. De winst wordt bepaald op basis van de grootte van het deel van de groep dat afgesplitst wordt, waardoor de data in de afgesplitste groep dezelfde kenmerken vertoont en er dus een beslissing gemaakt wordt!

De boom zelf

Bovenaan vinden we de top van de boom, de oorsprong. Dit is waar een nieuwe klant ‘binnenkomt’. Het model heeft aangetoond dat de vraag of de auto APK gekeurd is de meeste winst oplevert, dus nemen we dit als uitgangspunt (1). Als het antwoord op deze vraag ‘Nee’ is, dan werd de auto in het verleden niet gekocht door klanten zoals Jan, en dus zal Jan de auto niet gaan kopen. De historische data wijzen uit dat als de auto wel APK gekeurd is, we nog geen conclusies kunnen trekken, omdat niet elke auto in deze groep dezelfde kenmerken heeft.

Na deze stap kijken we naar de overgebleven data. Het model geeft aan dat de kilometerstand een kenmerk is, op basis waarvan de meeste auto’s onderscheiden kunnen worden. Dus splitsen we deze tak op in de drie takken van kilometerstand: hoog, gemiddeld en laag. (2)

In dit geval geeft het model aan, dat als de kilometerstand van een APK gekeurde auto laag is, Jan de auto zal kopen. Als de kilometerstand hoog is, koopt Jan de auto niet.

Bij een gemiddelde kilometerstand hebben we nog geen éénduidige uitkomst. Historisch gezien hebben de APK gekeurde auto’s met een gemiddelde kilometerstand niet allemaal dezelfde kenmerken. Met het kenmerk uit welk bouwjaar de auto komt, kunnen we de resterende auto’s opdelen in twee groepen, waar de auto’s in één van deze twee groepen dezelfde kenmerken vertonen als de andere auto’s binnen deze groep. (3)

Wanneer de auto, die APK gekeurd is en een gemiddelde kilometerstand heeft, eerder gebouwd is dan in 2010, zal Jan de auto niet kopen. Is het auto van een later bouwjaar dan 2010, zal Jan wel overgaan tot aanschaf van de auto.

(foto)

 

Wat kunnen we hiermee?

Op deze manier is het voor Barry, die een auto aan Jan wilt verkopen, een stuk eenvoudiger geworden om auto’s te verkopen. Hij hoeft de auto’s waarvan hij weet dat Jan ze niet koopt niet aan hem te laten zien, waardoor de kans groter is dat Jan één van de door Barry getoonde auo’s wel koopt. De beslisboom is een tijd- en kostenbesparend middel om tot een zo goed mogelijk resultaat te komen!

Maak de kleur van de auto dan niets uit?

Bovenstaand voorbeeld is natuurlijk een vereenvoudiging van de werkelijkheid. In werkelijkheid komen er nog meer factoren bij kijken: rijdt de auto op benzine of diesel, hoeveel deuren heeft de auto, etc.

Het blijkt in dit geval dat de kleur van de auto in dit model niet bepalend is voor het kopen van de auto. Mogelijk is dit kenmerk wel bepalend als er nog extra kenmerken worden toegevoegd. Bij een verandering (het toevoegen of verwijderen van een kenmerk) maakt het model een nieuwe boom op basis van de dan bekende kenmerken. Het is goed mogelijk dat andere kenmerken dan van belang zijn!

De boom maakt de keuze

Op deze manier kan je elke set data opdelen in losse groepen die dezelfde kenmerken dragen. Naarmate het aantal kenmerken toeneemt, wordt de boom uitgebreider, maar het idee blijft hetzelfde. Op elk knooppunt kijkt het model wat de beste stap is om zoveel mogelijk winst te boeken. Op deze manier maakt de boom de keuzes voor je, om op een zo snel mogelijke manier tot het juiste antwoord te komen.

Overal toepasbaar

Deze beslisbomen zijn niet alleen toepasbaar op de auto-industrie, maar in elke sector of organisatie. Ben je benieuwd naar hoe dit soort bomen toegepast kunnen worden in jouw sector en wat de uitkomsten hiervan zijn? Neem dan contact met ons op!