De ontwikkeling van films over de laatste 100 jaar. Verteld door een analyse van 50.000+ films uit de IMDB-database in R
Films op IMDB
Ik ben een grote liefhebber van films. Van een mooi plot en goed acteerwerk kan ik echt genieten. Daarnaast is het natuurlijk gewoon chill om af en toe een filmpje te pakken. IMDB is de website die ik veel gebruik om o.a. even te checken welke acteurs er in spelen en welke rating de film heeft. Dit artikel bestaat uit de volgende onderdelen:
- De ‘movies’ dataset van ggplot2;
- Ratings van films over de jaren heen per genre;
- Lengtes en ratings van films over de jaren heen;
- Films en budgetten over de jaren heen;
- Aantal films per genre;
- Aantal films per genre verdeeld over de ratings;
- Aantal films per genre over de jaren heen;
- Boxplots over ratings films per genre;
- Slot.
De ‘movies’ dataset van ggplot2
Nu kennen de R-liefhebbers het ggplot2 package om data op een fantastische manier te visualiseren wel. Een mooi extraatje is dat het ggplot2 package ook een aantal datasets bevat om mee te spelen, een daarvan is de “movies” dataset. Deze dataset bevat ongeveer 58.000 films (1 film per rij) waarbij per film de rating, lengte (in minuten), jaartal, genre en budget (alleen bij sommige films ingevuld) wordt weergegeven. (Helaas) bevat deze dataset enkel films van vóór 2007. Echter is het natuurlijk wel een mooie case om wat analyse werk op te doen. Hier volgen een aantal visualisaties en conclusies bij dat analyse werk. Voor het volledige artikel met bijbehorende R-code kun je naar mijn website gaan via deze link: IMDB analyseren met R . Het artikel daar bevat ook veel meer visualisaties. In dit artikel laat ik slechts een aantal van die afbeeldingen zien.
1. Ratings van uitgebrachte films over de jaren heen per genre.
Deze visualisatie laat het jaartal op de x-as zien en de rating (beoordeling) op de y-as. Daarbij is de vorm van de datapunten het genre van de film. Ik heb een filter toegepast voor deze grafiek door alleen films met een rating hoger van een 5.5 toe te passen.
1. Vóór 1925 domineerden de genres Comedy en Drame de filmindustrie;
2. De eerste actiefilm was meteen een goeie, een rating van 8.1!
2. Lengtes en ratings van films over de jaren heen
Wat opvalt in deze visualisatie is de gele/oranje-achtige streep bij de lengte van ongeveer 80 minuten. Dit geeft aan dat er in de periode 1950 tot ongeveer 1985 veel films waren met een lengte van ongeveer een anderhalfuurtje die vaker niet hoger dan een 7 scoren.
3. Films en budgetten over de jaren heen.
De dimensie van budget is toegevoegd aan de visualisatie. Hierdoor vallen veel datapunten af omdat er in de dataset niet van elke film het budget bekend is.
Je ziet dat de hogere budgetten vooral bij de latere jaren staan. Ook valt op dat de grotere budgetten bij de actiefilms staan. Echter kan dit ook zijn omdat de budgetten van actiefilms vaker bekend worden gemaakt t.o.v. andere genres.
4. Aantal films per genre
5. Aantal films per genre verdeeld over de ratings
Het is leuk om te zien dat het aantal ratings over de films normaal is verdeeld. Je kunt zien dat het genre animation relatief gezien het best presteert. De minima van ratings bij animatiefilms ligt ongeveer bij iets minder dan een 5.
6. Aantal films per genre over de jaren heen
7. Boxplots over ratings films per genre
Ook in deze boxplot komt het genre Animation goed naar voren. Echter doet het genre Documentary het beter. De mediaan van het genre Documentary is zelfs beter dan het derde kwartiel van het genre Comedy.
Slot
Naast deze visualisaties en analyses is er nog veel meer te halen uit de movies dataset. Het wordt natuurlijk ook leuker als het om een recentere dataset gaat. Veel van mijn favoriete films zijn namelijk van vrij recent. Gelukkig zijn er in R veel manieren om deze data te importeren dus wie weet. Ik ga een filmpje kijken!
Geef een reactie