De ontwikkeling van films over de laatste 100 jaar. Verteld door een analyse van 50.000+ films uit de IMDB-database in R

Films op IMDB

Ik ben een grote liefhebber van films. Van een mooi plot en goed acteerwerk kan ik echt genieten. Daarnaast is het natuurlijk gewoon chill om af en toe een filmpje te pakken. IMDB is de website die ik veel gebruik om o.a. even te checken welke acteurs er in spelen en welke rating de film heeft. Dit artikel bestaat uit de volgende onderdelen:

  • De ‘movies’ dataset van ggplot2;
  • Ratings van films over de jaren heen per genre;
  • Lengtes en ratings van films over de jaren heen;
  • Films en budgetten over de jaren heen;
  • Aantal films per genre;
  • Aantal films per genre verdeeld over de ratings;
  • Aantal films per genre over de jaren heen;
  • Boxplots over ratings films per genre;
  • Slot.

 

De ‘movies’ dataset van ggplot2

Nu kennen de R-liefhebbers het ggplot2 package om data op een fantastische manier te visualiseren wel. Een mooi extraatje is dat het ggplot2 package ook een aantal datasets bevat om mee te spelen, een daarvan is de “movies” dataset. Deze dataset bevat ongeveer 58.000 films (1 film per rij) waarbij per film de rating, lengte (in minuten), jaartal, genre en budget (alleen bij sommige films ingevuld) wordt weergegeven. (Helaas) bevat deze dataset enkel films van vóór 2007. Echter is het natuurlijk wel een mooie case om wat analyse werk op te doen. Hier volgen een aantal visualisaties en conclusies bij dat analyse werk. Voor het volledige artikel met bijbehorende R-code kun je naar mijn website gaan via deze link: IMDB analyseren met R . Het artikel daar bevat ook veel meer visualisaties. In dit artikel laat ik slechts een aantal van die afbeeldingen zien.

1. Ratings van uitgebrachte films over de jaren heen per genre.

Films beoordeling per genre

Deze visualisatie laat het jaartal op de x-as zien en de rating (beoordeling) op de y-as. Daarbij is de vorm van de datapunten het genre van de film. Ik heb een filter toegepast voor deze grafiek door alleen films met een rating hoger van een 5.5 toe te passen.

1. Vóór 1925 domineerden de genres Comedy en Drame de filmindustrie;

2. De eerste actiefilm was meteen een goeie, een rating van 8.1!

2. Lengtes en ratings van films over de jaren heen

 

Rating lengte en beoordeling films

Wat opvalt in deze visualisatie is de gele/oranje-achtige streep bij de lengte van ongeveer 80 minuten. Dit geeft aan dat er in de periode 1950 tot ongeveer 1985 veel films waren met een lengte van ongeveer een anderhalfuurtje die vaker niet hoger dan een 7 scoren.

3. Films en budgetten over de jaren heen.

De dimensie van budget is toegevoegd aan de visualisatie. Hierdoor vallen veel datapunten af omdat er in de dataset niet van elke film het budget bekend is. 

Je ziet dat de hogere budgetten vooral bij de latere jaren staan. Ook valt op dat de grotere budgetten bij de actiefilms staan. Echter kan dit ook zijn omdat de budgetten van actiefilms vaker bekend worden gemaakt t.o.v. andere genres.

 

Beoordeling genres budgetten films

4. Aantal films per genre

Aantal uitgebrachte films afgelopen eeuw per genre

5. Aantal films per genre verdeeld over de ratings

Aantal films per genre per beoordeling

Het is leuk om te zien dat het aantal ratings over de films normaal is verdeeld. Je kunt zien dat het genre animation relatief gezien het best presteert. De minima van ratings bij animatiefilms ligt ongeveer bij iets minder dan een 5.

6. Aantal films per genre over de jaren heen

Aantal uitgebrachte films over de jaren heen per genre

7. Boxplots over ratings films per genre

 

 

Beoordelingen films over per genre in boxplots

Ook in deze boxplot komt het genre Animation goed naar voren. Echter doet het genre Documentary het beter. De mediaan van het genre Documentary is zelfs beter dan het derde kwartiel van het genre Comedy.

Slot

Naast deze visualisaties en analyses is er nog veel meer te halen uit de movies dataset. Het wordt natuurlijk ook leuker als het om een recentere dataset gaat. Veel van mijn favoriete films zijn namelijk van vrij recent. Gelukkig zijn er in R veel manieren om deze data te importeren dus wie weet. Ik ga een filmpje kijken!

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Google photo

Je reageert onder je Google account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s

Deze site gebruikt Akismet om spam te bestrijden. Ontdek hoe de data van je reactie verwerkt wordt.

%d bloggers liken dit: