Programmeren en data analyseren met R – Deel 1 De basis.

Dit is een verouderde cursus. Een nieuwe cursus kunt u vinden op Nederlandse Handleiding programmeren en data analyseren met R voor beginners – Open Source statistisch softwarepakket voor om eenvoudig data te analyseren.

1. Inleiding

Dit artikel is een handleiding waarin u wordt geleerd hoe u spreadsheets en andere data kunt analyseren met open source software. Open source software is gratis, kunt u aanpassen naar uw eigen wensen en is constant in ontwikkeling. U wordt geleerd data op een eenvoudige en snelle manier te kunnen analyseren. Met de methode die in deze handleiding geleerd, kunt u uitgebreide handelingen bij uw spreadsheets sneller en eenvoudiger uitvoeren. In deze handleiding wordt
gewerkt met de volgende twee open source softwarepakketten:

R
OpenOffice.org Calc

In deze handleiding wordt u het volgende geleerd:

 Een xls-bestand om te zetten in een csv-bestand met scheidingstekens die door R gelezen kunnen worden.

 Een Working Directory van een sessie met R instellen, opslaan en laden.

 Controleren aan de hand van vier criteria of een data bestand geschikt is om te gebruiken.

 Een csv-bestand importeren naar de R Console.

 R een variabele laten definiëren.

 Een matrix maken van een databestand of variabele.

 R grafieken en diagrammen laten maken aan de hand van de geïmporteerde data.

 Statistische functies/formules op een eenvoudige manier uitvoeren op het databestand met R.

 Berekeningen maken met R.

 Gegevens uit het databestand op een snelle manier terug kunnen zoeken met R.

Opbouw handleiding:

2. R en OppenOffice downloaden.

3. Eenvoudige berekeningen en statistische toepassingen uitvoeren met R.

4. Analyseren van data d.m.v. grafieken en diagrammen met R:

5. Analyseren met R d.m.v. overige statistische functies:

6. Getallen of gegevens weergeven/opzoeken uit de matrix:

7. Een sessie met R opslaan en laden.

Achtergrondinformatie R

R is een open source software pakket en programmeertaal die ontwikkeld is door Ross Ihaka en Robert Gentleman aan de universiteit van Auckland in Nieuw-Zeeland. Ontwikkelen. R heeft een eigen programmeertaal en heeft de nadruk op het toepassen van statistische functies. Met R kunt u met data eenvoudige handelingen doen zoals gemiddelden berekenen, maar ook uitgebreide voorspellingsmethoden. Omdat R open source is, kan iedereen R op
zijn eigen manier bewerken. R is constant aan het groeien omdat er steeds meer ontwikkelaars aansluiten om nieuwe toepassingen voor R, meestal gratis,aan te bieden.

Achtergrondinformatie OpenOffice.org Calc

OpenOffice.org Calc is een van de programma’s die in het softwarepakket van OpenOffice.org zit. Het programma OpenOffice.org Calc is vergelijkbaar met Microsoft Excel. Ook OpenOffice.org Calc is een open source programma en daarom gratis te downloaden en aan te passen naar uw eigen wensen. In deze handleiding wordt gekozen voor OpenOffice.org Calc omdat het veel mogelijkheden bied om data te bewerken. Daarbij is het een goedkoop alternatief tegenover andere softwarepakketten.

Deze handleiding is bestemd voor personen die Microsoft Windows en/of Mac OS X gebruiken.

2. R en OppenOffice downloaden.

Zoals bij de inleiding al is aangegeven, wordt er in deze handleiding gebruik gemaakt van de softwarepakketten R en OpenOffice.org Calc. In dit hoofdstuk wordt uitgelegd hoe u deze softwarepakketten kunt downloaden.

R downloaden.

1. Tik de URL http://www.r-project.org in.

2. Aan de linkerkant van de website (Onder het logo van R) vindt u onder de dikgedrukte tekst Download, Packages de link CRAN, klik hier op.

3. De pagina CRAN Mirrors verschijnt. Zoek het land op waarin u zich bevindt, in dit geval Netherlands. U kunt nu kiezen tussen de mirror
http://cran.xl-mirror.nl/ van XL-Data Amsterdam en http://cran-mirror.cs.uu.nl/ van Utrecht University. Klik op een van deze mirrors, het maakt niet uit welke mirror u kiest. In deze handleiding is voor de Utrecht University mirror gekozen.

4. Het venster The Comprehensive R Archive Network verschijnt. In het venster Download and install R kiest u voor het besturingssysteem dat u gebruikt.

R downloaden voor Windows.

Klik in het venster Download and install R op Download R for Windows. Kies op de pagina R for Windows voor base en install R for the first time.
De pagina R-2.152 for Windows (32/64bit) verschijnt. Klik op Download R 2.15.2 for Windows. Klik op het venster R.2.15.2.exe openen OK.
Als u deze stappen heeft uitgevoerd verschijnt het bestand R-2.15.2-win.exe in uw map met downloads.

R downloaden voor Mac OS X.

Klik in het venster Download and install R op Download R for MacOS X. Kies op de pagina R for Mac OS X onder het gedeelte Files: voor R-2.15.2.pkg (latest version). Klik op het venster R.2.15.2.pkg openen OK. Als u deze stappen heeft uitgevoerd, verschijnt het bestand R-2.15.2.pkg in uw map met downloads. Open dit bestand door de software op uw systeem te installeren. De eenvoudige stappen die u daarvoor moet uitvoeren kunt u van uw scherm af lezen.

OpenOffice.org Calc downloaden.

1. Tik de URL http://www.openoffice.org/download/other.html in . Er verschijnt een grote tabel met waarin u kunt kiezen voor verschillende talen en platforms om OpenOffice voor te downloaden.

2. In de derde tabel staat de taal Dutch / Nederlands, kies daarbij voor uw gewenste besturingssysteem (Windows of Mac OS X) door op Download te klikken.

3. Een nieuwe pagina wordt geopend. Boven aan de pagina staat dat u een paar seconden moet wachten voordat uw download tevoorschijn komt.

4. Het venster om OpenOffice te openen/downloaden verschijnt. Kies voor uw gewenste instellingen en klik op OK.

5. Als u deze stappen heeft uitgevoerd verschijnt het bestand: Apache_OpenOffice_incubating_*versienaam*_*platformnaam*_install_nl in de map waar de downloads van uw browser terecht komen. Klik op dit bestand. Aan de hand van de vensters die verschijnen, kunt u uw gewenste
instellingen kiezen en OpenOffice installeren op uw systeem.

3. Eenvoudige berekeningen en statistische toepassingen uitvoeren met R.

In dit deel van de handleiding worden de eenvoudige handelingen van R besproken. Dit zijn handelingen zoals het importeren van bestanden, eenvoudige rekensommen met de data en het eenvoudig visualiseren van data.

Spreadsheet opslaan in csv-formaat.

Voor het eerste deel van deze manual wordt het bestand ‘Bloemenverkoop.xls’ gebruikt. R kan, zonder speciaal geïnstalleerde packages, geen xls-bestanden (Excel-Bestanden) lezen. Hiervoor moet een xls-bestand opgeslagen worden als.csv bestand, het standaard bestandtype dat R kan lezen. Met Open Office gaat dit vrij eenvoudig:

Bestand-> Opslaan als. -> Kies bij bestandtype voor ‘Tekst CSV (.csv)’

Kies in het dialoogvenster ‘Tekstbestand exporteren’ en als ‘Veldscheidingsteken’ voor (,) en als ‘Tekstscheidingsteken’ voor (“).

Kies in het dialoogvenster Tekstbestand exporteren en als Veldscheidingsteken voor (,) en als Tekstscheidingsteken voor (“).

Bloemenverkoop.xls is nu geconverteerd naar een CSV-bestand en heet nu Bloemenverkoop.csv.

De Working Directory instellen voor R.

Als u R opent, komt de zogenaamde R console tevoorschijn. Dit is het venster waarin u werkt met R.

Voor het werken met R moet er een zogenaamde Working Directory aangemaakt worden. Dit is een gewone map
die simpelweg aangemaakt kan worden door een rechtermuisklik en voor Nieuwe map te kiezen in Windows Verkenner of Finder in OS. In deze map, de Working Directory, moeten alle (data)bestanden worden geplaatst waar u met R mee wilt werken. Als deze map eenmaal is aangemaakt, geeft u in R aan dat deze aangemaakte map
als Working Directory gebruikt wordt. Dit doet u als volgt:

1. Huidige working directory bij R weergeven:

Voer de code getwd() bij de R Console in,na het drukken van Enter laat R de locatie van de Working Directory die op dit moment gebruikt wordt.

2. Locatie van de nieuwe Working Directory opzoeken:

Als dit de Working Directory is die u wilt gebruiken hoeft u niets meer te wijzigen. Als u een andere
Working Directory wilt gebruiken dan R weergeeft na het invoeren van getwd() , voert u setwd(*LOCATIE VAN UW WORKING DIRECTORY*) in. Deze locatie is eenvoudig te vinden als u in Verkenner (of Finder bij OS) op
de rechtermuisknop klikt en daar kiest voor eigenschappen (of Info bij OS). De locatie van de map wordt in het venster weergegeven, selecteer en kopieer deze locatie.

Afbeelding 1. De locatie van de map in het venster Eigenschappen vinden.

3. Locatie van de nieuwe Working Directory in de R Console invullen:

Vul de locatie tussen de haakjes en aanhalingstekens in bij de code setwd() in R door het pijltje van de muis tussen de haakjes en aanhalingstekens te plaatsen->Rechtermuisklik->Plakken (of CTRL+V). In afbeelding 2 is de locatie van de Working Directory als volgt met setwd() ingevuld:
Setwd(‘C:/Users/School & Werk.ArieDell/Dropbox/Bedrijf/Data’).

Let op! Het is belangrijk dat de locatie tussen aanhalingstekens geplaatst wordt!

4. Controleren van de huidige Working Directory:

Als de bovenstaande stappen zijn uitgevoerd, moet de nieuwe Working Directory succesvol zijn ingesteld. Dit kunt u controleren door met de code getwd() te controleren van welke Working Directory er momenteel gebruik wordt gemaakt. Als na het indrukken van Enter de locatie van u zojuist ingestelde Working Directory wordt weergeven, is het instellen van de Working Directory succesvol verlopen en bent u klaar om te werken met R.

Locatie Working Directory R in R console.

Afbeelding 2. De locatie van de Working Directory in de R console instellen.

Data klaarmaken voor gebruik met R.

Databestanden zijn er in verschillende vormen en maten. Bij de inleiding van deze manual is aangegeven hoe u een xls-bestand om kan zetten naar een csv-bestand. R kan in zijn standaardvorm namelijk geen xls-bestanden lezen, wel csv-bestanden.

Controleren van de data, vóór het importeren met R.

Het is echter ook belangrijk om in het xls-bestand of csv-bestand zelf te controleren of de data goed geschikt is om meet te analyseren. Om te kunnen bepalen of de data van een goede kwaliteit is, kunnen de volgende vier criteria gebruikt worden:

Nauwkeurigheid:
Controle over de juistheid en betrouwbaarheid van de data.

Tijdigheid:
Controle of de data up-to-date is of in ieder geval over de juiste tijd gaat.

Compleetheid:
Controle of er geen missende data is en de controle of het databestand breed en diep genoeg is om analyses op uit te voeren.

Afbeelding 3. Een eenvoudig CSV-bestand in OpenOffice.org Calc.

Consistentie:

Controle of bij de data dezelfde waardes en termen gebruikt worden over de verschillende databestanden en bronnen.

Transformatie:

Om een databestand zo goed mogelijk te kunnen analyseren met R, is het verstandig om het bestand zo simpel en eenvoudig mogelijk in te delen. Allerlei soorten tekst, kleurgebruik of afbeeldingen kunnen het best uit het bestand verwijderd worden als u het met R wilt analyseren. Zo voorkomt u mogelijke foutmeldingen of andere vervelende complicaties bij R. In afbeelding 3 is een voorbeeld weergegeven van het eenvoudige bestand Bloemenverkoop.csv.

Het bestand is al geconverteerd van xls-bestand naar csv-bestand.

Let op! In de afbeelding is ook te zien dat er in het bestand de totalen van de verkoop van de verschillende bloemen worden weergegeven. R leest bij een csv-bestand de bovenste regel als categorieën (hier dus Maand, Rozen, Tulpen en Viooltjes) en de overige regels als data over die categorieën. R herkent hier de regel Totaal niet.
Bij wijze van spreken denkt R dat Totaal een dertiende maand is. Het is dus verstandig om de regel Totaal te verwijderen. Dit levert in het verdere verloop bij het analyseren geen problemen op, R kan naderhand namelijk alle totalen zelf weer berekenen als daar om gevraagd wordt.

Data importeren in de R Console.

Controleer of de juiste Working Directory ingesteld is. Controleer ook of de databestanden in deze map zijn geplaatst. Als deze twee handelingen in orde zijn bent u klaar om databestanden te importeren in de R console.

Csv-bestanden importeren in R.

U kunt zelf selecteren welk bestand u wilt importeren in de R console. Dit doet u als volgt:

1. Het databestand in de R console importeren:

Voer de code read.csv(‘*NAAM VAN UW BESTAND*’) in. Bij het voorbeeld in afbeelding 4 wordt het bestand
Bloemenverkoop.csv geïmporteerd. Hiervoor wordt de code read.csv(‘Bloemenverkoop.csv’) ingevoerd. Na het indrukken van Enter verschijnt de informatie uit het databestand in de R console. Let op! De code die in R wordt ingevoerd is hoofdlettergevoelig, ‘bloemenverkoop.csv’ wordt door R niet gevonden. Let hierbij ook op dat de naam van het bestand tussen ‘aanhalingstekens’ is geplaatst.

Afbeelding 4. Het importeren van een databestand, het aanmaken van een variabele van het databestand en een matrix maken van het databestand.

2. Een variabele aanmaken voor het bestand:

De volgende stap is variabele aanmaken voor het databestand. In de Inleiding wordt uitgelegd dat met R variabelen aangemaakt kunnen worden met de <- code. Voor het databestand Bloemenverkoop.csv wordt nu een variabele gemaakt. Dit gaat aan de hand van de volgende code:

Bloemenverkoop<-read.csv(‘Bloemenverkoop.csv’).

Het bestand Bloemenverkoop.csv wordt door R nu niet langer meer gezien als een extern bestand, maar als een variabele in deze sessie. Het nut van een variabele aanmaken voor het bestand is dat nu niet meer de steeds de code read.csv(‘Bloemenverkoop.csv’) ingevoerd moet worden als u dit bestand wilt gebruiken. Nu er een variabele is aangemaakt voor het bestand, hoeft u alleen maar Bloemenverkoop in te voeren om informatie te weergeven over het bestand.

3. Een matrix maken van het databestand:

Door een matrix te maken van de zojuist aangemaakte variabele, kan de R Console op een betere manier de data van de variabele lezen. Dit gaat eenvoudig met de volgende code: attach(*NAAM VAN DE VARIABELE VAN HET DATABESTAND*). In afbeelding 4 wordt de code attach(Bloemenverkoop) gebruikt.
U kunt nu de categorieën van de variabelen op een eenvoudige manier weergeven met R. Als u bijvoorbeeld informatie wilt over de categorie Tulpen wilt weergeven, voert u simpelweg de code Tulpen in. U zult in het volgende hoofdstuk zien dat er vóór de code Tulpen verschillende functies geplaatst kunnen worden om de categorie tulpen te analyseren.

Basisfuncties voor analyseren met R.

In het vorige hoofdstuk wordt uitgelegd hoe er een variabele aangemaakt kan worden voor een databestand. Daarbij is ook uitgelegd hoe er van de aangemaakte variabele een matrix gemaakt kan worden met de code

attach().

R een Samenvatting laten geven van het databestand:

Met de code summary(*NAAM VAN DE VARIABELE*) wordt er een samenvatting gegeven van het databestand die aan de variabele gekoppeld is. In afbeelding 5 wordt een voorbeeld gegeven van een samenvatting over het bestand Bloemenverkoop.csv.

Omdat het bestand is omgezet in een variabele, kan een samenvatting eenvoudig weergegeven worden met de code:

summary(Bloemenverkoop). Na het drukken op Enter verschijnt de samenvatting van het bestand.
Onder de categorie Maand wordt simpelweg geteld hoe veel keer een betreffende maand in het bestand voor komt. Dit komt omdat de categorie Maand geen cijfers bevat, maar alleen namen van maanden. De categorie maand is hierom geen numerieke categorie maar een categorische categorie. Merk op dat de variabele Bloemenverkoop ook weer bestaat uit een aantal variabelen, namelijk: Maand, Rozen, Tulpen en Viooltjes.

R samenvatting databestand en statistische functies.

Afbeelding 5. Samenvatting van het databestand en diverse statistische functies.

Over de categorieën Rozen, Tulpen en Viooltjes wordt de volgende informatie weergegeven:

Min. (Minimum) en Max. (Maximum) weergeven met R:

Min. geeft aan wat het minimum is van een variabele. In het voorbeeld bij afbeelding 5 wordt aangegeven dat er in de minste maand 12 rozen zijn verkocht. Minder dan 12 rozen in een maand zijn er in het hele jaar niet verkocht omdat 12 het minimum is.
Hetzelfde geldt voor Max., dat aangeeft wat de verkoopcijfers zijn in de maand waar in het meeste aantal rozen zijn verkocht.

1st Qu. En 3rd Qu. en Median weergeven met R:

Hier worden het eerste en het derde kwartiel weergegeven van de categorie. Het eerste kwartiel wordt aangegeven met 1st Qu.. Bij het eerste kwartiel worden de laagste 25% van de getalswaarden bij elkaar opgeteld. Bij het voorbeeld in afbeelding 5 geeft 1st Qu. bij Rozen aan dat de 25% laagste verkoopaantallen bij elkaar 29 Rozen zijn. Bij het derde kwartiel 3rd Qu. worden de 25% hoogste verkoopaantallen opgeteld met 58,25 als uitkomst.
Median weergeeft de mediaan van de variabele, dit is in theorie het tweede kwartiel. Median geeft aan dat als de verkoopcijfers op volgorde van laag naar hoog worden gezet, wat het middelste getal zal zijn.

Het gemiddelde weergeven met R, mean():

Mean. geeft het gemiddelde aan van de categorie. In het voorbeeld van afbeelding 5 is het gemiddelde aantal verkochte rozen per maand 57,42.

4. Analyseren van data d.m.v. grafieken en diagrammen met R:

Met R kan een databestand eenvoudig met verschillende statistische functies geanalyseerd worden. Door al het werk dat hiervoor is gedaan, zoals het aanmaken van variabelen en het maken van een matrix, kunnen de functies worden toegepast met eenvoudige codes. Hier worden een paar voorbeelden gegeven van de functies die gebruikt kunnen worden om het bestand Bloemenverkoop.csv te analyseren.

R een histogram laten weergeven, hist():

Met de code hist(*VARIABELE*), kunt u R een histogram laten weergeven van de variabele die u kiest. In afbeelding 6 wordt een histogram weergeven van de categorie Viooltjes. Hiervoor is de volgende code gebruikt: hist(Viooltjes)

Afbeelding 6. Histogram van de variabele ‘Viooltjes’.

R een grafiek laten plotten, plot():

Met de code plot(*VARIABELE 1*, *VARIABELE 2*), kunt u R een grafiek laten weergeven van de variabelen die u kiest. In afbeelding 7 wordt een grafiek weergeven over de verkoop van het aantal tulpen per maand over het hele jaar.

Hiervoor is de volgende code gebruikt: plot(Maanden, Tulpen).
Let op! De tussen de haakjes gaat de variabele op de x-as op plek 1 en de categorie voor de y-as op plek 2. Let ook op de hoofdlettergevoeligheid van R.

Afbeelding 7. Grafiek van de variabelen ‘Maand’ en ‘Tulpen’.

R een cirkeldiagram laten weergeven, pie():

Met de code pie(*VARIABELE*), kunt u R een cirkeldiagram laten weergeven van de categorie die u kiest. In afbeelding 8 wordt een cirkeldiagram weergeven van de categorie Rozen. Het valt op dat in maand 2, februari, veruit de meeste rozen zijn verkocht. Waarschijnlijk vanwege Valentijnsdag.

Afbeelding 8. Circeldiagram van de variabele ‘Rozen’.

5. Analyseren met R d.m.v. overige statistische functies:

Omdat het databestand gekoppeld is aan een variabele en er van de variabele een matrix is gemaakt, kunnen er met
R eenvoudig overige statistische functies gebruikt worden om de data te analyseren. Achter een functie hoeft u
namelijk telkens alleen maar de variabele die u wilt analyseren tussen de haakjes achter de code te zetten waarbij u
na het drukken van Enter het resultaat krijgt. In de Appendix vindt u de codes voor specifieke statistische functies.

Hier worden de meest gebruikte statistische functies en codes besproken.
Let op! Bij het invoeren van statistische functies is het belangrijk om te letten op de hoofdlettergevoeligheid, in afbeelding is te zien dat bij het invoeren van Max (met hoofdletter) een foutmelding geeft als resultaat.
Codes voor statistische functies worden altijd ingevoerd met een kleine letter.

Afbeelding 9. Statistische functies uitvoeren met R.

Gemiddelde/ mean():

Het gemiddelde van een variabele kunt u berekenen met de code:
mean(*VARIABELE*)
In afbeelding 9 geeft de code mean(Rozen) het resultaat 57.41.667. Het gemiddeld aantal rozen verkocht per maand is 57.

Minimum/ min():

Het minimum van een categorie kunt u berekenen met de code min(*VARIABELE*). In afbeelding 9 geeft de code min(Tulpen) het resultaat 12. In de maand waarin de verkoop van de tulpen minimaal was, zijn er 12
tulpen verkocht.

Maximum/ max():

Het maximum van een categorie kunt u berekenen met de code max(*VARIABELE*). In afbeelding 9 geeft de code max(Viooltjes) het resultaat 67. In de maand waarin de verkoop van de viooltjes maximaal was, zijn er 67 viooltjes verkocht.

Merk op uit de afbeelding dat u ook berekeningen kunt doen met verschillende gegevens. In het voorbeeld dat wordt gegeven ziet u dat het minimum van de tulpen wordt verminderd met het gemiddeld aantal verkochte rozen waarbij de standaarddeviatie van het aantal verkochte viooltjes wordt opgeteld. Om het maken van berekeningen in de vingers krijgen kunt u experimenteren met het maken van berekeningen.

Afbeelding 10. Overige statistische functies met R.

Totaal / sum():

Het totaal van een categorie kunt u berekenen met de code sum(*VARIABELE*).
In afbeelding 10 wordt het totaal aantal verkochte viooltjes weergegeven door middel van de code sum(Viooltjes). Het resultaat is 403, dat concludeert dat er in het jaar totaal (alle maanden in
het databestand opgeteld) 403 Viooltjes zijn verkocht.

Bereik / range() :

De code range(*VARIABELE*) weergeeft het bereik, het minimum en maximum, van de betreffende categorie. In afbeelding 10 wordt naar het bereik van de categorie Rozen gezocht met de code range(Rozen). Dit geeft het resultaat 12 216. Het minimum en maximum aantal rozen dat verkocht is in het betreffende jaar zijn respectievelijk 12 en 216.

De Standaardafwijking(standaarddeviatie) / sd() en variantie / var() weergeven met R :

De standaardafwijking en variantie worden gebruikt om de spreiding en mate waarin verschillende waarden van een categorie verschillen aan te geven. De standaardafwijking van een categorie kunt u vinden met de code sd(*VARIABELE*) en de variantie met var(*VARIABELE*) . In afbeelding 10 wordt de standaardafwijking van de categorie Tulpen gevonden met de code sd(Tulpen). Dit geeft het resultaat 93,08008 wordt gevonden met de code var(Tulpen) en geeft 8663,902 als resultaat. Valt het u op dat de standaarddeviatie de wortel is van de variantie?.

De correlatie weergeven met R, cor() :

Met de correlatie-functie kunt u de samenhang vinden tussen twee verschillende variabelen of in dit geval categorieën. Een correlatie van 1 staat hierbij voor een perfecte positieve samenhang, een correlatie van -1 staat voor een perfecte negatieve samenhang. Een correlatie van 0 betekent geen samenhang.

Om de correlatie tussen twee verschillende variabelen of categorieën te vinden gebruikt u de volgende code: cor(*NAAM1*,*NAAM2*). In afbeelding 10 wordt de correlatie tussen de verkopen van rozen en viooltjes opgezocht met de code cor(Rozen,Viooltjes), dit heeft 0.5384868 als uitkomst. Er is in dit databestand dus een enige vorm van samenhang tussen verkoop van rozen en viooltjes.

6. Getallen of gegevens weergeven/opzoeken uit de matrix:

Als u informatie over gegevens wilt weergeven over een bepaalde fractie van een categorie, heeft R hier ook codes voor. Hiervoor typt u als eerst de betreffende variabele in. Daarachter typt u tussen de vierhoekige haakjes de rij, de kolom of het interval dat u wilt weergeven. Aan de hand van een paar voorbeelden wordt laten zien hoe u dit kunt doen.

Afbeelding 11. Overige statistische functies uitvoeren met R.

Interval:

In afbeelding 10 wordt er met de code Rozen[2:5] verkoopcijfers van de rozen weergeven voor de maanden februari tot en met mei. De verkopen voor deze maanden zijn respectievelijk 216, 23, 31 en 43 geweest.

Rijen:

Als u informatie uit een bepaalde rij wilt weergeven gebruikt u de code * naam variabele van het databestand *[*rijnummer*, ]. In afbeelding 10 worden de gegevens over de maand februari (rij 2) weergegeven met de code Bloemenverkoop[2, ]. Er wordt weergegeven dat er in de maand februari 216 rozen, 54 tulpen en 13 viooltjes zijn verkocht. Dit kunt u ook doen met de code Bloemenverkoop[februari, ]
U kunt ook informatie vinden over kolommen, in dit geval de categorieën van de bloemen. In afbeelding 10 wordt met de code Bloemenverkoop[ ,3] informatie gegeven over de derde kolom, in dit geval Tulpen. Dit kunt u ook doen met de code Bloemenverkoop[ ,”Tulpen”].

Afbeelding 12. Specifiek informatie zoeken uit het databestand.

Op deze manier kunt u eenvoudig naar specifieke informatie zoeken uit het databestand. Als u bijvoorbeeld wilt weten hoeveel rozen er in november zijn verkocht gebruikt u de code Bloemenverkoop[november,’Rozen’[1]].
Let op! Gebruik altijd de naam van de variabele waaraan het databestand gekoppeld is in deze code. De namen Matrix of m werken niet en geven een foutmelding.

[1] De naam van de variabele die u wilt opzoeken moet u tussen aanhalingstekens plaatsen.

7. Een sessie met R opslaan en laden.

De sessie met R opslaan.

Als u op een later tijdstip verder wilt gaan met de huidige sessie in de R console, kunt u de sessie opslaan.

1. Dit gaat met de code save.image(‘*LOCATIE WAAR U DE SESSIE WIL OPSLAAN*/*NAAM VAN DE SESSIE*.Rdata’).

2. Om de locatie te vinden waar u het bestand wilt te kunnen vinden, kunt u de code getwd() invoeren. Hiervan kunt u het pad kopiëren die naar de huidige Working Directory leidt.
U kunt ook in de map waar u de opgeslagen sessie wilt plaatsen via de rechtermuisknop naar het venster Eigenschappen gaan. Daar kunt u de locatie kopiëren van de map om deze uiteindelijk tussen de haakjes en aanhalingstekens van de code save.image() te plaatsen.

Het is verstandig om de sessie op te slaan in de map die u als Working Directory gebruikt.

Afbeelding 13. De locatie en naam van de sessie bepalen om op te slaan.

3. Achter de laatste slash (/) van de locatie typt u de naam in die u de sessie wilt geven. Achter de naam plaatst u de toevoeging .Rdata. Het voorbeeld in afbeelding 13 laat zien dat de sessie wordt opgeslagen onder de naam Sessie1.Rdata.
In het voorbeeld is ook te zien dat het bestand is opgeslagen in de map Data, de map die voor deze sessie is gebruikt als Working Directory.

4. Als u de code en de locatie met bestandsnaam tussen de haakjes en aanhalingstekens hebt geplaats, zoals in afbeelding, kunt u op Enter drukken om de sessie op te slaan.

5. Als u hierna de R console afsluit door op kruisje te drukken (of via een andere manier afsluit), komt het dialoogvenster met de tekst Save workspace image? in beeld. Klik hiervoor altijd op Ja om er zeker van te zijn dat de sessie goed is opgeslagen.

Een bestaande sessie met R laden.

Er zijn twee manieren om een bestaande of door u eerder opgeslagen sessie te laden.

 U zoekt in Windows Verkenner(of in Finder bij OS) naar het .Rdata bestand en opent het met een dubbelklik.

 U opent de R Console en voert de code load(‘*LOCATIE WAAR DE SESSIE IS OPGESLAGEN*/*NAAM VAN HET BESTAND*’) en drukt daarna op Enter.

Met de code ls() kunt u een overzicht laten verschijnen van de variabelen die zich in de sessie plaatsvinden. In afbeelding 14 is te zien dat Bloemenverkoop de enige variabele is die aangemaakt is voor een databestand.

Afbeelding 14. Een eerdere sessie laden en opzoeken aan welke variabelen een databestand is gekoppeld.

8. Overzicht van deze R tutorial:

Dit is het einde van het eerste deel van deze workshop. Als u alle stappen heeft gevolgd, bent u in staat om:

 Een xls-bestand om te zetten in een csv-bestand met scheidingstekens die door R gelezen kunnen worden.

 Een Working Directory van een sessie met R instellen, opslaan en laden.

 Controleren aan de hand van vier criteria of een data bestand geschikt is om te gebruiken.

 Een csv-bestand importeren naar de R Console.

 R een variabele laten definiëren.

 Een matrix maken van een databestand of variabele.

 R grafieken en diagrammen laten maken aan de hand van de geïmporteerde data.

 Statistische functies/formules op een eenvoudige manier uitvoeren op het databestand met R.

 Berekeningen maken met R.

 Gegevens uit het databestand op een snelle manier terug kunnen zoeken met R.

Plaats een reactie Reactie annuleren

Deze site gebruikt Akismet om spam te bestrijden. Ontdek hoe de data van je reactie verwerkt wordt.

Blog

Programmeren en data analyseren met R – Deel 1 De basis.

1. Inleiding

In deze handleiding wordt u het volgende geleerd:

Opbouw handleiding:

Achtergrondinformatie R

Achtergrondinformatie OpenOffice.org Calc

2. R en OppenOffice downloaden.

R downloaden.

R downloaden voor Windows.

R downloaden voor Mac OS X.

OpenOffice.org Calc downloaden.

3. Eenvoudige berekeningen en statistische toepassingen uitvoeren met R.

Spreadsheet opslaan in csv-formaat.

De Working Directory instellen voor R.

1. Huidige working directory bij R weergeven:

2. Locatie van de nieuwe Working Directory opzoeken:

3. Locatie van de nieuwe Working Directory in de R Console invullen:

4. Controleren van de huidige Working Directory:

Data klaarmaken voor gebruik met R.

Controleren van de data, vóór het importeren met R.

Data importeren in de R Console.

Csv-bestanden importeren in R.

1. Het databestand in de R console importeren:

2. Een variabele aanmaken voor het bestand:

3. Een matrix maken van het databestand:

Basisfuncties voor analyseren met R.

R een Samenvatting laten geven van het databestand:

Min. (Minimum) en Max. (Maximum) weergeven met R:

1st Qu. En 3rd Qu. en Median weergeven met R:

Het gemiddelde weergeven met R, mean():

4. Analyseren van data d.m.v. grafieken en diagrammen met R:

R een histogram laten weergeven, hist():

R een grafiek laten plotten, plot():

R een cirkeldiagram laten weergeven, pie():

5. Analyseren met R d.m.v. overige statistische functies:

Gemiddelde/ mean():

Minimum/ min():

Maximum/ max():

Totaal / sum():

Bereik / range() :

De Standaardafwijking(standaarddeviatie) / sd() en variantie / var() weergeven met R :

De correlatie weergeven met R, cor() :

6. Getallen of gegevens weergeven/opzoeken uit de matrix:

Interval:

Rijen:

7. Een sessie met R opslaan en laden.

De sessie met R opslaan.

Een bestaande sessie met R laden.

8. Overzicht van deze R tutorial:

Dit delen:

Gerelateerd

Plaats een reactie Reactie annuleren