Statistiken och livet som doktorand

Statistik är ett ständigt återkommande ont som man får leva med om man sysslar med naturvetenskaplig forskning. Som tur är så är det djupt tillfredsställande när man lyckas, men vägen dit är ofta lång och väldigt frustrerande. Det mesta som går fel eller tar onödigt lång tid beror på brister i ens statistiska kunskaper, och som doktorand är man oftast oerfaren nog att ha gott om sådana brister. Det är då det är bra att ha en statistiskt väl bevandrad handledare, men även sådana har sina brister och när handledarens brister ställer till det för doktoranden blir resultatet att allt blir dubbelt så jobbigt för båda. Då kan det bli som i fallen nedan.

Vid fikat i går kom min handledare in i fikarummet med den glada, pillemariska glada uppsyn han alltid har när han kommit på något nytt och spännande, tittade på mig och sa (fortfarande med pillemarisk uppsyn): "Jag vill prata med dig!" Det är då man undrar vad man nu ska råka ut för. Min handledare är en hel kreativ forskningsmiljö alldeles ensam, han har alltid jättemycket idéer och hälften förkastar eller glömmer han bort ganska fort igen, men det är inte alltid lätt för hans stackars doktorander att hänga med. Han fortsatte: "Jag har hittat ett test för multimodalitet." Utan att gå närmare in på vad multimodalitet betyder så är det här man som hans doktorand drar öronen åt sig lite: Vad det här betyder för doktorandens arbetssituation är:

1. Han har hittat ett test som han inte själv använt innan. Det betyder med största sannolikhet att jag aldrig ens hört talas om det och kommer att behöva en del tid för att sätta mig in i det.
2. Det kommer att innebära mycket extra arbete som man inte räknat med: Först införskaffa kunskaperna som behövs, sedan analysera sitt data med testet i fråga, sedan tolka resultaten, och sedan presentera det på ett vettigt sätt.
3. Om det funkar är det riktigt roligt att både ha lärt sig något helt nytt och att ha ett lite mer ovanligt test i sitt papper som omväxling till anovorna (ANOVA = ANalysis Of VAriance är ett väldigt vanligt statistiskt test).
4. Om det inte funkar innebär det mycket bortkastad tid.

Denna gång tillade min handledare dock att han själv redan gjort testet (Hardigan´s dip test), så en del av jobbet på punkt 2 ovan föll bort. Men jag kände fortfarande att jag faktiskt måste begripa vad testet gick ut på. Jag läste på lite, tittade på resultaten som min handledare skrivit ut och började skriva om testet i metod-delen av pappret jag jobbar med. Samtidigt funderade jag lite runt testet och konstaterade efter en stund att något inte stämde. Så jag gick in till min handledare och följande samtal utspann sig:

Jag (K): -Jag har funderat lite och jag förstår inte riktigt hur du har gjort det här.
Min handledare (H): -Ok, vad är det du inte förstår?
K: -Du har gjort det här testet på hela datasetet va? På alla lokalerna?
H: -Ja
K: -Både inne och ute?
(inne och ute syftar på lokaler inne i och utanför den vik där proverna är tagna)
H:-Ja...Det har du rätt i! Det ska ju bara vara ute!
K:-Ja, vi borde väl bara testa ute?
H: -Ja, och då blir det inte signifikant. Vänta...
(vänder sig mot datorn och kör om testet på utedelen av datasetet = mycket färre provpunkter = svårare att se mönster)
H: -Nä, då blev det inte signifikant.
K: Synd!
H: -Ja...vi får skippa det.

Alltså blir det inget test av multimodalitet i det pappret eftersom det inte styrkte de mönster vi ser på annat vis. Och man känner sig lite som de besvikna gamarna i fotbollsmatchfilmen (ja, jag är medveten om att få personer förstår vad detta betyder) eftersom vid det här laget den första känslan av "åh nej, inte ett test till!" hunnit bytas ut mot "åh, spännande, kul med ett lite mer ovanligt test i pappret"!




Det var exempel ett. Exempel två: För någon vecka sedan hade jag ett möte med handledaren där vi diskuterade hur vi skulle analysera en del av våra data. Handledaren föreslog ett test och gav mig R-koden för att göra det. Handledaren är väl bevandrad i statistikprogrammet R som jag däremot är ganska dålig på. Och R är ett program där man själv måste skriva programmeringskod (vilket är anledningen till att jag är dålig på det) så det ger sig liksom inte av sig själv hur man ska göra, som i ett program där man kan göra allt i klickbara menyer.

Senare gjorde jag analysen med handledarens kod. Det fungerade inte. Jag mailade handledaren som inte var på institutionen och följande mailkonversation utspann sig (något avkortad).

K: -Jag får inte testet att fungera i R. R ger mig felmeddelandet att funktionen Error inte finns. Jag testade att skriva så här i stället (kopierar R-koden) och då fungerar det så långt att R åtminstone gör en beräkning, men jag tror inte att den är rätt.

H: -Nej, här har jag nog gett dig lite fel kod. Error beskriver en nestad struktur och jag tror inte det går att använda i den modellen.
(det här innebär helt enkelt att min handledares kod säger åt R att göra beräkningar som inte går att göra. "Nestad" har att göra med hur man tar hänsyn till vissa felfaktorer i analysen)
-Din variant går nog inte heller, eftersom... (statistisk förklaring här som jag inte går in på). Här är ett par förslag på hur man kan lösa det.
(skickar koder till två nya analyser, varav den ena en nestad anova (se anova ovan))
-Men var inte modellen jag körde på isotoperna, eller kommer jag ihåg fel?

K: Ja, det var därför jag misstänkte att min variant inte fungerade men jag kunde inte formulera det.
Modellen du körde var på isotoperna ja, men det var inte alls en sådan här modell, det var en nestad anova. Anledningen till att du ville använda den här modellen i stället var att det gick att stoppa in poissonfördelning i modellen.
(anova förutsätter att datat är normalfördelat)

H: Ja du har naturligtvis rätt. Antingen får vi skippa nestningen så kan du använda den modellen, men på medelvärden per lokal i stället, eller så får vi skippa den och så får du köra en nestad anova på logtransformerade data.

K: Ok. Jag testar båda så får vi fundera på vad som är lämpligast.

Och så slutade återigen en bra statistisk idé (modellen med poissonfördelningen) med en vanlig tråkig anova, fast med dubbelt så mycket jobb som krävts om vi bestämt oss för att bara göra en sådan från början...Jaja, sånt är livet i forskarvärlden. Men som sagt, när man väl får rätt på den där eländiga statistiken så är man å andra sidan väldigt nöjd.

Kommentarer

Kommentera inlägget här:

Namn:
Kom ihåg mig?

E-postadress: (publiceras ej)

URL/Bloggadress:

Kommentar:

Trackback
RSS 2.0