Om myrer og DTU-studerende

Et sjovt studie fra forskere på University of Lausanne i Schweiz er netop blevet offentliggjort. Her markerede man hver enkel myre i en koloni med små ’trackerer’, så man på den måde kunne opsamle detaljeret data om deres myrer-hverdag og således studerer, hvordan myrerne interagerede med hinanden.

Åbenbart findes der tre slags job som myrer i en myretue: myrer der passer de små myrer og dronningen, myrer der holder kolonien ren og myrer der samler føde ind.

Computer-trackede myrer. Billede taget af Alessandro Crespi.
Computer-trackede myrer. Billede taget af Alessandro Crespi.

Studiet minder meget om et lignende forsøg, der også udføres på andre hårdtarbejdende væsner: nemlig på DTU studerende. På SensibleDTU har man givet 150 studerende mobiltelefoner, der så tracker de studerendes gøren og laden. Det er endnu uvist om der også findes tre slags DTU jobs, men forskerne har udgivet et enkelt kort over hvor de studerende har deres gang. Eller også er det en MS Paint tegning, det er svært at se.

GPS tracking af DTU studerende. Billede af Sune Lehmann.
GPS tracking af DTU studerende. Billede af Sune Lehmann.

Måske vi skulle gøre noget lignende med patienter? Vi gør det selvfølgelig allerede lidt for hver enkelt interaktion en fysioterapeut, en sygeplejerske eller en læge har, bliver jo rapporteret i journalerne. Men det fysiske møde, hvor det foregår, tiden det tager og hvor meget en patient egentlig bliver sendt rundt på forskellige afdelinger, ved man vel reelt ikke særlig meget om.

Eller hvad med kroppens celler? Stam-celle forskerne er vist længst fremme med sådanne teknikker – fx ved at markerer celler med nanopartikeler inden de sprøjtes ind i mus; eller med forskellige fluorescens-gener der lyser op i forskellige farve-spektra i levende (gennemsigtige) zebra-fisk som på billedet herunder. Der findes jo også mere gammeldags metode som, at tage organet man er interesseret i ud og farve, med markører der binder til de celler man er interesseret i – jeg har selv brugt temmelig lang tid på sådan et projekt for at undersøge interaktionerne mellem immunceller og kræftceller – men det er jo ikke sådan live og ’real-time’-agtig.

Ved at fluorescens-markerer bestemte celle-typer i gennemsigtige zebrafisk, kan man se hvordan cellerne argerer live.
Ved at fluorescens-markerer bestemte celle-typer i gennemsigtige zebrafisk, kan man se hvordan cellerne argerer live.

Nå – hvad vil jeg med alt det her? Jo, min pointe er egentlig bare, at jo flere data vi får – og tro mig, vi vælter efterhånden rundt i data – jo mere får vi også behov for nye metoder at analyserer dem på. Statistik opfører sig lidt anderledes når man har 9.000.000 datapunkter i stedet for 100. Jeg tror jeg vil på et nyt statistik kursus når jeg er færdig med studierne.

Kilder

Ed Yong, Tracking whole colonies shows ants make career moves, Nature, 2013.
Jakob Møllerhøj, Sådan kommunikerer vi med Facebook, SMS og ansigt til ansigt, Ingeniøren, 2013.
Renaud et al, Studying cell behavior in whole zebrafish embryos by confocal live imaging: application to hematopoietic stem cells, Nature Protocols, 2013.

Er KBU lodtrækningen tilfældig?

Den halvårlige lodtrækning om turnus-pladserne er netop overstået. Som altid er der nok at sludre om – hvem har fået gode og dårlige numre? Kan man få et ”godt” turnus forløb? Og er lodtrækningen nu også foregået tilfældigt?

Det sidste spørgsmål er jo lidt sjovt. Så lad os prøve at finde ud af det.

basislaege.dk kan man se hvilke byer har fået tildelt hvilke numre. Der er 177 nye læger fra KU, 129 fra AU og 64 fra SDU, 370 i alt. Jeg har hentet data ned og fjernet de 4 der har fået tildelt særlige hensyn.

Lige mange lave og høje numre i byerne?

Hvis vi deler de 370 numre op i 10 grupper, således at nummer 1 til 37 er gruppe 1, nummer 38 til 74 er gruppe 2, osv., burde KU, AU og SDU have hhv. omkring 48 %, 35 % og 17 % i hver gruppe. Det svare til ca. 18, 13 og 6 numre i hver af de 10 grupper. Altså hvis der ikke er nogle byer der er blevet forfordelt.

Det første vi kan gøre er derfor bare at kigge på om hver by fordeler sig uniformt i de 10 grupper:

Fordeling af KBU lodtrækning

For KU passer antagelsen jo temmelig godt – der er næsten ingen forskel på de enkelte grupper. For AU og SDU ser mindre fordelingen mindre uniforme ud. En let måde at understrege dette på er at kigge på median og gennemsnit – hvis data fordeler sig uniformt vil de to tal nemlig være meget ens:

Gennemsnit / Median
KU: 184.64 / 186
AU: 184.05 / 193
SDU: 190.84 / 168

Så for AU og SDU er tallene altså en smule skæve. Men i gennemsnit er AU’erne ikke blevet forfordelt. Vi stakkels SDU studerende har desværre fået lidt højre numre i snit, men en simpel ANOVA fortæller os der ikke er nogen forskel på AU’s, KU’s og SDU’s tal.

Men der er nu alligevel mange AU’er der falder i de gode gruppe 1 og 2. Kan det virkelig være tilfældigt opstået?

Simulation

En måde at svare det på kunne være at simulerer 1000 nye lodtrækninger, hvilket jeg har gjort med følgende R kode:

[code language=”r”]
library(permute)

hbreaks = seq(0,370,by=37) #variabel for breaks

df_sdu_rand <- data.frame() #generate empty df’s to fill up
df_au_rand <- data.frame()
df_ku_rand <- data.frame()

for(i in 1:1000) { #loop
rand_n370 <- shuffle(370)
sdu_rand <- rand_n370[1:64]
au_rand <- rand_n370[65:193]
ku_rand <- rand_n370[194:370]

h_sdu <- hist(sdu_rand, breaks = hbreaks, plot = FALSE)
h_au <- hist(au_rand, breaks = hbreaks, plot = FALSE)
h_ku <- hist(ku_rand, breaks = hbreaks, plot = FALSE)

#Grupper af 10
df_sdu_rand <- rbind(df_sdu_rand, h_sdu$counts)
df_au_rand <- rbind(df_au_rand, h_au$counts)
df_ku_rand <- rbind(df_ku_rand, h_ku$counts)
}
[/code]

Ud af de 1000 nye lodtrækninger er der ingen der kommer over eller under de røde linjer på figur 1. Hvis der var tal i den rigtige lodtrækning der lå herunder eller over, ville det altså være mistænksomt.

SDU kommer tæt på, da kun 1 person i datasættet har fået tildelt under 37 – men det kan altså være tilfældigt, omend det kun sker i 5 gange i mine 1000 simulationer (altså i 0,5 % af tilfældene), at SDU kun får 1 i gruppe 1.

Men datasættet snyder. Der mangler nemlig nogle tal, idet personer der har trukket nummer, men ikke vil vælge forløb ikke er på. Nu ved jeg tilfældigvis at et af de numre der ikke er på listen, nemlig nummer 11, er tildelt en SDU’er, hvorfor SDU altså har 2 i denne gruppe (det sker i ca. 3 % af min simulationer at SDU kun får 2 i gruppe 1).

Stadig ingen rygende pistol. Vi må hive det tunge skyts frem.

Er det sidste ciffer tilfældigt?

Inden for den politiske verden er man også meget interesseret i om der bliver snydt, fx ved et valg. En metode er Benford’s Law, men den kan ikke vi bruge her da vi kun har tal op til 370.

En anden er Beber og Scacco’s last digit (”sidst ciffer”) metode. Her kigger man på sidste ciffer blandt en række tal. Alle tal mellem 0 og 9 burde optræde lige hyppigt som det sidste ciffer. Da mennesker ofte er dårlige til at finde på tilfældige tal, genbruger de ofte de samme cifre, så hvis tallene ikke er uniformt fordelt, kunne det tyde på snyd.

Lad os se hvordan tallene ser ud for de enkelte byer:

Sidste ciffer test

Hvad er nu det for noget? Her stikker SDU’s tre-taller jo ud. Lidt over 20% af de sidste cifre er tallet 3, hvilket umiddelbart er lidt underligt. Det burde jo være omkring 10 %. Svaret skal nok findes i at der kun trækkes 64 numre til Odense, hvorfor risikoen for en skæv fordeling er høj.

Lad os igen prøve at simulerer 1000 tilfældige lodtrækninger, hvilket er gjort med følgende kode (med hjælp fra Peter Flom):

[code language=”r”]
n <- 1000
maxes <- vector("numeric", n)
for (i in 1:n)
{
x <- sample(0:9, 64, replace=TRUE)
maxes[i] <- max(table(x)/64)
}
sum(maxes > 0.20)/n
[/code]

Ideen er at generer 64 tilfældige tal mellem 0 og 9 og hver gang udvælger det tal der optræder hyppigst, og så regne ud hvor stor en procentdel det udgør. Det gør vi så 1000 gange. Dernæst kan vi så spørge: hvor ofte sker det blandt 64 tilfældige tal, at et ciffer optræder mere end 20 % af tilfældene?

Svaret er lidt overraskende, at det sker i ca. 17 % 10 % af tilfældene! ”Sidst-ciffer” testen er altså ikke speciel god når vi vil checke SDU’s 64 numre.

Hvis vi derimod køre samme test på 177 (det antal numre der blev trukket på KU) i stedet for 64, er der kun 0.1% 0 % chance for at et ciffer optræder mere end 20% af tiden.

Konklusion

De numre de enkelte byer er blevet tildelt kan godt være opstået tilfældigt, og det virker derfor ikke til at onde bureaukrater har forfordelt nogle byer.

Et kig på første halvdel af Superliga sæson 2012/13

Siden denne fodbold sæson er starter har jeg fulgt lidt med i hvilke mål der er blevet scoret og hvordan. Nu da første halvdel af sæsonen er ovre, og der er scoret 345 mål, kan jeg så småt begynde at kigge lidt på hvad der egentlig skal til for at score et mål.

Hvornår bliver der scoret mål?

Hvornår bliver der scoret?

Stort set hele tiden – dog med signifikante peaks mellem det 30-35 min. og i det 75-80 min. Dette er lidt overraskkende – en frisk undersøgelse af tysk fodbold i PLoS ONE viste at det især var de sidste minutter op til hver halvlegs afslutning, at der var peaks.

Hvorfra bliver der scoret?

Jeg har delt banen op i 30 felter. Det er ikke overraskende, at langt de fleste mål bliver scoret umiddelbart lige foran mål. Indlæggene der føre til målet, kommer heller ikke som en overraskelse.

Hvorfra scores der?

Hvorfra afleveres der når der scores mål?

Hvorfra starter situationen der føre til mål så? En stærk midtbane lader til at være vigtige. Af nedestående tabel kan man også se, at langt de fleste mål ”spilles” ind.

Hvor starter situationen, der føre til mål?

Hvor i målet bliver der scoret?

Lavt åbenbart. Jeg ville træne at kaste mig til jorden en hel del hvis jeg var målmand, for det er åbenbart der boldene kommer.

Hvor i målet scoret der?
Hvor i målet scoret der?

Hvilket hold er bedst til at omsætte skud?

En ting jeg har været meget interesseret i, er hvor gode de forskellige hold er til at omsætte skud på mål til et reelt mål. Holdene score i snit på hver femte skud på mål, men det er tydeligt at der er stor forskel mellem de forskellige hold. AGF topper med en scoring på næsten hver 3. skud.

Stay tuned – de sjove bliver når jeg får tid til at analyserer de enkelte hold.

Goodiebag blogs

Jeg fik følgende mail i går:

Hvem i al verden har lyst til at gøre reklame på en blog der skriver om testikler, sæd og muse-psykologi? Jeg takkede nej, så nu finder vi aldrig ud af det, men det må virkelig have været en dybt bizar goodiebag, de havde en tankerne.

Der må være tonsvis af bloggere der får ting og sager fra reklamebureauer. Jeg kender selv en enkelt, der har stor succes med sådan noget. Vi er vel en billig måde at skabe lidt reklame på.

Jeg vil opfordre bloggere til at lade vær, eller i hvert fald kræve deres ret – dels er det sgu for cheap: “information og/eller en goodiebag”? Det trick virker måske på en 14-årig modeblogger, men hvis de virkelig ville ha’ mig til at bruge tid og energi på at udføre deres job, så kunne de i det mindste gi’ et rigtigt tilbud. Jeg er nok ikke mere værd alligevel, men der er blogs med langt flere læsere end min, som er langt bedre udformet og skrevet, der spises af med peanuts. Til sammenligning omsatte Aegis Media – ifølge Wikipedia – for 1,350 millioner britiske pund i 2011.

Men i sidste ende handler det egentlig bare om, at jeg ikke gider, at man kan stille spørgsmålstegn ved mine holdninger. Ændre en goodiebag ved det? Nok ikke. Men jeg er færdiguddannet som læge lige om lidt, og her forventes det også, at man opføre sig etisk korrekt. Det betyder at man skal være “uafhængig af bindinger til industrien”. Grænsen er tynd og aldrig helt tydelig. Jeg tænker det bare er bedst at lære at sige “nej tak” fra starten af. Så nej tak til goodiebags.

Hvem er bedst – Cornelius eller Jørgensen?

Lørdagens landskamp mod Tjekkiet så Nikolai Jørgensen starte inde de første 71 minutter, inden Andreas Cornelius blev sendt på banen. Men hvorfor var det egentlig ikke Cornelius der startede inde?

De to spillere er lette at sammenligne: de spiller begge for samme klub, de er ca. lige gamle og så har de begge haft en succesfuld start på efterårssæsonen i superligaen. Hvis du var Morten Olsen, hvem ville du så vælge?

Det logiske er selvfølgelig, at kigge lidt på hvordan de har klaret sig i superligaen indtil nu. Da de har de samme medspillere mener jeg dette er fair. Superstats.dk er leveringsdygtig i meget data, så der kan vi hurtigt finde noget data at gå ud fra.

Mål-data fx. Med lidt statistik kan vi regne ud, med hvor ofte og med hvor meget variation de score mål:

Cornelius
Tid spillet: 558 minutter.
Mål: 6
Middelværdi: ca. 0,01 mål pr. min.  (= 0,97 mål pr. 90. min)
Variation (standard deviation): ± 0,86

Jørgensen
Tid spillet: 400 minutter.
Mål: 3
Middelværdi: ca. 0,0075 mål pr. min (= 0,68 mål pr. 90 min)
Variation (standard deviation): ± 0,61

Graf der viser antal mål over minutter spillet i superligaen for Cornelius og Jørgensen

På grafen ser man i hvilke minutter de to spillere har scoret deres mål. Den stiplet linie viser gennemsnittet, hvoraf man tydeligt ser – som i udregningen herover – at Cornelius er bedre i snit. Den viser også, at mens Jørgensen først på det seneste har fået “hul på bylden”, så har Cornelius været stabil i hans målscoring de første 8 kampe af sæsonen.

Nu kan der jo være andre ting i fodbold der er vigtige. En artikel fra tidligere i år påstår at sprint og hop er vigtige karakteristika for de spillere der score mål.

Jeg har kodet en del data fra superligaen ind, bl.a. hvad der sker under målgivende situationer. Deraf kan jeg se, at Cornelius har scoret 3 gange med hovedet og 3 gange med fødderne. Jørgensen 2 gange med hovedet og 1 gang med fødderne.

Mere interessant bliver det dog at kigge på de situationer, som føre til mål for de to spillere. Hvor hurtigt foregår pasningerne mellem FCK spillerne, når hhv. Cornelius og Jørgensen score? 1,78 sekunder pr. pasning i snit (for Cornelius’ 6 mål) og 2,1 sekunder pr. pasning i snit (for Jørgensens 3 mål). En måde at aflæse disse data på er, at Cornelius simpelthen er hurtigere til at komme op til målet når han score.

Alt i alt må man undre sig over at Cornelius ikke får lov at starte inde.

Kilder:

Faude et al, ”Straight sprinting is the most frequent action in goal situations in professional football”, Journal of Sports Science, 2012.