Transkribering
Ben Goldacre: Gömda data skadar oss alla, reanalys av avmaskningsstudie visar att effekterna försvann
Martin
Ben Goldacre, gömda data skadar oss alla, ren användning av avmaskning studievisar att effekterna försvann. Samt Chris Blattman, studie om avmaskning av skolbarn håller kritiken är överdriven, vetenskapsjournalister sjokunnighet skadar debatten. Och vi börjar med Ben Goldacre. Det här är ett lysande inlägg som är ganska långt som Ben Goldacre har skrivit. Han är en läkare och epidemiolog och författare som är...
Mycket intresserad av öppna data och ger större perspektiv av hur vi egentligen vet det vi vet. Här tar han nu ett exempel som är aktuellt eftersom det är en reanalys av en mycket inflytelserik studie. Det är en studie som utfördes 2004 av två ekonomer, Edward Miguel och Michael Kramer. De studerade i Kenya effekten av avmaskningsmedicin på skolbarn.
Och fann att om man införde avmattningsprogram i skolor så förbättrades barnens hälsa, deras skolprestationer och deras närvaro i skolan. Och att de här förbättringarna dessutom hade stora spridningseffekter och påverkade även närliggande skolor som inte deltog i programmet. Det här var barnbrytande, kanske inte framförallt på grund av just detta fynd, utan för att det var en del av att börja revolutionen i barnbrytande.
biståndssfären med att göra randomiserade prövningar för att se vad som faktiskt är effektivt för att hjälpa människor. Ofantligt mycket biståndspengar går, som vi vet, till åtgärder som inte alls är effektiva och som ibland är kontraproduktiva. Och... Sen en tid har man börjat göra mer rigorösa undersökningar för att se vad som faktiskt har den effekt som man önskar. Innan vi går in på diskussionen om skattemedel i bistånd så vill jag föregripa den genom att säga att det här gäller förstås i lika hög grad bistånd som är privatfinansierat till exempel genom Gates Stiftelse eller andra.
Nu har de här två ekonomerna, Miguel och Krimer, skickat sina data till en oberoende forskargrupp som har analyserat om dem. Vid reanalysen så visade det sig att ganska många av fynden faktiskt inte håller av olika skäl. Det är data som fattas, det är felprogrammerad analyskod, det är rena misstag. Det här har lett till att flera av slutsatserna har fått omvärderas. Nu är det egentligen inte det som är huvudpoängen, utan huvudpoängen är just att Väldigt ofta finns det ingen möjlighet att säga om data visar det som forskare påstår.
Det finns en metaanalys av... om analyser av kliniska prövningar. Kliniska prövningar är experiment där vi tar reda på om våra läkemedel har någon effekt. Endast 37 kliniska prövningar av alla de många tusentals som någonsin har utförts har någonsin blivit föremål för reanalys. I ungefär en tredjedel av dem hittade man andra fynd än vad de ursprungliga rapporterna visade.
Så det här exemplet med biståndsstudien är bara en utmaning. indikation på att vi behöver ett helt nytt sätt att tänka i vetenskapen. Forskningens trovärdighet måste baseras på att andra kan granska de data som har tagits fram fritt och öppet och göra sin egen bedömning. Det är jättebilligt, det är kostnadseffektivt, data är i många fall framtagna med offentliga medel och bör vara en gemensam tillgång istället för att ligga och rutna i forskarens egna arkiv.
Boris
Det här är väl värt att läsa. Men det här med data som ligger och ruttnar i forskarnas egna arkiv, ska man tolka det som att det menar att forskare egentligen inte vill ha sina resultat granskade?
Martin
Så kan det vara. Jag tror framförallt dock att det handlar om en kulturfråga. Ända sedan Royal Society på 1600-talet grundade sin första vetenskapliga tidskrift så har modellen sett ut ungefär på samma sätt. Nämligen att man publicerar inte dator, utan man publicerar bara ett sammandrag i form av en tidskriftsartikel. Och det var utmärkt på 1600-talet. Men att vetenskapssamhället inte har börjat använda internet för att kommunicera sina data, det är mycket anmärkningsvärt.
Vi har ju precis all infrastruktur som behövs. Vi har också mekanismer för att hantera sånt som hur ska man hantera rättigheterna till data och avgöra vem som ska kunna få analysera om dem. Allt detta finns. Det som saknas är kulturförändringen. Och vi vet också ungefär hur mycket data som försvinner. Det finns experiment där man har kontaktat forskare och bett att få se på deras data.
Och man har gjort det med forskare som har lovat på förhand att data ska gå och visa upp. Det är ändå inte mer än 10-20% av dataset som färger. går att få fram. Det är därför att, framförallt tror jag, forskare inte själva har koll på dem. Den som har arbetat med data kanske har bytt jobb, man kanske inte har haft filerna i ordning från början och så vidare. Så att det sättet som vi idag hanterar våra forskningsdata på, det är inte mycket bättre än om man skulle släppa in barbarerna en gång om året, låta dem släpa ut arkivskåpen på MoFo och sedan elda upp dem på gräsplanen utanför kontoret.
Boris
Men det måste jag också inne... Det här är ju lite skrämmande. Vi får inte ta ifrån oss våra illusioner om hur effektiva och ordentliga alla forskare är.
Gustav N
Eller så är det kanske dags att be er upp med de illusionerna. Jag tycker att det är verkligen anmärkningsvärt en del saker som man kan läsa i den här artikeln. Jag själv har inte så bra koll på forskning och hur de här sakerna funkar till vardagsforskare. Däremot vet jag en del om mjukvaruutveckling eftersom det är vad jag gör proportionellt. Jag har också varit ansvarig för ett antal affärskritiska viktiga frågor.
mjukvarusystem. Jag vet att när man skriver kod som ska användas för ett viktigt syfte, om det är bara lite viktigt, någorlunda viktigt, vad den här koden ska köra och det har någon betydelse, då är man väldigt, väldigt noggrant med hur man skriver den. Man skriver den, man undersöker det väldigt noggrant, man har flera kompetenta personer som undersöker varandras arbete, man skriver testsviter för att man automatiskt ska kunna kontrollera koden och över huvud taget så har man ett väldigt intryggat och utförd arbete.
för att se till att det inte finns fel i den här koden. Och i det här fallet så har man haft, om jag förstår saken rätt, bara rakt av felaktigt... programmerade program som har lett till totalt felaktiga beräkningar. Jag kan förstå kanske att det är lätt att det blir så med tanke på att forskare inte är programmerare och kanske saknar en kompetens och de hantverks rutiner som behövs för att göra det på ett bra sätt.
Men bara från mitt utifrån perspektiv så låter det fullständigt bedrövligt och mitt förtroende för forskning i allmänhet kommer i svung. Och jag har tänkt på det här tidigare faktiskt, när jag har sett forskare och de datorprogram som de skriver. De tillfällen då jag faktiskt fått inblick och fått se hur det ser ut, så har det, ja det har varit skrämmande faktiskt.
Martin
Så är det, och det är naturligtvis så att de flesta forskare numera, eller åtminstone en stor andel, behöver använda sig av programmering, av kraftfulla statistikprogram, som man kanske inte har haft någon formell utbildning i. Man är inte programmerad, men man måste ändå försöka. Det tycker jag är acceptabelt. Det som inte är acceptabelt är att man gör det här helt bakom stängda dörrar. Om man åtminstone publicerade data och kod öppet så skulle vem som helst kunna granska ens kod.
Och då se efter ifall det stämmer. Är det möjligt? Ja då är det ju inte lika allvarligt ifall det finns något fel. Utan då kan vetenskapen på sitt sedvanliga sätt gå vidare genom att andra bygger vidare på det som den första har gjort. Och... så kommer man till slut fram till rätt resultat.
Gustav N
Jag tycker det låter som ett tillfälle då open source-världen verkligen skulle kunna användas. Jag kan tänka mig att det är många programmerare där ute som skulle tycka det var intressant att titta just på kod som används för forskning och som används i skarpa forskningsprojekt. Och i allmänhet så tror jag att det är lätt för en kompetent programmerare att hitta felen i en amatörmässig forskares kod.
Jag är en amatörbaserad programmerare som sitter på en forskningsinstitution någonstans. Åtminstone har det varit min erfarenhet. Så det skulle inte ens vara så svårt, men problemet är väl att man inte vill släppa ifrån sig saker. Det är inte en släpp av data,
Martin
än mindre koden man har skrivit. Han har då skrivit att resultaten från den här studien om avmassning är faktiskt mer robusta än vad det låter som.
Det är bara genom att samtidigt göra flera olika modifieringar av analysen som huvudresultaten försvinner. Man måste splitta upp datasätter till två och så måste man bryta ut effekter på skolnivå istället för individnivå och så vidare. Det här motsäger egentligen inte så mycket det som Ben Goldecker har skrivit utan det som han skrev handlar om att...
Det är flera av utfallsmåtten, men inte alla, vars resultat förändras. Och dessutom så är det här bara ett exempel. Men om man vill ha balans just i rapporteringen om avmassningsstudien rekommenderar jag att också titta på länken av Chris Blattman.