Wetenschap is geen goocheltrucje.
Een wetenschappelijke uitkomst is gemakkelijk te toetsen.
Het werkt wel, of het werkt niet!
Peer Review bestaat uit een goedkeurinkje van een stelletje illusionisten,
die iets dat NIET (volledig of goed) werkt een mooi strikje geven,
om het in de uitverkoop te krijgen!
De originele tekst!
"Als peer review een geneesmiddel was, zou het nooit op de markt komen," zegt Drummond Rennie, adjunct-redacteur van het Journal Of
the American Medical Association en de geestelijke vader van de internationale congressen over peer review die sinds 1989 om de
vier jaar worden gehouden. Peer review zou niet op de markt komen omdat we geen overtuigend bewijs hebben van de voordelen ervan,
maar wel veel bewijs van de gebreken ervan.
Toch weet, tot mijn voortdurende verbazing, bijna geen enkele wetenschapper iets over het bewijs van peer review. Het is een proces
dat centraal staat in de wetenschap - het bepaalt welke subsidievoorstellen worden gefinancierd, welke papers worden gepubliceerd,
wie promotie krijgt en wie een Nobelprijs krijgt. We zouden dus verwachten dat wetenschappers, mensen die getraind zijn om niets te
geloven totdat ze bewijzen krijgen, alle beschikbare bewijzen over dit belangrijke proces zouden willen kennen. Toch weten
wetenschappers niet alleen weinig over het bewijs van peer review, maar blijven de meesten ook geloven in peer review, omdat ze
denken dat het essentieel is voor de vooruitgang van de wetenschap. Ironisch genoeg ligt een op geloof en niet op bewijs gebaseerd
proces aan de basis van de wetenschap.
Collegiale toetsing is niet gemakkelijk te definiëren, en elke subsidieverstrekkende instantie en elk tijdschrift heeft een proces
dat in zekere zin uniek is. Het is duidelijk dat een externe, derde partij een subsidievoorstel of manuscript beoordeelt. Maar
hoeveel externe beoordelaars moeten er zijn? En onder welke voorwaarden moeten zij beoordelen? Moeten ze anoniem zijn of bekend bij
auteurs en lezers? En wie is een peer? Iemand die ook onderzoek doet naar het onderwerp van het voorstel of manuscript of iemand die
gewoon tot hetzelfde vakgebied behoort? Moeten beoordelaars worden opgeleid? Verschillende antwoorden op deze en vele andere vragen
leiden tot een grote verscheidenheid aan peer review-systemen.
Een nuttige manier om peer review van voltooide studies in te delen is in 'voorpublicatie' en 'na-publicatie'. Wanneer mensen
spreken en schrijven over peer review bedoelen zij meestal pre-publicatie review, het proces dat plaatsvindt voordat een studie
wordt gepubliceerd. Maar wat na de publicatie gebeurt, kan ook peer review worden genoemd, en dat is volgens mij de peer review die
er echt toe doet - het proces waarbij de wereld beslist over het belang en de plaats van een onderzoek. Arthur Balfour, een Britse
premier, had het misschien over wetenschap toen hij de beroemde uitspraak deed dat 'niets er veel toe doet en weinig dingen er
überhaupt toe doen'. Veel studies worden nooit een keer geciteerd, de meeste verdwijnen binnen een paar jaar, en slechts enkele
hebben echt, blijvend belang.
En de correlatie tussen wat belangrijk wordt geacht in de peer review vóór publicatie en wat blijvende waarde heeft, lijkt klein.
Fabio Casati, hoogleraar computerwetenschappen aan de universiteit van Trento, houder van 20 octrooien en oprichter van een
'vloeibaar tijdschrift' dat afzag van peer review vóór publicatie, zegt:
"We hebben ontdekt dat peer review niet werkt, in die zin dat er heel weinig verband lijkt te bestaan tussen het oordeel van peer reviewers en het lot van een artikel na publicatie. Veel papers krijgen zeer hoge cijfers van hun peer reviewers, maar hebben weinig effect op het vakgebied. En aan de andere kant krijgen veel papers gemiddelde beoordelingen maar hebben een grote impact" [1].De correlatie zou zelfs omgekeerd kunnen zijn, in die zin dat peer review wel eens partijdig zou kunnen zijn ten opzichte van het echt originele. Ik kom er hieronder op terug.
Maar waartoe dient peer review?
(En vanaf nu zal ik peer review vóór publicatie bedoelen als ik gewoon 'peer review' schrijf. Ik zal ook vooral schrijven over peer review van manuscripten voor publicatie en niet zozeer van subsidies, omdat dat het meest bestudeerd is, ik dat het beste ken en er een duidelijk alternatief is: het manuscript gewoon publiceren en de wereld laten beslissen). Ik zie vier hoofddoelstellingen voor peer review: selecteren wat gepubliceerd moet worden, verbeteren wat gepubliceerd wordt, fouten opsporen en fraude opsporen.
De Cochrane Collaboration, de organisatie die met haar systematische beoordelingen het meest betrouwbare bewijsmateriaal in de geneeskunde en de gezondheidszorg produceert, heeft het bewijsmateriaal over de collegiale toetsing van manuscripten en subsidievoorstellen opnieuw bekeken. Dit is de conclusie over peer review van manuscripten:
"Momenteel is er weinig empirisch bewijs voor het gebruik van redactionele peer review als mechanisme om de kwaliteit van biomedisch onderzoek te waarborgen" [2].Natuurlijk zijn de afwezigheid van bewijs en het bewijs van afwezigheid van effect niet hetzelfde, en velen, vooral de velen met een gevestigd belang in peer review, blijven geloven dat peer review gunstig is, maar dat het niet op de juiste manier is bestudeerd. Velen kunnen ook anekdotes vertellen over hoe een door hen gepubliceerde studie veel beter werd door peer review. Velen kunnen echter ook anekdotes vertellen over slechte ervaringen met peer review, en met name over enorme vertragingen door peer review zonder enig nut. Iedereen kan het er misschien over eens zijn dat het beschamend is dat een proces dat zo centraal staat in de wetenschap geen bewijs heeft om de doeltreffendheid ervan te ondersteunen - zelfs als het in werkelijkheid doeltreffend is.
En hier is de conclusie over peer review van subsidievoorstellen:
"Er is weinig empirisch bewijs over de effecten van peer review van subsidieverstrekkers. Er zijn momenteel geen studies beschikbaar waarin het effect van peer review op de kwaliteit van gefinancierd onderzoek wordt beoordeeld" [3].
Als peer review in de eerste plaats moet worden beschouwd als een methode voor kwaliteitsborging, dan hebben we helaas veel bewijs voor het falen ervan. De pretentieus genoemde medische literatuur is doorspekt met slechte studies. John Ioannidis heeft laten zien hoeveel van wat er gepubliceerd wordt vals is [4]. De redactie van ACP Journal Club zoekt in de 100 'top' medische tijdschriften naar originele wetenschappelijke artikelen die zowel wetenschappelijk verantwoord als belangrijk zijn voor clinici en stelt vast dat dit minder dan 1% is van de studies in de meeste tijdschriften [5]. Vele studies hebben aangetoond dat de kwaliteit van de statistieken in medische tijdschriften zeer slecht is [6].
Helaas zijn er veel voorbeelden van in medische tijdschriften gepubliceerde studies die niet alleen wetenschappelijk slecht zijn, maar ook grote schade hebben aangericht. Het beroemdste voorbeeld is het Lancet-artikel dat suggereerde dat het MMR-vaccin (mazelen, bof, rode hond) autisme veroorzaakte: het resultaat was een daling van het aantal gevaccineerde kinderen, epidemieën van mazelen en meer dan een decennium van vruchteloze discussies [7].
(EvR: Hier hoort een nieuwe discussie plus bewijsvoering voor op te worden gezet. Het is namelijk zo dat het bestaan van een mazelenvirus NOOIT werd bewezen ondanks dat dit in de wetenschappelijke medische kringen niet blijkt door te dringen! Uit onderzoek komt naar voor dat juist gevaccineerden mazelen krijgen, en op hogere leeftijd dan normaal! Dit aspect wordt nooit bekend gemaakt!
Tot nu toe is ieder 'virus' 'ontdekt' door het toepassen van wetenschappelijke fraude!)
Een ander voorbeeld is het New England Journal of Medicine artikel dat leek aan te tonen dat een nieuw geneesmiddel voor artritis, rofecoxib, veiliger was dan de traditionele niet-steroïde anti-inflammatoire geneesmiddelen, omdat het minder waarschijnlijk maag-darmbloedingen zou veroorzaken [8]. Helaas verborg de gebrekkige paper de toename van myocardinfarcten. Het artikel was belangrijk voor het wijdverbreide gebruik van het nieuwe middel en het veroorzaken van hartaanvallen bij duizenden patiënten.
Doug Altman, misschien wel de belangrijkste expert op het gebied van statistiek in medische tijdschriften, vat het als volgt samen:
"Wat moeten we denken van onderzoekers die de verkeerde technieken gebruiken (opzettelijk of in onwetendheid), de juiste technieken verkeerd gebruiken, hun resultaten verkeerd interpreteren, hun resultaten selectief rapporteren, de literatuur selectief citeren en ongerechtvaardigde conclusies trekken? We zouden ontzet moeten zijn. Toch blijkt uit talrijke studies van de medische literatuur dat al deze verschijnselen veel voorkomen. Dit is zeker een schandaal" [9].Terwijl Drummond Rennie schrijft in wat misschien wel de grootste zin is die ooit in een medisch tijdschrift is gepubliceerd:
"Er lijkt geen studie te gefragmenteerd, geen hypothese te triviaal, geen literatuurcitaat te bevooroordeeld of te egoïstisch, geen ontwerp te krom, geen methodologie te verknoeid, geen presentatie van resultaten te onnauwkeurig, te obscuur en te tegenstrijdig, geen analyse te zelfzuchtig, geen argument te cirkelvormig, geen conclusies te onbeduidend of te ongerechtvaardigd, en geen grammatica en zinsbouw te aanstootgevend om een artikel te laten drukken."We hebben weinig of geen bewijs dat peer review 'werkt', maar we hebben veel bewijs van de keerzijde ervan.
Ten eerste is het erg duur in termen van geld en academische tijd. Bij het British Medical Journal hebben wij berekend dat de directe kosten van de beoordeling van een artikel gemiddeld ongeveer 100 pond bedragen en dat de kosten van een gepubliceerd artikel nog veel hoger liggen. Deze kosten omvatten niet de kosten van de tijd van de beoordelende academici, die niet door het tijdschrift worden betaald. Het Research Information Network heeft berekend dat de wereldwijde kosten van peer review £1,9 miljard bedragen [10]. De kosten in tijd zijn ook enorm, en veel wetenschappers stellen dat de tijd die besteed wordt aan peer review beter besteed kan worden aan wetenschap.
De kosten in tijd en geld worden veel hoger doordat studies zich een weg banen door de voedselketen van tijdschriften. Een studie kan bij Nature worden ingediend en afgewezen, vervolgens naar het New England Journal of Medicine worden gestuurd en worden afgewezen, en zo verder via het Lancet, British Medical Journal en verschillende gespecialiseerde tijdschriften, alvorens in een lokaal tijdschrift te belanden. Vaak worden dezelfde recensenten herhaaldelijk geraadpleegd. En we weten dat als auteurs maar lang genoeg volhouden, je alles gepubliceerd kunt krijgen.
Dit dure en tijdrovende proces zou aanvaardbaar kunnen zijn als het de informatie doeltreffend zou sorteren, waarbij de belangrijkste studies in de belangrijkste tijdschriften terecht zouden komen. Niet alleen gebeurt dit niet (zie hieronder), maar deze ondoeltreffende sortering van informatie leidt tot een belangrijke vertekening - omdat de 'sexier' artikelen in de 'top'-tijdschriften terechtkomen. De vele mensen die deze tijdschriften lezen omdat ze denken dat ze lezen wat het belangrijkst is, krijgen in feite een vertekend beeld van de wetenschap.
Ten tweede is peer review traag. Het proces neemt regelmatig maanden en soms jaren in beslag. Publicatie kan dan nog vele maanden langer duren. Een vriend van mij, een fellow van de Royal Society, heeft een artikel geschreven dat ik zeer belangrijk vind voor de wereldgezondheid. Terwijl ik dit schrijf, is het nog steeds niet gepubliceerd na twee jaar te zijn beoordeeld door verschillende 'top'-tijdschriften. Geen van de beoordelaars heeft een belangrijke fout in de studie naar voren gebracht.
Ten derde is peer review grotendeels een loterij. Meerdere studies hebben aangetoond dat als verschillende auteurs gevraagd wordt een artikel te beoordelen, hun overeenstemming over de vraag of het gepubliceerd moet worden weinig groter is dan bij toeval zou worden verwacht [11]. Een studie in Brain evalueerde recensies die naar twee neurowetenschappelijke tijdschriften en naar twee neurowetenschappelijke bijeenkomsten werden gestuurd [12]. De tijdschriften gebruikten elk twee reviewers, maar een van de bijeenkomsten gebruikte 16 reviewers, terwijl de andere er 14 gebruikte. Bij een van de tijdschriften was de overeenstemming tussen de beoordelaars niet beter dan toeval, terwijl die bij het andere tijdschrift iets groter was. Voor de bijeenkomsten was de variatie in de beslissing om te publiceren voor 80 tot 90% toe te schrijven aan het verschil in mening van de beoordelaars en voor slechts 10 tot 20% aan de inhoud van het ingediende abstract.
Een vierde probleem met peer reviews is dat het geen fouten opspoort. Bij het British Medical Journal namen we een studie van 600 woorden die we op het punt stonden te publiceren en voegden er acht fouten in [13]. Vervolgens stuurden we het artikel naar ongeveer 300 recensenten. De mediaan van het aantal ontdekte fouten was twee, en 20% van de recensenten ontdekte er geen. Wij hebben nog meer studies gedaan naar het opzettelijk invoegen van fouten, sommige van zeer grote omvang, en kwamen tot soortgelijke resultaten.
Het vijfde probleem met pre-publicatie peer review is bias. Er zijn veel studies over vooringenomenheid geweest - met tegenstrijdige resultaten - maar de beroemdste werd gepubliceerd in Behavioural and Brain Sciences [14]. De auteurs namen 12 studies van prestigieuze instellingen die al waren gepubliceerd in psychologische tijdschriften. Ze typten de artikelen over, maakten kleine veranderingen in de titels, samenvattingen en inleidingen, maar veranderden de namen en instellingen van de auteurs. Ze verzonnen instellingen met namen als het Tri-Valley Center for Human Potential. De papers werden dan opnieuw ingediend bij de tijdschriften die ze eerst hadden gepubliceerd. In slechts drie gevallen realiseerden de tijdschriften zich dat zij het artikel al hadden gepubliceerd, en acht van de overige negen werden afgewezen - niet wegens gebrek aan originaliteit, maar wegens slechte kwaliteit. De auteurs concludeerden dat dit wees op een vooroordeel tegen auteurs van minder prestigieuze instellingen. De meeste auteurs van minder prestigieuze instellingen, vooral die in de ontwikkelingslanden, geloven dat peer review tegen hen gericht is.
Misschien is een van de belangrijkste problemen met peer review wel de vooringenomenheid tegen het echt originele. Peer review kan worden omschreven als een proces waarbij de 'gevestigde orde' bepaalt wat belangrijk is. Het zal geen verbazing wekken dat de gevestigde orde slecht is in het herkennen van nieuwe ideeën die de oude ideeën onderuit halen. Zo is het ook in de kunsten, waar de late strijkkwartetten van Beethoven tot niets anders dan lawaai werden verklaard en Van Gogh tijdens zijn leven slechts één schilderij wist te verkopen. David Horrobin, een uitgesproken criticus van peer review, heeft voorbeelden verzameld van peer review die enorm belangrijk werk afwees, waaronder Hans Krebs' beschrijving van de citroenzuurcyclus, waarmee hij de Nobelprijs won, Solomon Berson's ontdekking van de radio-immunoassay, die tot een Nobelprijs leidde, en Bruce Glick's identificatie van B-lymfocyten [15].
Tenslotte kan peer review maar al te gemakkelijk worden misbruikt. Recensenten kunnen ideeën stelen en ze als hun eigen ideeën presenteren of een onterechte harde recensie produceren om de publicatie van de ideeën van een concurrent te blokkeren of op zijn minst te vertragen. Dit is allemaal gebeurd. Drummond Rennie vertelt het verhaal van een artikel dat hij, toen hij adjunct-redacteur was van het New England Journal of Medicine, ter beoordeling naar Vijay Soman stuurde [16]. Nadat hij een kritische beoordeling van het artikel had gemaakt, kopieerde Soman enkele van de paragrafen en diende het in bij een ander tijdschrift, het American Journal of Medicine. Dit tijdschrift stuurde het bij toeval ter beoordeling naar de baas van de auteur van het geplagieerde artikel. Zij realiseerde zich dat er plagiaat was gepleegd en maakte ernstig bezwaar. Ze dreigde Soman aan te klagen, maar dat werd haar afgeraden. Uiteindelijk werd echter ontdekt dat Soman gegevens en patiënten had verzonnen en verliet hij het land.
Peer review wordt vaak vergeleken met democratie als het minst slechte systeem dat er is, en er zijn pogingen gedaan om peer review te verbeteren - door reviewers blind te maken voor de identiteit van auteurs, door het proces open te stellen zodat auteurs en mogelijk zelfs lezers de identiteit van de reviewers kennen, en door reviewers op te leiden. Samengevat heeft geen van deze methoden veel verschil gemaakt [17,18].
Voor de peer review van tijdschriften is het alternatief om alles te publiceren en vervolgens de wereld te laten beslissen wat belangrijk is. Dit is mogelijk dankzij het internet, en Charles Leadbeater heeft geïllustreerd hoe we van een wereld van 'filter dan publiceren' zijn overgegaan naar een wereld van 'publiceren dan filteren' en een wereld van 'ik denk' naar een wereld van 'wij denken' [19]. Het probleem met filteren alvorens te publiceren, peer review, is dat het een ineffectieve, trage, dure, bevooroordeelde, inefficiënte, anti-innovatieve en gemakkelijk te misbruiken loterij is: het belangrijke wordt er net zo gemakkelijk uitgefilterd als het onbelangrijke. Hoe eerder we de 'echte' peer review van post-publicatie aan het werk kunnen laten gaan, hoe beter.
Fabio Casati zegt het zo:
"Als jij en ik dit paper opnemen in onze journals [onze persoonlijke collecties], geven we het waarde.... Wanneer dit wordt gedaan door honderden mensen zoals wij, gebruiken we de selectiekracht van de hele gemeenschap om de bijdrage te waarderen. Interessante papers zullen boven de ruis uitstijgen."Dit is 'wij denken' in plaats van wat een paar willekeurig geselecteerde beoordelaars denken.
Het probleem van het vinden van een alternatief voor peer review van subsidies is moeilijker - omdat er duidelijk niet de middelen zijn om elk subsidievoorstel te financieren. Maar het is misschien belangrijker om te proberen een alternatief te vinden - bijvoorbeeld door zeer succesvolle wetenschappers geld te geven om te doen wat zij willen - omdat het anti-innovatieve karakter van peer review kan betekenen dat belangrijke wetenschap niet wordt gedaan.
Onlangs debatteerde ik voor ongeveer 80 mensen van de Association of Learned and Scholarly Publishers over peer review. Het is geen verrassing dat ik tegen peer review pleitte. Niemand was het eens met mijn standpunt vóór mijn lezing - en niemand was het met mij eens na mijn lezing. Deze redacteuren en uitgevers waren 100% voorstander van peer review. De meerderheid van de wetenschappers is ook sterk voorstander van peer review, hoewel het minder dan 100% is.
Waarom is men zo'n groot voorstander van peer review? Eén argument is dat we een mechanisme moeten hebben, zij het een onvolmaakt mechanisme, om de wetenschap te sorteren - anders worden de mensen overstelpt met informatie, waarvan een groot deel slecht is. Mijn antwoorden zijn dat dit al het geval is en dat het huidige systeem, in plaats van de studies te sorteren in belangrijk en onbelangrijk, misleidende signalen afgeeft door te veel aandacht te geven aan de 'wetenschappelijk sexy' [20]. Ik ben voorstander van sorteren, maar ik denk dat dit beter werkt na publicatie, wanneer honderden geesten en publicaties in plaats van slechts één of twee besluiten wat zij belangrijk vinden.
Een ander argument voor peer review, met name in de geneeskunde, is dat het voorkomt dat mensen worden misleid. Helaas is dat niet het geval, zoals ik heb aangetoond. Bovendien worden veel resultaten eerst beschikbaar gesteld via conferenties en de massamedia - zodat zelfs als peer review effectief zou zijn, het de verspreiding van misleidende resultaten en conclusies niet zou kunnen voorkomen.
Ik vrees dat de echte belemmering voor verandering gelegen is in gevestigde belangen. Die 1,9 miljard pond kostende peer review is een groot aantal banen en, wat nog belangrijker is, het wordt gezien als een essentieel onderdeel van de 24 miljard pond kostende industrie van het publiceren, verspreiden en toegankelijk maken van tijdschriftartikelen, die zelf 14% uitmaakt van de kosten van het ondernemen, communiceren en lezen van de resultaten van onderzoek. Dit is niet alleen een groot aantal banen, maar ook aanzienlijke inkomsten en winsten voor commerciële uitgevers en wetenschappelijke verenigingen die eigenaar zijn van tijdschriften.
Maar bedenk eens wat we zouden kunnen doen als we de bijna 2 miljard pond die aan peer review wordt besteed, zouden vrijmaken.