>Vaccins en Statistiek<

In medische trials is het nu nog taboe om achteraf extra proefpersonen te gaan testen. Dat zet namelijk de deur open naar sturen op de gewenste uitkomst. Met een nieuwe statistische methode, Safe Testing, mag dat wel. Dat geeft ook meer vrijheid om meerdere trials met elkaar te combineren. Peter Grünwald en Judith ter Schure gebruiken deze nieuwe methode momenteel om te toetsen of het BCG-vaccin tegen tuberculose ook bescherming biedt tegen Covid-19.

Met Safe Testing kun je medische trials naar wens stoppen, verlengen of combineren


Nieuwe statistische toets ondervangt de tekortkomingen van de p-waarde.

Door Arnout Jaspers

Goede medische trials, bijvoorbeeld om te testen of een vaccin tegen Covid-19 echt werkt, zijn aan strenge regels gebonden. Zo moet worden berekend hoeveel proefpersonen minstens nodig zijn om betrouwbare resultaten te krijgen. Ook wordt vastgelegd wat je precies verstaat onder ‘ziek’ of ‘niet ziek’, en wanneer dat meetelt. Met andere woorden: wat zijn de mogelijke ‘eindpunten’ voor de proefpersonen? Tel je alle proefpersonen mee die positief testen, inclusief degenen die nergens last van hebben, of alleen mensen die op de IC belanden? Of tel je alleen hoeveel proefpersonen in beide groepen zijn overleden?

Essentieel is, dat dit alles van tevoren wordt vastgelegd. Het zou bijvoorbeeld kunnen, dat er na een maand in de vaccinatie-groep significant minder zieken op de IC liggen dan in de controle-groep. Mag je dan roepen dat het vaccin werkt en de trial stoppen?
Alleen als je ‘opgenomen op de IC’ vooraf had geidentificeerd als een eindpunt voor de proefpersonen. Want als je nieuwe eindpunten mag verzinnen terwijl de trial loopt, wordt het veel te makkelijk om uit de altijd rommelige data een gunstig resultaat te selecteren.
In de vaccin-trial van Pfizer die onlangs zeer hoopgevende resultaten liet zien, kregen 44.000 proefpersonen het experimentele vaccin of een nep-vaccinatie (dat aantal moet zo groot zijn, omdat in een paar maanden tijd slechts een klein percentage van die mensen besmet raakt met Covid-19, en proefpersonen expres besmetten met Covid-19 mag alleen in uitzonderlijke gevallen.

In samenspraak met de FDA, de Amerikaanse voedsel- en medicijnenwaakhond, was vooraf afgesproken dat het definitieve resultaat bekend mocht worden gemaakt als in totaal minstens 162 mensen Covid-19 gekregen hadden (dat wil zeggen: positief getest en minstens één ziektesymptoom). Half november bleek dat 95 procent van de Covid-19 gevallen in de controlegroep zat (162 zieken, tegen slechts 8 zieken in de vaccinatiegroep).

Dit resultaat was boven verwachting gunstig, maar het omgekeerde doet zich vaker voor: dan leunen de resultaten wel de goede kant uit, maar het verschil tussen de vaccinatie- en de controlegroep is net niet significant. Stel, de verdeling van de zieken over de controle- / vaccinatie- groep was 95 tegen 75 geweest. De verleiding is dan groot om nog een tijdje door te gaan, in de hoop dat het verschil duidelijker wordt. Maar in de gangbare opzet van wetenschappelijke trials is dit ‘optional stopping’ een statistische doodzonde.

Op het vooraf bepaalde eind van de trial moet worden berekend hoe uitzonderlijk het resultaat is als het eigenlijk om een toevallige uitschieter gaat. De kans p die daarvoor wordt gebruikt is moeilijk te interpreteren, maar geeft aan hoe goed de resultaten passen bij een scenario van pure toevalligheid: hoe kleiner de p, hoe verrassender het resultaat.
In psychologisch onderzoek geldt vaak p < 0,05 (5%) als grenswaarde, maar in medisch onderzoek en andere disciplines wordt ook wel de strakkere grens van p < 0,01 of zelfs p < 0,001 gehanteerd. Zit p onder die grenswaarde, dan luidt de conclusie: ‘dit is geen toeval, dit vaccin maakt echt verschil’. Als p boven die grenswaarde blijft, dan moet je concluderen: het verschil tussen de twee groepen is niet significant (‘het vaccin doet, voor zover we nu kunnen zien, niks’).
Maar daarmee is de kous dan ook af: als p vlak boven de grenswaarde ligt, mag je niet nog een stel proefpersonen erbij werven, want dan is letterlijk het eind zoek. Als duizend extra proefpersonen de p nog niet onder de grens drukken, waarom zou je dan niet nog eens duizend proefpersonen erbij werven? Of andersom: misschien was p wel kleiner dan 0,05 halverwege de trial. Zullen we bij nader inzien dan maar besluiten, dat de trial toen afgelopen was? Wiskundig is te bewijzen, dat in zulke twijfelgevallen de p altijd wel ergens onder de grenswaarde duikt. Dit zogeheten p-hacking is vooral een plaag in de sociale wetenschappen, die heeft gezorgd voor enorme aantallen publicaties met twijfelachtige en onrepliceerbare resultaten.

Peter Grünwald ijvert al jaren voor een fundamenteel andere statistiek om medische trials en soorgelijke wetenschappelijke experimenten te evalueren. Samen met een internationale groep collega’s ontwikkelde hij Safe Testing, een analysemethode waarbij optional stopping wel mag.
Bij Safe Testing kun je vanaf dag één van de trial een e-waarde berekenen (de e komt van evidence, bewijs), en naarmate er meer gegevens beschikbaar komen, evolueert e mee. In het voorbeeld van bovengenoemde vaccin-trial zou e bij 1 beginnen, maar geleidelijk aan steeds verder stijgen. Toevallig komt een e-waarde van 20 ongeveer overeen met het significantieniveau p < 0,05, ofwel 1/20.

Safe Testing is te vergelijken met een gokspel, waarbij je een startkapitaal hebt, en telkens een deel daarvan inzet op een uitkomst – deze zieke heeft wel/niet het vaccin gehad. Gok je fout, dan ben je je inzet kwijt, gok je goed, dan krijg je twee keer de inzet uitbetaald. E is de som geld die je op een zeker moment gewonnen hebt.
De situatie waarin een vaccin of geneesmiddel niets doet, komt overeen met het opgooien van een eerlijke munt; geen enkele gokstrategie kan er dan voor zorgen dat je structureel geld wint. Maar als het vaccin wel werkt, zal een besmette proefpersoon vaker uit de controlegroep dan uit de vaccinatiegroep komen (de munt valt vaker op kop dan op munt), en kun je je startkapitaal vergroten door meer in te zetten op munt dan op kop.

Een essentieel verschil met de p-waarde is, dat je mag doorgaan met gokken zo lang je wilt. Grünwald: “Bij ons mag je op honderd zieken extra wachten.” Anderzijds mag je ook eerder stoppen, als de e-waarde sneller dan verwacht een vooraf afgesproken grens overschrijdt. In de Pfizer-trial waren ook de resultaten halverwege, na 83 besmettingen, al heel duidelijk. Mogelijk had die trial halverwege al de afgesproken grenswaarde voor e overschreden, en had de trial eerder mogen stoppen. Dat scheelt kostbare tijd bij het officieel goedkeuren van het vaccin.

Er zit wel een keerzijde aan de grotere flexibiliteit van Safe Testing: de e-waarde loopt minder snel op dan de p-waarde daalt. Bijvoorbeeld: als je 100 proefpersonen hebt met twee mogelijke eindpunten (deze zieke heeft wel/niet het vaccin gehad) moeten minstens 59 van hen uit de controlegroep komen om te kunnen zeggen, met significantie p < 0,05, dat het vaccin werkt.
Om een e groter dan 20 te halen, moeten minstens 66 zieken uit de controlegroep komen. Je betaalt dus voor de extra flexibiliteit met een iets zwaardere bewijslast.
Toch betekent dat niet eens, dat het altijd langer duurt om een zeker niveau van betrouwbaarheid voor een trial te halen. Immers, soms gaat een trial boven verwachting goed, en mag je op grond van de e-waarde juist eerder stoppen dan wanneer je koerst op p <0,05.

Grünwald heeft dat wiskundig doorgerekend: “Stel, het vaccin heeft wel degelijk een effect: gemiddeld heb je dan toch ongeveer dezelfde hoeveelheid data nodig als wanneer je criterium is dat p <0,05 moet zijn. Je moet de mogelijkheid reserveren om meer data te nemen, maar gemiddeld is dat niet nodig. Dus als we dit bij alle trials zouden doen, geven we op de lange termijn niet méér geld uit, maar krijgen wel veel robuustere conclusies.”
Safe Testing is een nieuwe methode, die niet is toegepast bij de Pfizer-trial. Maar momenteel lopen wereldwijd vijftien onderzoeken om te kijken of het BCG-vaccin tegen tuberculose ook gedeeltelijke bescherming biedt tegen Covid-19. Zulke kruis-immuniteit is ook van sommige andere vaccins bekend. De data uit al deze onderzoeken, die er ieder voor zich heel lang over zouden doen om voldoende betrouwbaarheid te bereiken, worden met de Safe Testing methode gecombineerd, in de hoop dat ze in combinatie sneller tot een betrouwbare conclusie leiden.
Waarom is dit onderzoek het proefkonijn voor de Safe Testing methode? Grünwald: “We lazen in het begin van de corona-epidemie in de krant over het BCG-onderzoek. Toen hebben wij contact opgenomen met de groep in Utrecht die daar mee bezig is, en hun reactie was positief.”
Het was nog behoorlijk wat werk om de methode toe te spitsen op medische data. “Daar had ik me eerst ook op verkeken,” zegt Grünwald. De Safe Tests die hij en Judith ter Schure al hadden ontwikkeld, gingen er van uit dat je een aantal weken na het begin van de trial, zeg op 1 december, inventariseert: wie is er ziek, wie niet. Maar in medische trials is het gebruikelijk om een time to event – analyse te doen. Je begint dan met een groep van N nog niet zieke proefpersonen, en iedere keer als iemand ziek wordt, neemt die groepsgrootte met 1 af. Dat levert een zogeheten Kaplan -Meier curve op, waarbij N als functie van de tijd stapsgewijs afneemt. Vergeleken met alleen het aantal zieken meten op 1 december, bevat zo’n curve méér informatie, en daar kun je nuttig gebruik van maken.

Ter Schure heeft een spilfunctie in dit onderzoek, omdat de data uit de diverse trials bij haar samen komen: “Ik update de gecombineerde e-waarde letterlijk na elke ziek geworden patiënt, ongeacht in welke trial die zit.” In de analogie met het gokspel, heb je een startkapitaal dat na elke patiënt die ziek wordt, toe- of afneemt. Het eindkapitaal nadat je een zeker aantal zieken uit alle trials gezamenlijk verwerkt heb, is de gecombineerde e-waarde.

Niemand anders heeft inzage in alle data, en alleen Ter Schure mag een voorstel doen om een tussentijdse e-waarde intern bekend te maken. De procedure om resultaten intern en later extern bekend te maken, wordt vastgelegd voordat de bij de trials betrokken onderzoekers inzicht krijgen in de e-waardes. Er zijn immers grote belangen mee gemoeid.
Grünwald: “Sommigen vinden hun eigen trial beter dan andere. Als er dan een gecombineerd resultaat bekend wordt gemaakt dat gunstig is, kan de consequentie zijn, dat die moeten stoppen met hun trial.” Immers, als het BCG-vaccin duidelijk ook beschermt tegen Covid-19, is het ethisch niet meer verantwoord om mensen een placebo – een nep-vaccin – toe te dienen.

De data van de trials met Covid-19 vaccins van Pfizer, Moderna en AstraZeneca zijn uiteraard niet met Safe Testing te combineren, omdat het om drie verschillende vaccins gaat. In principe zou Safe Testing wel bruikbaar zijn om ook achteraf nog allerlei (te) kleine onderzoeken naar het effect van hydroxychloroquine op Covid-19 patiënten te combineren. Maar daar heeft Grünwwald toch grote reserves bij: “Het grote probleem is volledigheid: hoe weet je of je alle onderzoeken naar hydroxychloroquine bij elkaar hebt? En zolang je dat niet weet, kun je publicatie-bias niet uitsluiten, dus dat alleen de trials die gunstig uitpakten voor hydroxychloroquine gepubliceerd zijn.”
Voor het berekenen van de p-waarde bestaat al lang gebruiksvriendelijke software die dat klusje ineen fractie van een seconde klaart. Maar het opzetten van een trial volgens Safe Testing en het berekenen van de e-waarde kan een stuk rekenintensiever zijn. Als een trial alleen kijkt of een zieke wel/niet is gevaccineerd, is dit vergelijkbaar met het testen of een munt die je een groot aantal malen opgooit, wel of niet eerlijk is. In dat geval is er voor Safe Testing een simpele gokstrategie, die rechtstreeks een e-waarde oplevert.
Maar als een trial een continue variabele betreft, bijvoorbeeld lichaamslengte, en je wilt testen of mannen langer zijn dan vrouwen, dan wordt het al ingewikkelder. Echte medische trials kunnen nog veel gecompliceerder zijn, met zowel discrete als continue variabelen en allerlei mogelijke eindpunten. Grünwald en collega’s zijn de afgelopen jaren druk bezig geweest, om een steeds algemenere wiskundige theorie voor Safe Testing te ontwikkelen, die voor een zo breed mogelijk scala aan trials, bewijsbaar een consistente e-waarde oplevert.
Voor het met Safe Testing combineren van de vijftien BCG-trials was voorbereidend rekenwerk nodig dat een laptop wel een nachtje bezig hield. Het naderhand analyseren van de data is een kwestie van enkele minuten. Praktisch is zo’n rekenlast geen serieus bezwaar, maar voor medici en andere wetenschappers die er gebruik van maken, heeft Safe Testing wel meer het karakter van een black box dan de p-waarde. Die hebben ze destijds als student, voor een simpel voorbeeldje, nog met potlood en papier uitgerekend.

Toch wordt, als het aan Grünwald en zijn collega’s ligt, Safe Testing de nieuwe norm voor medici en sociale wetenschappers. Optional stopping is het beste vaccin tegen p-hacking.

Bronvermelding
Parool-artikel over safe testing
Eerste resultaten Pfizer-vaccin
Website van de Safetesting groep

Reacties kunnen niet achtergelaten worden op dit moment.