De kans dat Covid-19 uit het lab in Wuhan kwam
Hoe veelzeggend is het, dat in Wuhan een coronaviruslab staat?
Is het covid-19 virus vanuit een dier overgesprongen op de mens, of ontsnapt uit het Wuhan Institute of Virology? Bij gebrek aan hard bewijs voor het een of het ander, hebben beide theorieĆ«n nog steeds hun aanhangers. Aan de kwestie, hoe aannemelijk de lableakātheorie is, valt op diverse manieren te rekenen.
Coronavirussen komen over de hele wereld voor, bij mensen zowel als dieren. Af en toe ontstaat ergens in een dier een nieuwe variant die voor mensen gevaarlijk en van mens op mens overdraagbaar is. Dat is gebeurd in 2002, met de uitbraak van Sars in Guangdong, Zuid-China (circa 800 doden) en in 2012, met de uitbraak van Mers in Saoedie-Arabiƫ (circa 900 doden).
Als iedereen patiƫnt 0 kan zijn
Stel, in 2018 was je gevraagd om te voorspellen in welk land de volgende uitbraak van een nieuw coronavirus zou plaatsvinden. Valt daar iets zinnigs over te zeggen? Als je niets weet over coronavirussen, kun je alleen maar de nogal triviale informatie gebruiken, dat er voor een uitbraak onder mensen, mensen nodig zijn.
Laten we daarom beginnen met de zeer simplistische aanname, dat elk mens op aarde dezelfde kans heeft om ‘patient 0’ van een nieuwe coronauitbraak te worden. De kans op een uitbraak in een bepaald land is dan evenredig met het aantal inwoners van dat land. De beste gok voor de nieuwe uitbraak is dus China, want dat heeft de meeste inwoners van allemaal (1,4 miljard).
Echter, China is groot, en de bevolkingsdichtheid varieert enorm per regio. Onderstaande afbeelding toont de bevolkingsdichtheid van China, waarin de hoogte van elk piekje het aantal inwoners in een vakje van een vierkante kilometer aanduidt.

De diagonale stippellijn links in de afbeelding verdeelt het grondgebied van China in twee gelijke delen, maar slechts 6% van de bevolking woont ten westen (links) van die lijn. We zouden daarom de voorspelling voor de volgende corona-uitbraak een stuk specifieker kunnen maken door die in het oosten van China te plaatsen.
Inmiddels weten we maar al te goed waar de nieuwe uitbraak heeft plaatsgevonden: eind 2019 in Wuhan, en dat ligt midden in dat oostelijke deel van China. Zo bezien is er dus niets opmerkelijks aan de locatie van die uitbraak. Ook de uitbraak van Sars begon in dat deel van China.
Kijken per land zegt weinig
Anderzijds, virologisch bekeken is de indeling van de wereld in landen erg willekeurig, alleen al omdat landen enorm in grootte verschillen. We kunnen daarom beter naar de mondiale bevolkingsdichtheid kijken, zoals in het plaatje hieronder:

De wereldbevolking blijkt grotendeels geconcentreerd in een paar duidelijk te onderscheiden clusters. De bevolkingscluster van India, Bangladesh en Pakistan is nog iets groter dan die in het oosten van China, dus onze naĆÆeve voorspelling zou de volgende uitbraak bij nader inzien met een nog iets grotere kans in dat gebied geplaatst hebben.
Anderzijds, Mers ontstond in Saoedie-ArabiĆ«, een enorm groot, maar zeer dun bevolkt land met maar 34 miljoen inwoners. Als het stom toeval was dat ‘Mers-patiĆ«nt 0’ daar rondliep, was die kans gelijk aan (inwoners Saoedie-ArabiĆ«/wereldbevolking) = 34.000.000/7.800.000.000 = 0,004 = 0,4%.
Hoewel je stom toeval eigenlijk nooit uit kunt sluiten, gaan mensen bij zo’n lage kans toch altijd zoeken naar redenen waarom Mers juist in Saoedie-ArabiĆ« uitbrak. En die reden ligt hier nogal voor de hand: Mers wordt namelijk op mensen overgebracht door kamelen!
Als we een vergelijkbare wereldkaart als hierboven zouden maken, maar dan op basis van het aantal contacten tussen kamelen en mensen, zal Saoedie-Arabiƫ een van de hotspots zijn. Zo bekeken, is het heel plausibel dat een uitbraak van Mers in Saoedie-Arabiƫ begint.
Hoofdprijs in de loterij
Hierboven concludeerden we, dat een nieuwe coronauitbraak in een stad als Wuhan, in het oosten van China, niet a priori onwaarschijnlijk is. Maar waarom nu juist in Wuhan, en niet in een andere miljoenenstad in oost China, zoals Shanghai, of Peking, of Guangzhou, of Chongging?
Op het eerste gezicht lijkt dit een onzinnige vraag. Immers, gegeven dat de nieuwe uitbraak in oost China plaatsvindt, zal die in de een of andere stad in oost China gelokaliseerd worden (als patient 0 op het platteland woonde, zal die naar een ziekenhuis in een nabije stad gebracht worden, of de eerste mens-op-mens besmettingen zullen plaatsvinden als patiƫnt 0 naar de stad komt).
Zo beschouwd, zijn alle steden in oost China inwisselbaar. ‘Waarom in Wuhan’ is dan net zoiets als vragen waarom nu juist lot nummer 31415926 de hoofdprijs van de loterij won: die hoofdprijs moet nu eenmaal op een van de loten vallen.
Dat argument overtuigt, totdat iemand opmerkt dat er iets speciaals aan de hand is met dat lotnummer: 3,1415926 is namelijk het fameuze getal Pie tot op zeven decimalen nauwkeurig. Dan slaat opeens wel de achterdocht toe over het eerlijke verloop van de loterij. Dat het winnende lot precies het getal Pie als nummer heeft, kan toch geen toeval zijn?
In het geval van de covid-pandemie is de achterdocht gewekt door een ander gegeven: in Wuhan staat een groot laboratorium, het Wuhan Institute of Virology, dat onderzoek doet naar corona-virussen. Als wereldwijd honderden labs met dit soort onderzoek bezig waren geweest, had niemand dit een veelzeggend feit gevonden, maar het zijn er in de hele wereld maar drie, en de twee andere staan in de VS.
Maar hoe ātoevalligā is het, dat de uitbraak van een nieuwe coronavariant in dezelfde stad plaatsvindt waar een van deze drie corona-labs staat? In de metafoor van de loterij: uit hoeveel loten vind de trekking plaats, die drie hoofdprijzen te vergeven heeft?
Als we opnieuw van de zeer simplistische aanname uitgaan, dat alle mensen op aarde dezelfde kans hebben om patient 0 te worden, dan hangt dat af van hoeveel mensen er in het lootje āWuhanā zitten. Dat is niet alleen de stad Wuhan, maar ook de regio daaromheen. Immers, als patient 0 ergens in de buurt van Wuhan woont, en hij of zij was ernstig ziek geworden, zou die waarschijnlijk naar een ziekenhuis in Wuhan gebracht zijn en daar geidentificeerd als de eerste patient met een nieuwe ziekte. We nemen nu maar aan, dat die ‘invloedssfeer’ ongeveer samenvalt met de administratieve regio Wuhan, waar 11 miljoen mensen wonen.
Hetzelfde zou je moeten doen voor de twee Amerikaanse steden waar de andere coronalabs staan. Sterker nog, je zou de hele wereldbevolking op deze manier moeten indelen in hun āgrootstedelijke invloedssferenā om het aantal lootjes van deze loterij te bepalen. Dat is in het kader van dit artikel natuurlijk niet te doen, en daarom maken we opnieuw een zeer simplistische, en in dit geval conservatieve aanname: we doen alsof alle invloedssferen evenveel inwoners hebben als die van Wuhan. Deze aaname is conservatief, omdat de invloedsfeer van de miljoenenstad Wuhan, in het dichbevolkste deel van China, relatief veel inwoners telt. Dat drukt dus het totale aantal lootjes in de loterij.
De hele wereldbevolking komt dus overeen met, afgerond, 7.900.000.000/ 11.000.000 = 718 lootjes, waarvan er 3 de hoofdprijs opleveren. Onder al deze aannames is er dus een kans van 1 op 3/718, ofwel 1 op 239, ofwel 0,4 procent dat deze corona-uitbraak bij toeval begon in een stad waar ook een coronalab staat.
Inzoomen op de beruchte Huanan Seafood Wholesale markt in Wuhan
Onlangs paste een internationaal team van onderzoekers, onder wie OMT-lid Marion Koopmans, een enigszins vergelijkbare methode toe om juist het tegendeel te onderbouwen: dat het virus op de beruchte Huanan Seafood Wholesale markt in Wuhan van dier op mens moet zijn overgesprongen. In hun studie hebben ze het begin van de pandemie, in december 2019, tot in detail gereconstrueerd. En onlangs publiceerde vakblad Nature een uitgebreid overzicht van dit en ander onderzoek over de lableak-theorie
Koopmans e.a. spoorden onder meer de adressen op van de eerste 156 gevallen van covid-19 die uit december 2019 bekend zijn (zie het kaartje hieronder).

Een deel van deze personen hadden een link met de Huanan markt, bijvoorbeeld omdat zijzelf of een familielid daar geweest waren, anderen voor zover bekend niet. Hieronder is deze ‘puntenwolk’ omgezet in een gladde statistische verdeling (de kernel density estimate, KDE), om te laten zien dat beide groepen gecentreerd zijn rond de Huanan markt. Het Wuhan Institute of Virology ligt op de andere oever van de rivier (bron: https://zenodo.org/record/6299600#.YkDm89VByM8, locatie WIV door ons ingetekend )

Hoewel de Huanan markt keurig in de piek van de KDE ligt, zou dat, bijvoorbeeld, ook kunnen komen doordat die in het dichtsbevolkte gedeelte van de stad ligt. Dan is het misschien niet zo raar dat de meeste ziektegevallen zich in die buurt voordoen. Echter, daar ligt het in dit geval niet aan: Koopmans e.a. vergelijken de verdeling van Covid-patiƫnten met de bevolkingsdichtheid in Wuhan, en vinden dat die verdelingen niet met elkaar matchen.
Toch blijft het feit dat de allereerste groep patiĆ«nten gecentreerd woont rond de Huanan markt een argument van het type ‘dit kan geen toeval zijn’, terwijl onduidelijk blijft wat er dan wel aan de hand is. Immers, mensen brengen een groot deel van hun tijd niet thuis door, en ze verplaatsen zich niet at random, maar heel doelgericht. Dus zelfs als het virus afkomstig is van de markt, spreekt het geenszins vanzelf dat de eerste besmettingen in een straal van ongeveer 5 kilometer rondom die markt gecentreerd wonen.
Ook blijft het mogelijk, dat als het virus toch uit het Wuhan Institute of Virology is ontsnapt, ƩƩn ā mogelijk asymptomatische – besmette medewerker naar de Huanan markt is gegaan toen het daar heel druk was en daar de eerste cluster van besmettingen heeft veroorzaakt.
De Bayesiaanse aanpak
Er is nog een andere methode om op basis van onvolledige informatie iets zinnigs te zeggen over zo’n raadsel, namelijk de Bayesiaanse aanpak. We beperken ons in dit geval tot twee elkaar uitsluitende hypotheses over het ontstaan van de pandemie, namelijk óf het virus is uit het WIV ontsnapt, óf het sloeg op de Huanan markt van een dier over op een mens.
Je begint dan met een aanname over de waarschijnlijkheid van beide hypotheses, de ‘prior odds‘ (de a priori kansverhouding). De meeste virologen en andere deskundigen zijn van het begin af aan zeer sceptisch geweest over de lableak-theorie – al kun je je afvragen of dat niet meer een emotionele dan een professionele overtuiging was.
Stel dat je dit in rekening brengt door de lableak-theorie a priori niet meer dan een kans van 1 op 1000 toe te dichten. De kans dat de pandemie in de Huanan markt begon is dan 999/1000, en de prior odds is 1/999.
Maar nu brengen we de nieuwe informatie in rekening die aan het begin van dit artikel is gepresenteerd: de kans dat er toevallig ook een coronaviruslab staat in de stad waar de coronapandemie begon, is volgens die berekening 0,4%. Dus de kans dat het lab er wel iets mee te maken had, is 99,6 % en de odds is 99,6/0,4 = 241,5
De regel van Bayes is nu simpel: je ge-update odds (de posterior odds) dat het virus uit het lab ontsnapt is, is de prior odds x de factor die hierboven berekend is. Dus:
posterior odds = 1/999 x 241,5 = 0,24
Met andere woorden, de kans dat de lableak-theorie waar is, stijgt door deze nieuwe informatie van 1 op 1000 naar ongeveer op 1 op 4.
Het moge duidelijk zijn, dat de posterior odds sterk afhankelijk is van de beginaanname, de prior odds. De experts die het meest afwijzend staan tegen de lableak-theorie, zouden best kunnen stellen dat die kans maar ƩƩn op een miljoen is. Dan krikt het feit dat in Wuhan een viruslab staat, de posterior odds slechts op tot 1/999.999 x 241,5 = 0,00024 ofwel ongeveer 1 op vierduizend.
De aanname over de prior odds is bijna per definitie discutabel. Immers, die aanname doe je voordat je de beschikbare specifieke informatie over de zaak in rekening hebt gebracht. Maar ook daarna is er nog veel ruimte voor discussie. Hierboven is ƩƩn stukje informatie meegenomen, namelijk het feit dat in de stad van de uitbraak ook een van de drie corona-labs wereldwijd staat. Je zou ook nog kunnen proberen uit de genetische structuur van het virus zelf informatie over de oorsprong af te leiden, en daar een getal aan te hangen. Dat is door fans van de lableak theorie ook veel gedaan.
Een voorbeeld waarin dit tot in het extreme wordt doorgevoerd is deze preprint , waarin Steven Quay als a priori waarschijnlijkheid voor de lableak-theorie 1,2% kiest, en hij na maar liefst 27 tussenstappen uitkomt op een a posteriori waarschijnlijkheid van 99,8%. Volgens hem zorgt het beschikbare bewijsmateriaal dus voor een complete ommezwaai wat betreft de aannemelijkheid van de aanvankelijk verguisde lableak-theorie. Quay is geen statisticus, maar iemand met een eigen farmaceutisch bedrijf die zegt te werken aan medicijnen tegen covid-19.
Bayesiaanse netwerken
Richard Gill, emeritus hoogleraar statistiek, noemt dit artikel ronduit gekkigheid: “Deze lijst met feiten is voor dit type Bayesiaanse analyse veel te lang. Om te beginnen zou je daar een kleine selectie uit moeten halen en kijken of je daar wat mee kunt doen.”
Immers, elke nieuwe update van een posterior odds voegt een extra onzekerheidsmarge toe aan het eindresultaat. Quay neemt ook allerlei overwegingen mee die nauwelijks te kwantificeren zijn, zoals het nieuws dat er eerder in een mijnschacht in Zuid-China virusmonsters genomen zijn van vleermuizen.
Volgens Gill wordt deze ‘naĆÆef Bayesiaanse’ aanpak door echte experts niet meer voor vol aangezien. In plaats van telkens nieuwe brokjes bewijsmateriaal toe te voegen en een nieuwe ‘posterior odds’ te berekenen, maken experts gebruik van Bayesiaanse netwerken, waarin allerlei oorzaken en invloeden elkaar ook onderling kunnen beĆÆnvloeden.
Richard Gill maakte – louter ter illustratie, met vrij willekeurige beginaannames voor alle percentages – onderstaand voorbeeld van een Bayesiaans netwerk voor de lableak-theorie.

<!– @page { margin: 2cm } P { margin-bottom: 0.21cm } –>
Formeel-wiskundig is een Bayesiaans netwerk een directed acyclic graph, simpel gezegd een netwerk van knooppunten met pijlen daartussen, met als extra eis dat die pijlen nergens een cirkel vormen.
De knooppunten bevatten de ‘Bayesiaanse variabelen’: dit kunnen waarneembare feiten zijn, of verborgen variabelen, of hypotheses. Een pijl tussen twee knooppunten duidt aan, dat het ene knooppunt het andere beĆÆnvloedt (maar niet andersom: er is sprake van causaliteit).
Omdat de pijlen niet in een cirkel kunnen lopen, komen ze altijd uit bij eindpunten, knooppunten van waaruit geen pijlen meer vertrekken. Deze knooppunten stellen de waargenomen feiten voor waarvoor we een verklaring zoeken.
Bayesiaanse netwerken zijn bijvoorbeeld bruikbaar om, gegeven dat bij een patiĆ«nt een aantal symptomen A, B, C, D…. is vastgesteld (de eindpunten), de kans te berekenen dat die te wijten zijn aan een onderliggende ziekte X, danwel ziekte Y of ziekte Z. Ze kunnen ook gebruikt worden in rechtszaken, om, gegeven een aantal bewijsstukken (een DNA-profiel, een getuigenverklaring, camerabeelden waarop een zeker type auto te zien is), de kans te berekenen dat al dat bewijsmateriaal inderdaad is terug te voeren op die ene verdachte N.N.
In het geval van de lableak-theorie is veel minder duidelijk wat er allemaal thuis hoort in het Bayesiaanse netwerk, en welke hypotheses je allemaal moet toelaten. In plaats van een binaire keuze tussen ‘wel of niet ontsnapt uit het lab’, wordt in bovenstaand schema onderscheid gemaakt tussen drie hypotheses: dat het virus op de mens is overgesprongen in het Wuhan lab, op de Wuhan markt, of heel ergens anders.
De pijlen komen uit bij vier geconstateerde feiten: ‘WHO clears lab‘ (WHO pleit het Wuhan-lab vrij), ‘virus at wet market‘ (virus aangetroffen op de Whuan markt), enzovoort. In dit schema staat nog een scenario 2 met een waarschijnlijkheid van 100% dat het corona-virus achteraf niet op de markt is aangetroffen, want dat was voor zover toen bekend de feitelijke stand van zaken.
Inmiddels is bekend dat wel degelijk sporen van het virus op de markt in Wuhan zijn aangetroffen.
Dat illustreert dat er altijd een zekere mate van willekeur zit in het opstellen van zo’n Bayesiaans netwerk. Mede daarom hebben we ons oorspronkelijke plan maar laten varen, om speciaal voor dit artikel daadwerkelijk een kans uit te rekenen dat de lableak-theorie waar is.