[Dutch] PirateBayWatch

Ik schrijf voor het Rathenau Instituut een serie blogs over ethische vraagstukken bij data-onderzoeken. In deze bijdrage beschrijf ik hoe onderzoekers die gebruik maken van data over internetverkeer een zorgvuldige afweging moeten maken tussen het belang van hun onderzoek en privacy van hun gebruikers. Ook gepubliceerd op het Data denkers blog. Deze blogpost is beschikbaar onder CC-BY.

In januari 2012 is er een blokkade opgeworpen voor de webpagina van ThePirateBay. Stichting BREIN had toen een overwinning bereikt in haar strijd om illegaal downloaden. De providers Ziggo en XS4ALL moesten vanaf dat moment de website blokkeren voor haar klanten. Een aantal maanden later volgde een uitspraak voor de andere grote providers in Nederland en was de website in heel Nederland geblokkeerd.

Het was al vrij snel duidelijk dat er vele manieren om de blokkade te omzeilen. Proxies, mirrors en andere methoden schoten als paddestoelen uit de grond, sneller dan BREIN ertegen kon vechten. Maar hoe bewijs je nu of zo’n blokkade ook daadwerkelijk effectief is?

Door de blokkade en de vele manieren om de blokkade heen was het niet mogelijk om de effectiviteit direct te meten.
Onderzoekers van de Universiteit van Amsterdam bedachten dat het wel mogelijk was om dit indirect te meten. Gebruikers van ThePirateBay halen daar links naar BitTorrent bestanden op, die ze dan gebruiken om gezamenlijk films of series binnen te halen. Om dit gezamenlijk te kunnen doen, worden er IP-adressen uitgewisseld van alle deelnemers. De onderzoekers vingen deze IP adressen op, om zo te kunnen achterhalen waar de downloaders vandaan kwamen.

Door steekproeven te doen op verschillende momenten van de geleidelijke invoering van de blokkade, was het mogelijk om vergelijkingen te doen. Op die manier kon de verdeling van downloaders over de verschillende providers op verschillende tijden vergeleken worden, en kon er dus iets gezegd worden over de effectiviteit van de website blokkade (Van der Ham et al. 2012). Later zijn deze resultaten bevestigd door een herhaalde meting en een combinatie met een enquete (Poort et al. 2014).

Duiding

Voor het in kaart brengen van de effectiviteit zijn duizenden IP adressen verzameld. Daar is een analyse op uitgevoerd om ze terug te leiden tot een internetprovider. IP adressen kunnen aangemerkt worden als persoonsgegeven (Leenes, 2013). Bij deze studie zijn duizenden IP adressen verzameld, en bij sommige downloads bracht de monitor bijna alle downloaders in kaart.

Een manier om persoonsgegevens verantwoordelijk te verzamelen is door vooraf toestemming te vragen voor de verzameling. Voor deze verwerking van IP adressen was toestemming erg moeilijk, en vragen om toestemming zou mogelijk zelfs het gedrag van downloaders beïnvloeden. De IP adressen zelf zijn in een beveiligde omgeving opgeslagen, waar alleen de onderzoekers toegang toe hadden. Data is alleen op een geaggregeerde manier gepubliceerd zodat die op geen enkele manier terug te herleiden was tot individuele gebruikers.

Op het moment van de eerste studie in 2012 was er in Nederland ook weinig besef van mogelijke ethische bezwaren van informatica onderzoek. Hiervoor waren dus ook nog geen procedures, richtlijnen of ethische commissies opgezet. Tijdens het analyseren van de verzamelde data werden de mogelijke ethische bezwaren duidelijk en heeft de onderzoeker contact gezocht met een ethicus.

Voor dit onderzoek is de privacy van gebruikers geschaad om een wetenschappelijk onderzoek te kunnen doen. De wetenschapper heeft voor het doen van het onderzoek een ethische afweging gemaakt. Aan de ene kant moesten de gegevens van duizenden internetters verzameld worden zonder toestemming, en aan de andere kant stond de maatschappelijke discussie over de wenselijkheid en effectiviteit van de blokkade (waar nog geen wetenschappelijke meting van was gedaan). Er is ook gekeken naar andere methoden om op een objectieve manier de effectiviteit te kunnen meten, maar die waren er niet. Er is uiteindelijk voor gekozen om de data op een veilige manier op te slaan, zo min mogelijk mensen toegang te geven, en alleen geaggregeerde resultaten te publiceren. De data is bewaard voor de review periode, en is daarna vernietigd.

Door bovenstaande analyse is samen met de ethicus besloten dat dit onderzoek op een ethische manier is aangepakt.
Een uitgebreidere discussie van deze ethische analyse is ook gepubliceerd (Wynsberghe 2014).

Conclusie

De ethische analyse heeft laten zien dat er ook bij informatica onderzoek mogelijk ethische bezwaren kunnen zijn. Deze factoren identificeren en meenemen in het ontwerp van een experiment of data analyse is een eigenschap die nu begint te dagen bij de informatici. Bij de Universiteit van Amsterdam en de Universiteit Twente zijn inmiddels ethische commissies opgezet die onderzoeksvoorstellen beoordelen. Bij de Universiteit van Amsterdam heeft het er ook toe geleid dat er bij de opleiding System and Network Engineering door de studenten nu ook uitgebreid aandacht aan wordt besteedt bij het schrijven van een onderzoeksvoorstel.

Doordat techniek en internet steeds meer in ons leven integreert, zullen informatici ook steeds meer met gebruikers te maken krijgen. Niet alleen direct met bijvoorbeeld interactie-design, maar ook indirect door het analyseren van data uit online experimenten, of met het analyseren van server-logbestanden. Ook hier kunnen ethische bezwaren kleven aan de onderzoeken en analyses die gedaan worden. Soms kunnen die ook op een andere, minder bezwaarlijke, manier opgezet worden, maar dan moeten de onderzoekers zich wel bewust zijn van de mogelijke bezwaren.

  • Ham, J. van der et al. (2012). Review en Herhaling BREIN Steekproeven 7-e9 april 2012 , Technical Report UVA-SNE-2012-01.
  • Leenes, R (2013). Acties tegen botnets door SURFnet en bij SURFnet aangesloten instellingen: privacy & data protectie aspecten. Een expert opinion, Utrecht: SURFnet.
  • Wynsberghe, A & J. van der Ham (2014) Ethical Considerations of Using Information Obtained from Online File Sharing Sites – the Case of the Piratebay In: proceedings of ETHICOMP2014