[Dutch] Tracking op basis van publieke data

Ik heb als onderzoeker en docent bij de opleiding System and Network Engineering van de Universiteit van Amsterdam een serie blogs geschreven. In deze serie belicht ik in opdracht van het Rathenau Instituut ethische vraagstukken bij data-onderzoeken. In deze bijdrage beschrijf ik hoe openbare data van een dienst zoals Twitter op meer manieren kan worden hergebruikt dan gebruikers veelal voorzien.  Ook gepubliceerd op het Data denkers blog. Deze blogpost is beschikbaar onder CC-BY.

Twitter is een populair sociaal netwerk met 284 miljoen actieve gebruikers die volgens de makers 500 miljoen berichten per dag uitwisselen. Het kenmerk van Twitter is dat deze berichten (tweets) maximaal 140 karakters mogen bevatten en voor iedereen zichtbaar zijn, tenzij gebruikers expliciet de keuze maken om alles af te schermen. Een gebruiker van Twitter kan door middel van zijn tweets gedachtes of plaatjes te delen met zijn volgers, en potentiële toekomstige volgers. Dit kan weer verder gedeeld worden, om op die manier meer volgers en aanzien te krijgen. Het feit dat al deze berichten publiek zijn, maakt dat Twitter een populaire databron is voor onderzoekers. De publieke tweets worden ook nog eens allemaal opgeslagen door het Amerikaanse Library of Congress.

Hoewel de data op Twitter open is, kunnen gebruikers het soms toch oneens zijn met bepaald gebruik van die data. In september 2014 werd er een nieuwe dienst gelanceerd: Samaritans Radar. Deze dienst analyseert tweets en kan dan meldingen sturen als iemand een zorgelijke update op Twitter zet. Met het idee dat de gebruiker van Samaritans Radar de persoon die een zorgelijke update verstuurde daarna kan ondersteunen.

Er kwam al vrij snel veel ophef rond de dienst. Er werd immers geen toestemming aan de Twitter gebruikers gevraagd of ze gemonitord wilden worden. De enige manier om niet deel te nemen was een opt-out mogelijkheid bij Samaritans Radar. Naar aanleiding van de ophef is besloten om de dienst te stoppen en de aanpak te heroverwergen.

Duiding

Data op Twitter is standaard volledig open. Gebruikers van Twitter staan er echter vaak niet bij stil dat er heel veel meer kan met de data die Twitter gebruikers produceren. Adrian Short heeft een mooie opsomming van analyses die op Twitter-data kunnen worden uitgevoerd, hij beschrijft dingen als gevoelsanalyse, stylometrie (nieuwe teksten aan een persoon toe kunnen wijzen), gezichtsherkenning, lokatie analyse, sociaal netwerk analyse, etc.

Gevoelsmatig wordt er toch een grens overtreden op het moment dat er een applicatie als Samaritans Radar wordt gemaakt op basis van publieke data. Het is een gebruik dat niet voorzien was op het moment dat de data gedeeld werd. De dienst had ook alleen maar een opt-out optie, terwijl veel mensen niet eens van het bestaan van deze dienst afwisten. Na veel protest heeft Samaritans Radar besloten om de dienst voorlopig te stoppen en de aanpak te heroverwegen.

Vraagstukken over verantwoord gebruik van publieke data zien we ook op andere plaatsen terug. Een voorbeeld is de analyse van Twitter data om te zien of iemand frauduleus zou kunnen zijn (Been 2014). Zo’n systeem kan handig zijn bij het onderzoeken van fraude bij uitkeringen. Maar ook hier moet kritisch gekeken worden naar het gebruiken van deze data.

In het onderzoek van Been werd alleen gebruik gemaakt van data van verzameling proefpersonen die daar vooraf toestemming voor hadden gegeven. Het onderzoek heeft ook de afweging gemaakt voor het bedoelde gebruik door de overheid. De Twitter data analyse zou daar worden toegepast op mensen die een uitkering aanvragen en mogelijk anderen die per ongeluk matchen. In dit geval zou deze analyse slechts een van de vele indicatoren zijn, en er wordt pas bij meerdere signalen een echt onderzoek naar mogelijke fraude gestart. Desalniettemin geven de onderzoekers geven aan dat er voor elk gebruik van dit soort data opnieuw een afweging gemaakt moet worden of gebruik wel ethisch verantwoord is.

Conclusie

In het slotwoord van het artikel van Been wordt duidelijk aangegeven dat er goed over het gebruik van publieke data in dit soort onderzoeken nagedacht moet worden. Tijdens zijn onderzoek is er in samenwerking met een ethicus een framework opgezet om deze ethische afwegingen te kunnen maken (van Wynsberghe 2013). Met het framework worden richtlijnen aangegeven die onderzoekers kunnen gebruiken om een inschatting te maken of het gebruik van data van sociale netwerken verantwoord is of niet.

Samaritans Radar heeft deze les door schade en schande ook geleerd. Al snel nadat de dienst gelanceerd werd kwam er fel protest, juist van de mensen die erbij gebaat zouden moeten zijn. Ook al wordt er gebruik gemaakt van publieke data, doet deze dienst iets heel anders dan men in eerste instantie bedacht had. Ook de keuze voor opt-out in plaats van opt-in kwam op veel kritiek te staan. Zoals eerder al aangegeven is de Samaritans Radar dienst gestopt en is men op dit moment aan het kijken hoe dit beter opgezet kan worden.

  • van Wynsberghe, A., Been, H. & van Keulen, M. (2013) To use or not to use: guidelines for researchers using data from online social networking sites Rict Responsible Innovation, http://www.responsible-innovation.org.uk/torrii/sites/default/files/van%20Wynsberghe%20and%20Been%20To%20use%20or%20not%20to%20use_0.pdf
  • Been, H. & van Keulen, M. (2014) Finding You on the Internet: an approach for finding on-line presences of people for fraud risk analysis. In: 16th International Conference on Enterprise Information Systems (ICEIS 2014), 27-30 Apr 2014, Lisbon, Portugal. pp. 697-706. SciTePress. ISBN 978-989-758-027-7
  • Friedman, B., Kahn Jr, P. H., & Borning, A. (2006). Value sensitive design and information systems Human-computer interaction in management information systems: Foundations, 5:348-372.