Moet ik mijn data anonimiseren, en als ik het niet doe, wat betekent dat dan?

Question

Moet ik mijn data anonimiseren, en als ik het niet doe, wat betekent dat dan?

1 Antwoord

gjp · Answer 1 · 2017-06-14T16:31:35+0000

Het is bij wetenschappelijk onderzoek belangrijk dat data na verzameling openbaar worden gemaakt (hier zijn een hoop goede redenen voor, maar om het overzichtelijk te houden ga ik daar nu niet op in - deze blogpost en dit artikel zijn goede startpunten als je er meer over wil weten). Dit kan makkelijk via repositories, zoals het gebruikersvriendelijke en gratis Open Science Framework (OSF; http://osf.io) van het Center for Open Science. Maar, als je OSF of een ander repository gebruikt om je data openbaar te maken, hoe garandeer je dan vertrouwelijkheid als je data niet anoniem zijn verzameld?

Allereerst: meestal kun je wel een manier uitdenken om je data anoniem te verzamelen. Vraag bijvoorbeeld geen persoonlijke gegevens. Moet je data aan elkaar koppelen? Laat deelnemers een onderzoekscode genereren (http://oupsy.nl/help/2597/geanonimiseerd-verzamelen-verschillende-sessies-elkaar). Heb je hun email adres nodig? Vraag dat in een aparte LimeSurvey vragenlijst, waarbij deelnemers na de eerste worden doorgestuurd naar de tweede. Die wordt uitgelegd in die eerste link (zie ook http://oupsy.nl/help/4828/verwijs-deelnemers-vragenlijst-andere-vragenlijst-website en http://oupsy.nl/help/255/informatie-uitwisselen-limesurvey-websites-bijvoorbeeld).

Maar, mocht het niet mogelijk zijn om een slimme constructie te ontwikkelen waarmee je de data anoniem kunt verzamelen, dan moet je maatregelen treffen om die data vertrouwelikj te behandelen. Een goede werkwijze is de volgende:

Spreek met alle betrokken onderzoekers af wie bij de data kunnen terwijl die worden verzameld. Als je het echt goed wil doen laat je iedereen een overeenkomst tekenen waarin iedereen aangeeft om bijvoorbeeld niet te kijken, of de data niet te kopieren, etc (de exacte afspraken zullen verschillen van situatie tot situatie: de richtlijn is dat het slim is om te proberen bedenken wat er allemaal fout kan gaan, en dan afspraken te bedenken om dat te voorkomen).
Spreek af wie de data anonimiseert.
Spreek af waar anonimisering precies uit bestaat (welke variabelen moeten worden verwijderd of aangepast, en indien dat laatste, hoe exact - het is slim om het analysescript alvast vast te leggen en samen te bespreken).
Stel de procedure voor anonimisering vast. Je moet zorgen dat je 1) daarna een geanonimiseerde dataset hebt die je openbaar kunt maken zonder risico dat de privacy van je deelnemers wordt geschonden; 2) de oorspronkelijke dataset hebt in een vorm die alleen voor enkele mensen toegankelijk is. De volgende procedure is de beste die ik tot nu toe ben tegengekomen die goed te doen is voor een individuele onderzoeker zonder gespecialiseerde soft/hardware of veel ICT kennis:
1. De 'anonimiseerder' (of 'datamanager') draait het analysescript (e.g. SPSS syntax of R code) die de onderzoekers vooraf overeen zijn gekomen (het kan slim zijn om dit script met je pre-registratie mee te publiceren);
2. De datamanager slaat de geanonimiseerde data op (dat commando kan natuurlijk in het script van stap 1 staan).
3. De datamanager archiveert de ruwe, niet geanonimiseerde data met 7-zip. 7-zip is een open source platform onafhankelijk pakket om bestanden te comprimeren en archiveren. Naast extreem goede compressie (uiteraard zonder verstoring of verlies van de data) ondersteunt 7-zip 256-bit AES encryptie. Dit is onbreekbaar voor de voorzienbare toekomst (zie deze link of deze link). Zie deze link voor screenshots en meer uitleg.
4. Belangrijk: zorg dat je een goed wachtwoord gebruikt; dus geen bestaande woorden, maar wel combinaties van letters, leestekens, cijfers, etc.
5. Verstrek het wachtwoord aan de beperkte groep mensen van wie jullie hebben afgesproken dat ze bij de ruwe data moeten kunnen in noodgevallen. Zorg dat die mensen dat wachtwoord veilig opslaan (e.g. in een KeePass database waar dan weer een wachtwoord op zit; zie http://keepass.info). Verstrek ze dat wachtwoord NIET via email, maar schrijf het op papier en geef het ze (en zorg dat ze dat vernietigen), of verstuur het via een veilig medium zoals Signal (zie hier) of Threema (zie hier). Emails zijn niet versleuteld, worden onderweg opgeslagen door de servers die ze doorgeven, kunnen relatief makkelijk doorzocht worden op keywords zoals 'wachtwoord', en kunnen makkelijk achterblijven in iemands inbox of sent items.
6. Stuur hen de versleutelde ruwe datafile. Die kun je in principe ook openbaar maken; zoals je nu als het goed is weet kan 256-bits AES praktisch niet gekraakt worden, dus die file mag ook openbaar worden, alleen het wachtwoord niet.
7. Verwijder de niet-versleutelde versie van de ruwe data. Dit verwijderde bestand kan in principe worden teruggehaald; als je dat echt wil voorkomen, zie dan bijvoorbeeld hier.
8. Verwijder de data uit LimeSurvey (of welk online systeem je ook gebruikt, als je een online systeem gebruikt). Als je dat systeem niet zelf host (of als het niet door de OU wordt gehost) zorg dat dan je uitzoekt of dat bedrijf backups maakt, en zorg dat je ruwe data niet ergens bij hen kan blijven slingeren.
Zorg dat je de ruwe data nooit synchroniseert met een cloud service zoals Dropbox, Google Drive, MS OneDrive, of iCloud. Er is een uitzondering dat ik weet: Sync.com slaat alle bestanden versleuteld op, zodat niemand er bij kan behalve jij, zelfs zij niet. Het is dus verstandig om voor privacy-gevoelige gegevens een Sync account aan te maken en die te gebruiken, zodat je een backup hebt zonder dat je e.g. USB sticks of externe harde schijven hoeft te gebruiken, die immers makkelijk door iemand anders te lezen zijn.

Hier zijn natuurlijk allerlei varianten op te bedenken. Het belangrijkste is dat je alle stappen heel grondig overdenkt, en dat als je in het team van onderzoekers niemand hebt zitten die goed snapt hoe computers, servers, en opslagmedia werken, je zo iemand betrekt om te zorgen dat je plannen acceptabel zijn.

Verder: leg dit allemaal van tevoren vast. Je wil voorkomen dat je nog besluiten moet nemen als er al niet-geanonimiseerde data binnen zijn gekomen. Maak van te voren het analysescript (e.g. de SPSS 'syntax' of de R code) waarmee je anonimiseert, zodat die alleen maar uitgevoerd hoeft te worden als de data binnen zijn. Voer wat onzin-data in en test dat anonimiseringsscript ook. Sowieso is het verstandig om de hele procedure even te doorlopen voordat je echt start met dataverzameling. Je wil geen fout maken met de echte data tenslotte.

Tot slot: preregistreer je onderzoek, en neem je anonimiseringsplannen (en dus dat script) daar ook in op. Zo voorkom je beschuldigingen over eventuele vrijheden of afwijkingen tijdens het anonimisering (op basis van de uitkomsten). Zie over preregistratie deze link.

Vergeet overigens niet om vlak voordat je dataverzameling start (en als er dus nog geen data zijn verzameld), een export van je LimeSurvey vragenlijst (of van je onderzoeksfiles in een ander programma) te maken, zodat je dat kunt meepubliceren als je data zijn verzameld. Het idee is dat iedereen je alles in onderzoek moeiteloos moet kunnen repliceren (en bekijken).

Categorieën

Moet ik mijn data anonimiseren, en als ik het niet doe, wat betekent dat dan?

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

1 Antwoord

Aub. inloggen or registreren om een opmerking te plaatsen.

Gerelateerde vragen

Categorieën

Moet ik mijn data anonimiseren, en als ik het niet doe, wat betekent dat dan?

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

1 Antwoord

Aub. inloggen or registreren om een opmerking te plaatsen.