Routeringsalgoritme moetzoekmachines in toom houden
Naast de overheid heeft het bedrijfsleven ook een enorme hoeveelheid persoonlijke informatie waarvan het niet duidelijk is wie die te zien krijgt en wat er mee wordt gedaan. Re-centelijk zijn de machtige positie van zoekmachines en de mogelijk nadelige gevolgen van censuur en privacyschending uitgebreid in de media besproken (zie kader).
Deze voorbeelden tonen aan dat er nogal wat dingen gebeuren die de privacy van in beginsel onschuldige burgers aantasten, en dat censuur eenvoudig kan worden toegepast. Natuurlijk speelt de overheid een belangrijke rol in het beter beschermen van de privacy van haar burgers en het bewaken van de openheid van informatie. In dit artikel zullen we ons echter beperken tot zoekmachines en alleen kijken naar de technologische mogelijkheden om die machines minder censuurgevoelig te maken en minder bedreigend voor de privacy.
Malafide
Allereerst de privacy. Op dit moment is het zo dat bij iedere zoekopdracht het IP-adres van de afzender wordt meegestuurd omdat de zoekmachine moet weten naar wie het antwoord moet worden verstuurd. Op deze manier kan de zoekmachine een lijst van zoektermen per IP-adres bijhouden. Als deze zoekmachine ook nog een gratis maildienst aanbiedt zoals GMail bij Google, is er slechts één e-mailbericht nodig naar die server vanaf de desbetreffende computer om het e-mailadres te koppelen aan het IP-adres. Veel mensen hebben ook nog een zogenaamde ‘signature’ waar de naam en adresgegevens in staan, waardoor het voor de zoekmachine mogelijk is om zoekopdrachten aan namen te koppelen.
Een eenvoudige oplossing om dit tegen te gaan is om al het verkeer via een andere computer te laten gaan: een proxy. De zoekmachine zal dan het IP-adres van de proxy te zien krijgen en het antwoord aan deze terugsturen die het vervolgens naar de bron van de zoekopdracht stuurt. Op deze manier weet alleen de proxy van het bestaan van de gebruiker en de rest van de internetwereld niet. Op het internet kan je eenvoudig zoeken naar proxy’s die hun diensten ‘gratis’ aanbieden. Vaak zal het zo zijn dat deze diensten, draaiend op normale pc’s bij idealisten thuis, uit altruïstische gronden worden aangeboden. Helaas zullen er ook malafide individuen of bedrijven geïnteresseerd zijn in persoonlijke informatie. Naast deze gratis proxy’s, zijn er ook bedrijven die betaalde proxy’s aanbieden. Ook hierbij blijft de vraag of deze bedrijven goed met de informatie omgaan. In veel gevallen waarschijnlijk wel, want als het niet zo is, zal een bedrijf zijn klanten snel verliezen.
Censuur
Een andere manier om privacy te verkrijgen is door gebruik te maken van Peer-to-Peer-systemen als FreeNet en Entropy, die het mogelijk maken om volledig anoniem allerlei soorten data te bekijken en te publiceren. Het is daarom een populair programma onder mensen die lokale of nationale misstanden onder de aandacht willen brengen. Dit vooral in dictatoriale landen als China waar anonimiteit voor critici van levensbelang is. Maar ook illegale zaken als kinderporno kunnen verspreid worden via dergelijke systemen.
Deze systemen hebben geen centrale servers, waardoor niemand de controle heeft over het hele netwerk. Daardoor heeft censuur nagenoeg geen kans. In Freenet worden bijvoorbeeld alle data versleuteld en in kleine stukjes verspreid over een groot aantal – bij Freenet aangesloten – vaak veranderende en anonieme computers over de hele wereld. Daardoor is het theoretisch zeer lastig voor een individu om uit te zoeken wie welk bestand op de computer heeft staan. Dit betekent dat zelfs de leden van het netwerk niet weten welke kleine stukjes informatie op hun computer worden opgeslagen.
Het huidige nadeel van Freenet en Entropy is dat ze nog niet echt bruikbaar zijn voor het grote publiek vanwege de lange zoektijden en de kans dat zij veel relevante informatie voor de zoekopdracht zelfs niet vinden. Op dit moment wordt er nog veel onderzoek gedaan om dit belangrijke probleem binnen P2P-netwerken op te lossen. Een belangrijke richting is het onderzoek naar ‘Semantic Overlay Networks’ ofwel SON’s. In een SON hebben alle computers van een paar andere computers een korte samenvatting van wat ze delen. Als een van die computers vervolgens een zoekopdracht binnenkrijgt, dan kijkt die welke computer het ‘dichtst’ bij de zoekopdracht ligt. Bijvoorbeeld, een zoekopdracht naar ‘Vlaamse gaai’ zal eerder naar een computer met kennis over vogels worden gestuurd dan naar een computer die kennis heeft over kernenergie. Op deze manier worden zoekopdrachten alleen naar díe computers gestuurd die relevant zijn voor de opdracht. Zo ontstaat een efficiënt routeringsalgoritme. Resultaten verkregen via computersimulaties en kleinschalige veldexperimenten laten zien dat sommige methoden om semantisch te routeren goed onderhoudbaar, robuust en schaalbaar zijn met betrekking tot het aantal computers in het netwerk. Via een gedistribueerd proxy-netwerk zouden de zoekers en aanbieders van informatie binnen het netwerk anoniem kunnen blijven, waardoor de privacy redelijk beschermd blijft.
Een aantal feiten op een rij
• Bij het intypen van een zoekopdracht bij een zoekmachine, komen meestal de zoektermen in de URL te staan. Bijvoorbeeld, wie zoekt naar ‘sterke pijnstillers’, krijgt na het klikken op ‘zoeken’ bij Yahoo, de URL: http://search.yahoo.com/search?p=sterke+pijnstillers.
• In 2007 worden alle URL’s die men bezoekt, opgeslagen. Zij mogen voor analyse worden doorzocht door de AIVD.
• Dit betekent dat de AIVD eenvoudig alle personen kan achterhalen die bepaalde termen gezocht hebben.
• Recente voorbeelden laten zien dat gevoelige informatie van de overheid zomaar op straat kan komen te liggen.
• De Amerikaanse overheid heeft vorig jaar een verzoek aan Google gedaan om alle IP-adressen te geven van computers waarop gezocht is naar ‘porno’.
• Google heeft als zoekmachine een marktaandeel van 90 procent in Nederland.
• Google is met de Chinese overheid een overeenkomst aangegaan om bepaalde sites te censureren die ‘gevoelige informatie’ bevatten.
• Iedereen heeft waarschijnlijk vrienden, kennissen en collega’s die e-mail voor opslag doorsturen naar een grote commerciële mailserver zoals Hotmail of GMail, zodat men zonder het te weten aan deze bedrijven de mogelijkheid biedt de verstuurde berichten te doorzoeken en te koppelen aan het IP-adres (meestal de eigen computer) waarvandaan de mail is verstuurd.