Overslaan en naar de inhoud gaan

Wetenschappers gebruiken Zip-routines als detective

Dario Benedetto van de faculteit wiskunde van de universiteit Rome kan met zijn computer in een fractie van een seconde bepalen wie de auteur is van een bepaald document. Op soortgelijke wijze kan worden vastgesteld in welke taal een tekst is geschreven. Dit zijn maar een paar voorbeelden van de kunstjes die Benedetto samen met zijn collega’s Emanuele Caglioti en Vittorio Loreto heeft ontlokt aan het compressieprogramma Zip.
Business
Shutterstock
Shutterstock

Zip is op vrijwel iedere pc aanwezig. Het programma is populair onder gebruikers die regelmatig grote bestanden kleiner willen of moeten maken. Op die manier kan worden bespaard op opslagruimte, maar ook op de soms beperkt beschikbare bandbreedte. De compressie gebeurt door middel van een geavanceerd algoritme dat is bedacht door de Israëlische wiskundigen Lempel en Ziv. Later is de rekentechniek nog verbeterd door de bij Unisys werkzame wetenschapper Welch. De methode Lempel-Ziv-Welch, kortweg LZW geheten, analyseert een bestand op het voorkomen van repeterende patronen in de gegevens. Die patronen worden vervangen door een eigen interne code van een paar bytes. Bij redelijk gestructureerde gegevens, zoals databaserecords of teksten, kan op die manier een aanzienlijke compressie worden bereikt. LZW doet het overigens een stuk minder goed bij verzamelingen gegevens die ‘grillig’ zijn. Te denken valt aan meetgegevens. Toevallig De Italiaanse wetenschappers kwamen eigenlijk bij toeval op hun vinding. Ze deden onderzoek naar compressie en de zogeheten Shannon-codering. Die laatste gebruikt voor veel voorkomende symbolen een korte code, terwijl spaarzaam gebruikte tekens een lange code krijgen. Samuel Morse gebruikte zo’n schema bij het opstellen van zijn sein-alfabet. De letter e, die in het Engels het meest voorkomt, kreeg als symbool de punt, een h die veel minder vaak wordt gebruikt krijgt vier punten als code. De Morse-code is geoptimaliseerd voor het Engels. Wanneer een tekst in een andere taal zo wordt gecodeerd is het resultaat veel minder compact. De drie onderzoekers hebben een uitgebreide proef genomen met een Engelse tekst, aangevuld met een aantal regels in een andere taal. Per combinatie werd de compressiefactor uitgerekend. Bij al dat rekenwerk bleek tevens, dat ze eenvoudig konden zien in welke taal de extra tekst was geschreven. Niet alleen dat, ook de auteur van die extra tekst kon met een betrouwbaarheid van 90 procent worden bepaald. Algemeen De analysemethode is vervolgens veralgemeniseerd tot een analysemodule. Exploitanten van websites kunnen er hun voordeel mee doen, door langskomende surfers een tekst te laten intypen. Daaruit kan vrijwel direct de landstaal van die bezoeker worden afgeleid. Hij of zij kan dan in de eigen taal te woord worden gestaan. Het onderzoekslab van Xerox te Grenoble heeft al eerder zo’n ‘taalvinder’ ontwikkeld, die de ingevoerde tekst vergelijkt met een reeks woordenlijsten. Die methode werkt naar tevredenheid, maar is alleen redelijk traag. Via Zip kan de bepaling van de taal veel sneller gebeuren. Dit is van groot belang voor websites waar duizenden gebruikers per seconde langskomen. Het team van Benedetto heeft grote verwachtingen van de techniek. Ze hopen uiteindelijk een instrument te maken, dat teksten zo kan analyseren dat deze geclassificeerd kunnen worden op onderwerp. De inhoud van hele bibliotheken zou dan geordend kunnen worden zonder dat daarvoor mankracht nodig is. Perfectie De analyse van teksten is nog niet geheel perfect. Er wordt namelijk nog geen score van 100 procent herkenning bereikt. Dat is echter een kwestie van tijd. Nieuwere algoritmes, gecombineerd met snellere hardware, moeten in een vervolgproject resultaten opleveren. Genoom De werkwijze zal ook worden gebruikt voor het analyseren van het zogeheten ‘genoom’, de verzameling aminozuren die het DNA vormen. Daarbij gaat het om honderdduizenden lettercombinaties, met bepaalde onderliggende patronen. De wetenschap is geïnteresseerd in die patronen en dus erg gebaat bij een snelle methode om die boven water te krijgen. Uiteindelijk zal de techniek ook worden gebruikt voor het analyseren van seismische gegevens, om op die manier eerder een waarschuwing voor een komende aardbeving te kunnen geven. De meeste aanduidingen dat er een aardbeving aankomt, worden nog steeds pas zichtbaar op een moment dat het eigenlijk al te laat is.

Lees dit PRO artikel gratis

Maak een gratis account aan en geniet van alle voordelen:

  • Toegang tot 3 PRO artikelen per maand
  • Inclusief CTO interviews, podcasts, digitale specials en whitepapers
  • Blijf up-to-date over de laatste ontwikkelingen in en rond tech

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in