Contentanalyse: van techniek naar bedrijfswaarde

De automatische classificatie van ongestructureerde informatie is al jaren een probleem. Wat een mens in één oogopslag ziet, is voor software nog steeds een hele kunst. Door de combinatie van verschillende technieken en methoden worden de resultaten steeds beter.

Hans KaashoekMeer van deze auteur

Zo goed zelfs dat volledig automatische classificatie voor steeds meer toepassingen een realiteit is. Een goede ontwikkeling, ook in het kader van de komende Algemene Verordening Gegevensbescherming (AVG).

Leg een aanvraagformulier, een formele brief, een contract en een declaratie, al dan niet digitaal, naast elkaar en een mens ziet direct wat ieder document is. Hij leest de relevante gegevens, doet nog een inhoudscontrole en plaatst ze ook nog in een mogelijk onderling verband. Deze ogenschijnlijk vanzelfsprekende actie is bij nadere analyse een combinatie van verschillende herkennings- en analysetechnieken. Er is onder andere sprake van de analyse van het objecttype (vorm, aard, layout), de inhoud (tekst, cijfers, structuur), de betekenis (inhoud in context), relevantie (onderwerp, woordkeus, leeftijd, auteur, geadresseerde) en authenticiteit (handtekening, stempel). Omdat het soort en de inhoudsvorm van nieuwe digitale content constant veranderen, is het gebruik van op één technologie gebaseerde herkennings- en classificatiemethode een risico.

Dit geldt ook voor de classificatie van reeds lange tijd in een organisatie aanwezige, soms nog fysieke, oude content. ‘Oud’ ook in de zin van vorm, inhoud, onderwerp en taalgebruik. Een aanvraag voor zwangerschapsverlof uit 1980 ziet er totaal anders uit dan het laatste UWV-formulier hiervoor.

Wereldbeker

Het inhoudelijk analyseren en classificeren van een object op basis van alleen woordfrequentie (word counting) gaat voorbij aan de aard van het document, de aanvraag zelf of juist een klacht over een verkeerd verwerkte aanvraag. Alleen woordanalyse gaat voorbij aan de context waarbinnen de woorden zijn gebruikt. Een wereldbeker kan zomaar gezien worden als een hele grote drinkbeker. Het alleen zoeken van informatie met een specifieke layout, zoals een datum, ziet niet het verschil tussen de documentdatum en de datum waarop het contract getekend is en ingaat.

Reeds lang bestaande analyse- en classificatieoplossingen zijn ooit vanuit de toen beschikbare technologie voor één primaire toepassing ontwikkeld en daarvoor nog steeds prima te gebruiken. De toepasbaarheid ervan voor alle vormen van digitale content en ook het ‘oude’ materiaal wordt echter steeds meer een uitdaging. Nieuwe classificatieoplossingen combineren dan ook meerdere analysetechnieken in één oplossing.

Businessrelevantie

Content werd voorheen geclassificeerd om in digitale werkprocessen door mensen te worden geanalyseerd en verwerkt. Nu is het streven om de geclassificeerde content en vooral de inhoud ervan direct te verwerken in transactiegebaseerde applicaties. Het classificatieproces wordt steeds meer toepassingsgericht. Ook de classificatie van content voor specifieke bedrijfsdoelstellingen, compliance-issues, e-discoveryvraagstukken en wet- en regelgeving wordt steeds actueler. Dit betekent dat de classificatieoplossing naast een zorgvuldige analyse en gegevensextractie tevens in staat moet zijn om de van toepassing zijnde businessregels in het classificatieresultaat te integreren.

Hiermee kan als direct resultaat van de classificatie de impact, de waarde of het risico van de geanalyseerde objecten in relatie tot die businessregel worden bepaald. Bijvoorbeeld: wat voor soort AVG-gerelateerde en voor de organisatie nog waardevolle documenten staan er in een afdeling-Fileshare. Of: wat voor contractdocumenten er in de algemene opslagomgeving van de ontslagen medewerker staan die nog niet bekend zijn in het centrale klantdossiers.

Hulpmiddel

De toepassing van contentclassificatie verandert van een technologische keuze in het toepassen van een gericht businesshulpmiddel. Dit om op basis van een geautomatiseerde waardebepaling van het geanalyseerde object direct de juiste vervolgacties te bepalen of te ondernemen. Een onmisbaar hulpmiddel om de explosief groeiende hoeveelheid digitale content op de juiste wijze te kunnen blijven behandelen.