Bomen

Grip op informatie door contentclassificatie

11 juli 2014

 

Enterprise Content Management (ECM) – voor het beheer en het werken met ongestructureerde informatie – evolueert richting Enterprise Informatie Management. Ook de functionele verrijking van een ECM-oplossing met contentanalyse en nieuwe zoek- en integratiefuncties draagt bij aan deze evolutie. De effectiviteit en het rendement van een EIM-oplossing worden echter in hoge mate bepaald door de kwaliteit van de onderliggende content.

Content (files, e-mails, foto’s, video, blogs) wordt naast gestructureerde data (ERP, CRM, HRM) steeds nadrukkelijker gezien als bedrijfskritische informatie. Ontoereikende of niet-geclassificeerde content, bestaand en nieuw, die over meerdere bronsystemen of locaties is opgeslagen, heeft een permanent negatief effect op de kwaliteit van de EIM-oplossing en de kosten van beheer en opslag. Slecht geclassificeerde content beperkt tevens de mogelijkheden van de nieuwste informatieontsluitings- en gebruiksfuncties.

De explosieve toename van de hoeveelheid content die een organisatie ontvangt, creëert en opslaat versterkt al deze problemen. Het is dus tijd om orde op zaken te stellen en zo weer grip te krijgen op alle content in een organisatie: contentanalyse en -herclassificatie voor de verbetering van de kwaliteit van de in- en externe informatievoorziening; contentschoning en -consolidatie voor het beperken van de risico’s van out-dated content en de stijging van opslag- en beheerkosten. De combinatie van beide biedt op bedrijfsniveau vele voordelen om een digitale organisatie flexibel en slagvaardig te maken.

 

Geen inzicht

Vijfentwintig jaar document- en contentmanagement hebben hun sporen nagelaten in het informatielandschap. Ooit als state-of-the-art geïntroduceerde documentbeheersystemen zijn nu technisch verouderd en een blok aan het IT-been. Afdelingsgerichte toepassingen waarin de gebruiker eenvoudig zijn weg en informatie kon vinden, zijn door beperkte functionaliteit ongeschikt voor organisatiebrede inzet. Zijn de documenten ooit gescand en opgeslagen in het TIFF-formaat, dan is inhoudelijk zoeken uitgesloten. Ontwikkelingen in terminologie, begripskader en registratie- en rapportage-eisen veranderen maatwerksystemen in echte informatiesilo’s, vooral als de digitale files alleen met een doc-id-nummer geregistreerd zijn en deze via een complex maatwerk, met vaak ook proceslogica, hecht geïntegreerd zijn met bedrijfsapplicaties.

Het uitfaseren van deze systemen is niet eenvoudig. Veel content verdwijnt uit het gezichtsveld door de herinrichting van een organisatie of het einde van een project. Zonder eigenaar worden ooit bedrijfskritische documentsystemen passieve informatiebronnen waarvan de kennis van de inhoud, de betekenis en de waarde ontbreken. Ook medewerkers wisselen van functie of verlaten de onderneming en laten allerlei dossiers en files achter. De toepassing van ECM-systemen ten spijt, staat veel content op fileshares, in inboxen en allerlei snel aangemaakte SharePoint-sites. Deze content is meestal ‘geordend’ in een door de gebruiker verzonnen mappenstructuur met de filenaam als enige ontsluiting. Resultaat van dit alles is dat negen van de tien organisaties geen inzicht hebben in de exacte hoeveelheid, de waarde en het risico van alle aanwezige content. Content die essentieel is voor één integrale klantbenadering of zaakafhandeling en die een adequate informatiehuishouding vereist. Een informatiehuishouding waaraan door toenemende digitalisering van organisaties, werkprocessen en klantinteractie steeds hogere eisen worden gesteld. Een informatiehuishouding die, net als in de datawereld, eenduidig en uniform moet worden ontsloten en beheerd.

 

Schrikbeeld

Tachtig procent of meer van de bedrijfsinformatie is ongestructureerde content die op diverse locaties wordt opgeslagen. Recentelijk nog werden alle inkomende berichten door een postkamer of een DIV-medewerker geregistreerd. Nu gaan ze via multichannel-input zonder registratie direct naar de medewerker of de processen. Content in cloud-toepassingen heeft een eigen ontsluitingsstructuur en is daardoor lastig te integreren met bestaande informatiebronnen. Nieuwe versies van ECM en informatiebeheerssystemen bieden weliswaar geavanceerde functionaliteit maar deze kan lang niet altijd optimaal worden benut. Zo biedt bijvoorbeeld SharePoint 2013 veel uitgebreidere contentbeheer-, classificatie- en ontsluitingsfuncties dan de 2007- of 2010-versies. Deze functionaliteit komt echter niet tot zijn recht bij een lift & shift-contentmigratie omdat essentiële metadatavelden niet in de voorgaande versie aanwezig zijn en dus nieuw gedefinieerd moeten worden. In menig organisatie ontbreekt het aan een overall metadatamodel, waardoor content nog vaak toepassingsgericht wordt geclassificeerd. Hierdoor ontbreekt het overzicht van alle aanwezige en relevante informatie over een klant, zaak of project.

Wat organisaties wel zien is de lange maar toch onvolledige resultaatlijst na een zoekopdracht of de explosieve stijging van opslag- en beheerskosten. Toename van de vereiste opslagcapaciteit met ruim dertig procent per jaar is geen uitzondering. Het overgrote deel is voor content zoals e-mails, documenten, foto’s en video. Het met tien hoogresolutie foto’s – via mobielschademelden.nl – registreren van een ongeval, geeft duizend keer meer datavolume dan via één schadeformulier. De opslagkosten voor één petabyte zijn vele miljoenen euro’s per jaar: het financiële schrikbeeld voor menig CIO van een grote onderneming. Van de ongestructureerde informatie staat tachtig procent ongeclassificeerd in fileshares, inboxen of SharePoint sites. Ruim zestig procent van alle bedrijfsinformatie is dus content met een onbekende waarde of risico. Te veel content te lang bewaren leidt tot significante risico’s in aansprakelijkheid of rechtmatigheid. Gerichte of rechtmatige schoning is noodzakelijk, maar wordt lang niet altijd uitgevoerd. Om voorgaande uitdagingen te adresseren en de organisatie gereed te maken voor een volledig digitale toekomst is een fundamentele analyse van alle aanwezige content op enig moment noodzakelijk. Werk dat voorheen door geduldige specialisten werd uitgevoerd maar nu steeds vaker met software wordt gedaan, wat zowel technisch als functioneel aanzienlijk eenvoudiger opschaalt.

 

Contentverrijking

Het resultaat en de doorlooptijd van een contentoptimalisatieproject worden mede bepaald door de mate en kwaliteit van de classificatie. Classificatie op basis van traditionele fileanalyse met alleen wordcounting of keyword-extractie is ontoereikend. Omdat hierna nog de mapping van de geëxtraheerde keywords op de organisatietaxonomie moet worden gedaan. Deze mapping en de afhandeling van de uitzonderingen zijn foutgevoelige en tijdrovende processen. Nieuw is de classificatie met zelflerende algoritmen die gebruik maken van een representatieve referentieset van gelabelde objecten én de daarbij behorende verwerkingsregels. Het proces verloopt hierdoor vrijwel volledig automatisch. Contentverrijking en -consolidatieprojecten doorlopen doorgaans de volgende stappen:

  • contentinventarisatie en -mapping over alle bronsystemen en opslaglocaties heen;
  • definitie metadatastructuur voor de doelomgeving;
  • GAP-analyse en projectscooping;
  • creatie referentieset met procesregels;
  • detailkoppeling met bronsystemen;
  • lezen, analyseren en classificeren content;
  • verrijking metadatagegevens en herclassificatie content;
  • optiioneel: ontdubbelen, bepaling laatste versie, verwijderen dark-data en opschoning;
  • terugschrijven of inlezen content en metadata in doelomgeving.

En alles mét gedetailleerde logging, procesdashboards, rapportagefuncties en validatieslagen. Dat ondernemingen de kwaliteit, beheersbaarheid en kosten van ongestructureerde informatie serieus nemen, blijkt uit de vele oplossingen en projecten op dit gebied (zie kader).

 

Positieve effecten

De operationele en financiële resultaten van de tot nu toe uitgevoerde projecten zijn uiterst positief. Inzicht krijgen in de werkelijke aard en hoeveelheid content die een organisatie bezit, is soms al zeer waardevol. Oude verzamelingen en versnipperde content worden geschoond, verrijkt en logisch of zelfs fysiek geconsolideerd in één uniforme en organisatiebrede informatieverzameling. Dossiers bevatten alle relevante informatie en ondersteunen iedere kenniswerker; kennis die hierdoor beschikbaar komt voor de organisatie en niet langer persoonlijk bezit is van medewerkers. Dit verhoogt tevens de organisatieflexibiliteit en inrichtingsmogelijkheden, ook in relatie tot digitale klantinteractie. Effectief gebruik van de nieuwste ontsluitings- en beheerfuncties wordt mogelijk, wat de gebruikswaarde van standaardsoftware verhoogt. Een integrale klant- of zaakbenadering vereist geen complexe informatie- en systeemintegratie meer. Na een fysieke consolidatie kunnen softwarelicenties van oude beheersystemen worden opgezegd. Vermindering van het opslagvolume met dertig tot veertig procent en de daaraan gerelateerde kosten en beheerinspanning worden al snel gerealiseerd. Toekomstige herclassificatie wordt door de actualisering en opschoning aanzienlijk eenvoudiger. De informatieverzameling is op orde en voldoet aan informatie-governancerichtlijnen.

Grip op de kwaliteit, de hoeveelheid en het gebruik van content brengt, naast kostenbesparingen, de realisatie van de echte kennisorganisatie een stap dichterbij. Met het inzicht ‘wie welke content voor welke taak gebruikt’ kunnen kennisprofielen worden aangemaakt en informatierelevantie worden bepaald. Pro-actieve ondersteuning van medewerkers of zelfwerkzame externe relaties worden een automatisme. Nieuwe informatie wordt onder de ‘save-knop’ automatisch geclassificeerd en zo altijd juist ontsloten en opgeslagen. Content in context wordt essentiële bedrijfsinformatie en waardevolle kennis voor iedereen.

Projecten

Dat de aandacht voor de kwaliteit, beheersbaarheid en kosten van content actueel is, blijkt onder meer uit de diverse substantiële projecten die in Nederland gaande zijn. Ondernemingen in alle marktsegmenten zoals Achmea, Shell en Rijkswaterstaat hebben projecten lopen. Hierin worden soms vele tientallen miljoenen documenten geclassificeerd en/of gemigreerd. De taakverschuiving van centrale naar decentrale overheden en de nadruk op zaakgericht werken vereisen een andere ordening en ontsluiting van dossiers. Het thema is dan ook in deze sector zeer actueel. De projecten worden binnen de onderneming of als externe service uitgevoerd. En dit: afhankelijk van de omvang, complexiteit en vertrouwelijkheid van de informatie en de beschikbare kennis en capaciteit in de onderneming.

Twee stromingen

Voor de optimalisatie van contenttoegang en -gebruik zijn twee stromingen in de markt te onderkennen: fundamentele contentanalyse, -verrijking en -consolidatie enerzijds en de inzet van geavanceerde zoektechnologie anderzijds. De inzet van zoektechnologie heeft voor- en nadelen. Enkele voordelen zijn:

  • een minder complex implementatie- en veranderingsproces;
  • werkt goed binnen gerichte informatieverzamelingen;
  • semantisch zoeken wordt steeds beter;
  • eenvoudig in gebruik.

 

Enkele nadelen zijn:

  • geen ontdubbeling, opschoning en opslagreductie;
  • eigen formulering vraagstelling kan tot verschillende antwoorden leiden;
  • vereist goede opbouw thesauri en woord in contextanalyse;
  • en als grootste nadeel: het probleem wordt niet bij de bron aangepakt en geeft geen fundamentele verbetering van de bestaande informatiehuishouding.
 
Lees het hele artikel
Je kunt dit artikel lezen nadat je bent ingelogd. Ben je nieuw bij AG Connect, registreer je dan gratis!

Inloggen

Registreren

  • Direct toegang tot AGConnect.nl
  • Dagelijks een AGConnect nieuwsbrief
  • 30 dagen onbeperkte toegang tot AGConnect.nl

Ben je abonnee, maar heb je nog geen account? Laat de klantenservice je terugbellen!