Visualisatie kan complexe analyse van teksten sterk verhelderen
Bij de Rabobank bestaat bijvoorbeeld de wens meer te doen met de vele e-mails die klanten sturen met vragen of klachten. Die worden uiteraard wel afgehandeld, maar daarna gebeurt er niet veel meer mee. ‘Text mining’, het met data mining analyseren van de inhoud van grote aantallen e-mails, biedt een oplossing. En met een paar extra slagen hoopt het bedrijf de patronen in de e-mails meteen te visualiseren. "Data mining is goed voor wetenschappers, maar niet voor eindgebruikers", zegt Ruud Smeulders, innovatiemanager bij de Rabobank. "Maar met visualisatie zie je toch een goed stuk van de feitelijke data. Het is een manier van representeren waar je even aan moet wennen door de abstractie, maar die is wel veel minder ingewikkeld." Er is veel aandacht voor de visualisatie van gegevensanalyse. Tekenend is de toevoeging van data-mining-hulpmiddelen en visualisatietechnieken aan onder andere de Oracle-database en het nog op stapel staande SQL Server 2005 (Yukon) van Microsoft. Anton Heijs, met zijn eigen bedrijf Treparel betrokken bij de Rabobank-pilot, ziet vooral veel toekomst voor één bepaalde vorm van data-mining: ‘support vector machines’ (SVM’s). "Er is een groot aantal algoritmes in data mining en daarvoor heb je doorgaans een specialist nodig. Die moet datasets en variabelen selecteren en het beste algoritme kiezen en vervolgens iteratief het model verbeteren." Support vector machines kunnen daarentegen met brute kracht veel modellen genereren waaruit daarna de nuttige relaties zijn af te leiden, stelt hij. "Dan ben je van die expert af en onderzoek laat zien dat die SVM’s minstens even goede resultaten geven." Smeulders en Heijs hopen bij de Rabobank met een pilotproject bijvoorbeeld marketeers warm te krijgen voor gevisualiseerde analyse van de databases met e-mails die in het verleden zijn gestuurd aan de bank. Smeulders: "Je laat elke e-mail vertegenwoordigen door een vector in een ruimte met zoveel dimensies als woorden die ik wil waarnemen. Bij iederen e-mail krijgt de vector dan een iets andere richting." De niet terzake doende woorden (de ‘die-, dus- en dat-woordjes’) worden er in een slag uitgehaald. Heijs: "De vector representeert vervolgens de woordfrequenties in de mails en van de vectorrepresentatie kunnen we de mails clusteren en van de geclusterde mails wordt dan een visualisatie gemaakt die een goede voorstelling geeft van hoe alle mails opgedeeld zijn." Dergelijke visualisatieslagen zijn een specialiteit van Heijs. Dimensies Smeulders hoopt dat bijvoorbeeld marketing-mensen nieuwe relaties en aanknopingspunten vinden in de maildatabase, waar ze anders nooit op gekomen zouden zijn. Maar het denken in meer dan drie dimensies is iets voor wetenschappers, dus "Dit verhaal intern uitleggen is waarschijnlijk erg moeilijk. Daarom beginnen we nu ook met een klein prototype. Ik hoop dat mensen dan het licht gaan zien." Zonder visualisatie zou dat nooit lukken, meent hij. "Ikzelf denk dat dat visualiseren noodzakelijk is om met het maken van modellen een stapje verder te komen. Zo’n model zelf is een noodzakelijke stap, maar een uitermate abstract verhaal waar je niemand mee overtuigt. Economen en boekhouders werken het liefst met tabellen. Een driedimensionale grafiek, dat gaat er bij veel mensen al niet in. In sta er versteld van hoe weinig er hier grafisch getoond wordt. Veel abstractiestappen zijn er nog niet gezet; daarom moet je dat langzaam opbouwen." Essentieel daarbij is volgens Heijs dat de gebruikte Oracle-technologie dermate schaalbaar is dat voor een grote organisatie als Rabobank een veel groter systeem haalbaar is. Heijs ziet text mining ook als een geschikt middel voor het onderzoeken van de inhoud van nieuwsgroepen, patenten, boeken, en onderzoeksgegevens. In data mining gaat het vooral om de nauwkeurigheid en de robuustheid van een datamodel; in text mining worden de termen ‘precision’ (cluster ik de mail naar het juiste cluster) en ‘recall’ (heb ik alle mails correct naar de juiste clusters toegewezen) gehanteerd. Per toepassing is er dan weer een verschil. Patentclassificatie is bijvoorbeeld een vak apart. "Patenten hebben een mooie structuur; e-mails zijn vrij ongestructureerd. maar het moeilijke aan patenten is dat ze heel vaak dezelfde woorden gebruiken. Dan is het goed classificeren lastiger." Heijs ziet de aandacht voor SVM’s, die op zichzelfs overigens niet nieuwe zijn, sterk toenemen. "Oracle ondersteunt het nu voor data mining en voor text mining. Het is de laatste vijf jaar sterk in opkomst, maar het moet nog een beetje naar de markt gebracht worden. Het mooie is dat het op allerlei gebieden kan worden toegepast." Visualisatie van 60.000 nieuwsgroep-artikelen (Usenet), waarbij de hoogte en kleur van de ‘text-bergen’ het aantal newsgroup-documenten voorstelt en de onderlinge afstand is bepaald door de mate van gelijkenis van de teksten.