‘Relationele database moet anders’
De ‘one-size-fits-all’-gedachte waarmee ze zijn opgezet wreekt zich vaak in de scenario’s waarin de RDBMS tegenwoordig wordt gebruikt. Terwijl de database 25 jaar geleden werd ontwikkeld voor ‘online transactieverwerking’, is dat specifieke terrein tegenwoordig een van de vele toepassingsgebieden van de RDBMS en dus minder belangrijk, maar intussen wordt hij wel voor al die gebieden ingezet. Datawarehousing, wetenschappelijke analyse-toepassingen en de overdaad aan ongestructureerde data vergen andere eigenschappen van een database, zeker in combinatie met de drastische daling van de hardwarekosten, signaleert Stonebraker.
Stonebraker spreekt niet helemaal zonder eigenbelang. In februari van dit jaar richtte hij met enkele anderen Vertica op, dat een relationele database levert voor datawarehousing-toepassingen. Specifieke aanpassingen daarin ten opzichte van de standaard-RDBMS’en zoals Oracle, IBM en Microsoft die leveren, zijn: het opslaan van gegevens in de kolommen van databasetabellen (vandaar de naam Vertica) in plaats van in rijen, een zeer intensieve compressie van data en een rechtstreekse bevraging van die gecomprimeerde data. Voor ‘verticale’ opslag heeft een database meer tijd nodig dan voor horizontale opslag, die dus geschikter is voor intensieve transactietoepassingen met voortdurende lees- én schrijfacties. Gegevens in datawarehouses worden daarentegen vaak slechts één keer geschreven en verscheidene malen gelezen (voor analysedoeleinden). In die laatste fase wordt de snelheidswinst ten opzichte van ‘gewone’ RDBMS’en behaald en Vertica is niet zuinig met claims; de database zou 50 keer zo snel zijn als de ‘horizontale’ tegenhangers en nog 10 keer zo snel als andere kolomgeoriënteerde databases.
Meer spelers
Van die verticale tegenhangers is Sybase IQ de bekendste. Dat is een database die eigenlijk al in 1994 werd overgenomen door Sybase en pas in 2002 echt werd vermarkt, wat aangeeft dat het idee zelf niet echt nieuw is. Het product maakt de laatste jaren een flinke groei door, vooral in de financiële sector. Klanten met datawarehouses van 10 terabytes zijn geen uitzondering meer. Een andere naam die de laatste tijd opduikt is de startup SAND, dat zich met vergelijkbare technologie vooral op SAP-klanten richt. SAND is sterk gericht op de compressie van de in de datawarehouse opgeslagen gegevens. Bij Volkswagen Financial Services in Duitsland zou de hoeveelheid geladen gegevens met 90 procent zijn teruggebracht, zonder in te boeten op de beschikbaarheid voor rapportages.
Sybase, SAND en Vertica richten zich alleen op datawarehousing, maar Stonebraker meent stellig dat de architectonische aanpassingen niet tot datawarehousing beperkt hoeven te blijven en doet een boude bewering: “In elk toepassingsgebied van enig belang is het mogelijk een SQL-DBMS te bouwen met marktspecifieke eigenschappen, dat 50 keer zo goed presteert als de ‘one-size-fits-all’-engines.” Hij zegt te verwachten dat kolomgeoriënteerde databases de datawarehousing-markt volledig zullen overnemen. “En op langere termijn verwacht ik een vergelijkbare transitie op andere toepassingsgebieden, waar de gebruikers veel problemen ervaren en een radicale prestatieverbetering mogelijk is met een gespecialiseerde softwarearchitectuur.”