Overslaan en naar de inhoud gaan

IBM bouwt onvoorstelbaar groot opslagsysteem

120 petabyte is een onvoorstelbare hoeveelheid gegevens. Om een idee te geven: Apple zou er genoeg aan hebben om 24 miljoen bezitters van een iPhone, iPad en/of iPod hun 5 gigabyte gratis opslag in de iCloud te kunnen leveren. Van de WayBack Machine, het internetarchief met inmiddels 150 miljard webpagina’s, zouden op 120 petabyte 60 kopieën opgeslagen kunnen worden.
Business
Shutterstock
Shutterstock

Het systeem dat IBM nu bouwt is daar niet voor bedoeld. Het opslagsysteem gaat gegevens opslaan van "een supercomputer die gebruikt wordt om gebeurtenissen in de reële wereld te simuleren", vertelt directeur opslagonderzoek Bruce Hilsberg van IBM’s Almaden-onderzoeksinstelling aan MIT’s Technology Review.

Alleen al 2 petabyte metadata
Zo’n groot systeem stelt de bouwers voor bijzondere uitdagingen. Ze moeten er bijvoorbeeld rekening mee houden dat de supercomputer een biljoen (duizend miljard) bestanden genereert. Alleen al voor het opslaan van de namen en andere bestandsinformatie, zoals type, attributen en degelijke, is 2 petabyte aan opslagruimte nodig.

Voor het scannen van die bestanden zet IBM zijn General Parallel File System in. Dat versnelt het lezen van bestanden en het uitvoeren van beheertaken zoals het selecteren van bestanden voor back-up en migratie. Vorige maand vestigde IBM nog een record op dat vlak, door 10 miljard bestanden in 43 minuten te scannen. Overigens gebruikte het daarbij solid state disks voor de opslag van de metadata die GPFS moest doorploegen. Of solid state disks ook onderdeel uitmaken van het systeem dat nu in aanbouw is, is niet bekend.

Luchtkoeling schiet tekort
Ook in fysiek opzicht is de bouw een uitdagende klus. De 120 petabyte opslag wordt samengesteld uit 200.000 harde schijven. Om het ruimtebeslag daarvan binnen de perken te houden, moesten speciale rekken geconstrueerd worden. Luchtkoeling volstaat bovendien niet om alle hitte af te voeren: de samenstellende schijfsystemen zijn watergekoeld.

Herstellen van fouten vraagt in zo’n complex ook aanvullende maatregelen. Zoals in andere systemen verdeelt IBM bestanden in dit megasysteem op zodanige wijze over de schijven, dat gegevens hersteld kunnen worden als een schijf uitvalt. Om het risico van verloren gaan van gevens verder te beperken heeft IBM een algoritme ontwikkeld dat dit herstelproces versnelt wanneer meerdere bij elkaar gelegen schijven falen. Het resultaat is een kans dat gegevens verloren gaan van hooguit een keer in de miljoen jaar, zonder dat daarvoor aan prestaties hoeft te worden ingeboet.

Software maakt het verschil
Hilsberg verwacht dat dergelijke technieken steeds belangrijker worden naarmate de gegevensproductie blijft toenemen. "Om inzetbaar te blijven moeten opslagsystemen niet alleen groter worden, maar ook sneller. Harde schijven worden niet in evenredige mate sneller of betrouwbaarder als de vraag naar opslag groeit, dus moet software het verschil maken", aldus Hilsberg.

Gerelateerde artikelen
Gerelateerde artikelen

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in