Basis voor succes Snowflake ligt in Nederland
"Snowflake heeft de eerste echt voor de cloud ontworpen database-architectuur neergezet", zegt Peter Boncz, hoogleraar Large Data Systems aan de Vrije Universiteit (VU) en onderzoeker bij het CWI. Om applicaties goed schaalbaar te maken (elastisch) worden in de cloud rekenvermogen (compute) en opslag (storage) losgekoppeld van elkaar. "Dat is lastig voor databasesystemen, die graag direct op de storage zitten." Daar zijn oplossingen voor gevonden zoals Redshift, het warehousingsysteem van Amazon. De basistechnologie daarvan is echter niet voor de cloud ontworpen en daarom niet zo flexibel. De technologie van Snowflake is veel efficiënter, zegt Boncz.
In de aanpak van Snowflake spelen twee technologieën een belangrijke rol - 'vectorized query execution' en 'lightweight compression' - waaraan Marcin Zukowski tot 2008 onderzoek deed aan het CWI. Op basis van zijn kennis en ervaring richtte hij eerst VectorWise op in Amsterdam, samen met zijn promotor Peter Boncz. Dat bedrijf werd gekocht door databasebedrijf Ingres Corp. Vervolgens startte Zukowski in 2013 in Silicon Valley Snowflake, samen met Benoit Dageville en Thierry Cruanes. Het bedrijf heeft inmiddels 1300 klanten wereldwijd en geldt als een van de veelbelovende databedrijven in de wereld.
Andere aanpak
Boncz legt de twee kerntechnologieën van Snowflake als volgt uit:
- Vectorized query execution: een database systeem moet queries in databasetaal SQL uitvoeren. Daarvoor heeft het een interpreter nodig, die een SQL query interpreteert door berekeningen uit te voeren op de data. Om die interpreter efficiënter te maken, is het beter om berekeningen in grotere brokken uit te voeren dan per individuele rij in een tabel. Dat heet "vectorized" executie, waarbij de brokken de vorm aannemen van "vectors": stukjes kolom uit een tabel. Deze methode van het uitvoeren van queries sluit beter aan bij moderne hardware, die speciale hardware-instructies heeft voor het rekenen op vectoren (in Intel-processoren zijn dat SSE-, AVX- en AVX512-instructies).
- Lightweight compression: Als je data kolomsgewijs opslaat, sla je alle data van 1 kolom bij elkaar op in een diskblok. Als je dit niet per kolom, maar per rij (in een tabel) zou doen, raakt de data van verschillende kolommen door elkaar gemengd in een diskblok. Volgens de informatie-theorie leidt kolom-gebaseerde opslag daarom tot minder chaos (lagere entropie). Dat betekent weer dat de data beter gecomprimeerd kan worden. En minder data vertaalt zich weer in sneller transport van disk, over het netwerk naar de cloud, en daarbij dus een lagere rekening voor het cloudgebruik.
Sterk én snel
Marcin Zukowski heeft bij CWI een aantal nieuwe databasecompressiemethoden uitgevonden, die aansluiten op vectorized execution. Deze methoden kunnen data heel sterk comprimeren, dus in erg kleine omvang 'verpakken', maar zijn tegelijkertijd ook zeer snel bij het comprimeren en decomprimeren. Dankzij die eigenschappen worden deze methoden nu veel gebruikt in databestanden en databasesystemen, waaronder die van Snowflake.
Frank Slootman nam in april vorig jaar het roer over bij Snowflake als CEO. Slootman leeft al sinds de jaren '80 in Silicon Valley en werd in 1995 Amerikaans staatsburger. Hij leidde verschillende innovatieve bedrijven. Een van zijn grote successen was Data Domain, de start-up die de basis legde voor datadeduplicatie. Toen hij in 2003 CEO werd van Snowflake bestond dat bedrijf 2 jaar en had het 20 man in dienst. Het ging in 2007 naar de beurs en werd in 2009 gekocht door opslagleverancier EMC voor 2,4 miljard dollar.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee