Overslaan en naar de inhoud gaan

Apache stort zich op kolomgebaseerde in-memory verwerking

Het Apache Arrow gedoopte project moet een analytische verwerkingsomgeving opleveren die tot wel honderd maal sneller werkt dan de huidige big data-oplossingen van Apache, zoals Hadoop, Spark en Kafka.
Apache Software Foundation

Die hoge in-memory werkingsnelheid moet worden bereikt door gebruik te maken van een kolomgebaseerd storageschema. De aanpak maakt een aanzienlijk beperking mogelijk van de overhead die bij een recordgebaseerde dataordening ontstaat door het herhaaldelijk moeten serialiseren en de-serialiseren van data. Soms gaat daar wel meer dat dan driekwart van het beschikbare processor-vermogen aan op.

Ook biedt kolomgebaseerde in memoryverwerking betere mogelijkheden om analyses gedistribueerd uit te voeren op systemen die daartoe niet op hardware-niveau interoperabel hoeven te zijn. Deze eigenschap zou weleens van groot nut kunnen blijken binnen de context van het internet of things.

Apache Drill

De plannen voor Apache Arrow hebben de steun van andere Apache-ontwikkelgemeenschappen zoals die rond Hadoop, Spark, Drill, Calcite, Cassandra, HBase, Impala, Kudu, Parquet, Phoenix en Storm. Deze groepen zullen ongetwijfeld code aandragen voor hergebruik binnen Apache Arrow.

Gerelateerde artikelen
Gerelateerde artikelen

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in