Apache Spark kan nu 'native' op Kubernetes
De Spark Operator maakt het mogelijk om Spark te gebruiken direct op Kubernetes clusters. Apache Spark wordt veel gebruikt als processing engine voor het verwerken van Big Data en voor complexe analytics-jobs. Spark valt op door de hoge verwerkingssnelheid en het gebruiksgemak. Hoewel Spark als standalone-toepassing kan worden gebruikt, bewijst het framework tot nog toe vooral zijn waarde in combinatie met de Hadoop services van Microsoft (Azure HD Insight), Amazon (Amazon EMR) en Google (Google Cloud Dataproc). Het kan ook gebruikt worden in combinatie met Apache Mesos clusters.
Het gebruik van het platform direct op Kubernetes clusters was wel al mogelijk, maar tot nog toe niet echt eenvoudig. Spark biedt sinds versies 2.3 weliswaar ondersteuning voor Kubernetes, maar om de zaak op een volledig geïntegreerde manier draaiende te krijgen, heeft zo zijn uitdagingen.
Eenvoudiger beheer
De Spark Operator - een Kubernetes custom controller - moet die problematiek uit de weg ruimen. Ontwikkelaars, data engineers en data scientists kunnen er de brug mee slaan tussen hun Spark-toepassingen en de databronnen door er declarative specifications mee op te stellen. Ook maakt Spark operator het gebruik van andere native Kubernetes tooling mogelijk zodat zij hun Spark applicaties beter kunnen beheren.
Het is nu de vraag of de Amazon en Microsoft ook de de Spark Operator gaan ondersteunen op hun Kubernetes-dienstverlening. En de bijkomende vraag wat de toekomst van Hadoop is.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee