IBM steekt honderden miljoenen in Apache Spark

IBM zet vol in op Apache Spark, de open source software voor het bewerken van grote dataverzamelingen. Het gaat om een investering van honderden miljoenen per jaar, aldus directeur Bet Smith van IBM's divisie analysetoepassingen.

Redactie AG ConnectMeer van deze auteur

Spark is ontwikkeld om de hoeveelheden gegevens die bij Big Data-toepassingen komen kijken, sneller te kunnen verwerken. Spark is volgens de Apache Foundation, dat de ontwikkeling van deze toepassing onder zijn hoede heeft, 10 maal zo snel als de traditionele combinatie Hadoop - MapReduce bij verwerking van gegevens die op schijf staan. Wanneer de gegevens in het geheugen worden geladen, is Spark 100 maal zo snel. Spark kan daarbij ook overweg met andere methode dan Hadoop om van geclusterde computersystemen gebruik te maken.

IBM zet nu vol in op deze techniek voor gegevensverwerking. Het maakt Spark onderdeel van zijn Analytics- en Commerce-platformen, biedt Spark als dienst aan op zijn Bluemix-cloudplatform en gaat Spark ook toepassen in zijn Watson Health Cloud. Daarnaast maakt IBM zijn machineleersoftware SystemML beschikbaar als open sourcesoftware en gaat het met Databricks samenwerken om patroonherkenning in te bouwen in Spark.

Daarnaast gaan 3500 medewerkers van IBM Spark-gerelateerde projecten uitvoeren en opent het een speciaal Spark Technology Center in San Francisco. Dat start met 20 medewerkers, en zal op termijn naar verwachting uitgroeien tot 300 man. Ook heeft IBM zich ten doel gesteld om 1 miljoen datawetenschappers op te leiden in Spark.