
Big Data: MapR integriert seine Hadoop Distribution mit der Google Compute Engine

MapR Technologies, Softwareanbieter für die Analyse großer Datenmengen, wird in Zukunft seine eigene Apache Hadoop Distribution für Googles Infrastructure-as-a-Service Google Compute Engine bereitstellen. MapR für die Google Compute Engine wird zunächst kostenlos als Private Beta für eine ausgewählte Anzahl von Benutzern zur Verfügung stehen. Wer Interesse an der Big Data Analyse hat, kann sich hier dafür bewerben.

Big Data: MapR integriert seine Hadoop Distribution mit der Google Compute Engine

Big Data Analyse auf der Google Compute Engine

Mit der Kombination von Googles neuen IaaS und MapRs Hadoop sind Nutzer damit in der Lage große Implementierungen von MapR Cluster on-Demand bereitzustellen und sich damit ein Cloud-basiertes System für die Analyse großer Datenmengen aufzubauen. Google hatte MapReduce ursprünglich für sein interes Such-Framework entwickelt.

Ein Meilenstein für die Big Data Analyse

Während der Google I/O demonstrierte MapR bereits, zu was seine Hadoop Implementierung in der Lage ist. Ein 1TB TeraSort Job wurde innerhalb von 1 Minute und 20 Sekunden verarbeitet. Dabei nutzte MapR einen Google Compute Engine Cluster bestehend aus 1.256 Nodes, 1.256 Platten und 5.024 Cores für gerade einmal 16 US-Dollar.

Zum Vergleich: Der aktuelle Weltrekord für den TeraSort liegt bei 1 Minute und 2 Sekunden. Dazu wurde ein physikalischer Cluster mit mehr als vier Mal so vielen Festplatten, doppelt so vielen Cores und weitere 200 Server benötigt. Kosten: Mehr als 5.000.000 US-Dollar.


Für die Integration von MapR mit der Google Compute Engine stehen mehrere Standard MapR Konfigurationen zur Verfügung. Nutzer können die Google Compute Engine je nach Bedarf nutzen und können, wenn nötig, mehr als 1.000 Node Cluster starten.

By Rene Buest

Rene Buest is Gartner Analyst covering Infrastructure Services & Digital Operations. Prior to that he was Director of Technology Research at Arago, Senior Analyst and Cloud Practice Lead at Crisp Research, Principal Analyst at New Age Disruption and member of the worldwide Gigaom Research Analyst Network. Rene is considered as top cloud computing analyst in Germany and one of the worldwide top analysts in this area. In addition, he is one of the world’s top cloud computing influencers and belongs to the top 100 cloud computing experts on Twitter and Google+. Since the mid-90s he is focused on the strategic use of information technology in businesses and the IT impact on our society as well as disruptive technologies.

Rene Buest is the author of numerous professional technology articles. He regularly writes for well-known IT publications like Computerwoche, CIO Magazin, LANline as well as and is cited in German and international media – including New York Times, Forbes Magazin, Handelsblatt, Frankfurter Allgemeine Zeitung, Wirtschaftswoche, Computerwoche, CIO, Manager Magazin and Harvard Business Manager. Furthermore Rene Buest is speaker and participant of experts rounds. He is founder of and writes about cloud computing, IT infrastructure, technologies, management and strategies. He holds a diploma in computer engineering from the Hochschule Bremen (Dipl.-Informatiker (FH)) as well as a M.Sc. in IT-Management and Information Systems from the FHDW Paderborn.

7 replies on “Big Data: MapR integriert seine Hadoop Distribution mit der Google Compute Engine”

Leave a Reply