Big Data in the Cloud: AWS Data Pipeline and Amazon Redshift

AWS Data Pipeline

With the AWS Data Pipeline Amazon wants to improve the access to the steady growing data on distributed systems and in different formats. For example, the service loads textfiles from Amazon EC2, processes it and saves them on Amazon S3. The main hub is represented by the AWS Management Console. Here the pipelines including the several sources, conditions, targets and commands are defined. Based on task plans it is defined when which job will be processed. The AWS Data Pipeline determines from which system based on which condition the data is loaded and processed and where it is stored afterwards.

The data processing can be conduct directly in the Amazon cloud on EC2 instances or in the own data center. Therefore the open source tool Task Runner is used which communicates with the AWS Data Pipeline. The Task Runner must run on each system that is processing data.

Amazon Redshift

Amazon’s cloud data warehouse Amazon Redshift helps to analyze huge amount of data in a short time frame. Within it’s possible to store 1.6 petabytes of data and request them using SQL queries. Basically the service is charged by pay as you use. But customers who sign a three years contract and giving full load on their virtual infrastructure pay from 1.000 USD per terabyte per year. Amazon compares with numbers from IBM. IBM charges a data warehouse from 19.000 USD to 25.000 USD per terabyte per year.
First Amazon Redshift beta users are Netflix, JPL and Flipboard who were able to improve their requests 10 till 150 times faster compared to their current systems.

Amazon Redshift can be used as a single cluster with one server and a maximum of 2 terabyte of storage or as a multi node cluster including at least two compute nodes and one lead node. The lead node is responsible for the connection management, parsing the requests, create task plans and managing the requests for each compute node. The main processing is done on the compute node. Compute nodes are provided as hs1.xlarge with 2 terabyte storage and as hs1.8xlarge with 16 terabyte storage. One cluster has the maximum amount of 32 hs1.xlarge and 100 hs1.8xlarge compute nodes. This results in a maximum storage capacity of 64 terabyte respectively 1.6 terabyte. All compute nodes are connected over a separate 10 gigabit/s backbone.

Comment

Despite from the competition Amazon expands its cloud services portfolio. As a result, you can sometimes get the impression that all the other IaaS providers mark time – considering the innovative power of Amazon Web Services. I can only stress here once again that Value added services are the future of infrastructure-as-a-service respectively Don’t compete against the Amazon Web Services just with Infrastructure.

If we take a look at the latest developments, we see a steadily increasing demand for solutions for processing large amounts of structured and unstructured data. Barack Obama’s campaign is just one use case, which shows how important the possession of quality information is in order to gain competitive advantages in the future. And even though many see Amazon Web Services “just” as a pure infrastructure-as-a-service provider (I don’t do that), is Amazon – more than any other (IaaS) provider – in the battle for Big Data solutions far up to play – which is not just the matter because of the knowledge from operating Amazon.com.

Amazon rüstet seine Cloud-Infrastruktur für Big Data mächtig auf. Mit der AWS Data Pipeline steht nun ein Dienst (zur Zeit in der Betaphase) zur Verfügung, mit sich Daten über verschiedene Systeme automatisch verschieben und verarbeiten lassen. Amazon Redshift stellt ein Datawarehouse in der Cloud dar, welches zehnmal schneller sein soll als bisher verfügbare Lösungen.

AWS Data Pipeline

Mit der AWS Data Pipeline sollen die stetig wachsenden Daten, welche auf verschiedenen Systemen und in unterschiedlichen Formaten vorhanden sind, einfacher zugänglich gemacht werden. Der Service lädt zum Beispiel Textdateien von Amazon EC2, verarbeitet sie und speichert diese in Amazon S3. Dreh und Angelpunkt ist dabei die AWS Management Console. Hier werden Pipelines definiert, die aus unterschiedlichen Quellen, Bedingungen, Zielen und Anweisungen bestehen. Über Zeitpläne wird festgelegt, wann welcher Job ausgeführt wird. Die AWS Data Pipeline legt fest, von welchem System welche Daten auf Basis von bestimmten Bedingungen geladen werden, unter welchen Bedingungen sie zu verarbeiten sind und wo diese am Ende gespeichert werden.

Die Verarbeitung der Daten kann entweder direkt in der Amazon Cloud auf EC2-Instanzen oder im eigenen Rechenzentrum durchgeführt werden. Dafür steht mit dem Task Runner ein Open-Source Tool bereit, dass mit der AWS Data Pipeline kommuniziert. Der Task Runner muss dafür auf den jeweiligen datenverarbeitenden Systemen gestartet sein.

Amazon Redshift

Amazons Cloud-Datawarehouse Amazon Redshift soll dabei helfen, große Datenmengen innerhalb kürzester Zeit zu analysieren. Darin lassen sich bis zu 1,6 Petabyte Daten speichern und per SQL abfragen. Zwar wird der Service, wie üblich, nach Verbrauch abgerechnet. Kunden, die allerdings einen Dreijahresvertrag unterschreiben und volle Last auf ihre virtuelle Infrastruktur bringen, zahlen ab 1.000 US-Dollar pro Terabyte pro Jahr. Amazon stellt dazu einen Vergleich mit Zahlen von IBM an. IBM berechnet für ein Datawarehouse zwischen 19.000 US-Dollar und 25.000 US-Dollar pro Terabyte pro Jahr,
Erste Beta-Tester von Amazon Redshift sind Netflix, JPL und Flipboard, deren Abfragen 10- bis 150-mal schneller waren als auf dem derzeit genutzten System.

Amazon Redshift kann als Single-Node-Cluster mit einem Server und maximal 2 TByte Speicherplatz oder als Multi-Node-Cluster, der aus mindestens zwei Compute-Nodes und einem Leader-Node besteht, genutzt werden. Der Leader-Node ist dabei für die Verwaltung der Verbindungen, das Parsen der Anfragen, das Erzeugen der Ausführungspläne und der Verwaltung der Anfragen auf den einzelnen Compute-Nodes zuständig. Die Berechnung findet auf den Compute-Nodes statt. Die Compute-Nodes stehen als hs1.xlarge mit 2 TByte Speicherkapazität und hs1.8xlarge mit 16 TByte Speicherkapazität zu Verfügung. Ein Cluster darf dabei maximal aus 32 hs1.xlarge und 100 hs1.8xlarge Compute-Nodes bestehen. Das ergibt eine maximale Speicherkapazität von 64 Terabyte beziehungsweise 1,6 Petabyte. Die Compute-Nodes sind über ein separates 10 Gigabit/s Backbone miteinander verbunden.

Kommentar

Amazon baut ungeachtet vom Mitbewerb sein Cloud Services Portfolio weiter aus. Dadurch kann man manchmal den Eindruck bekommen, dass alle anderen IaaS-Anbieter auf der Stelle treten – angesichts der Innovationskraft der Amazon Web Services. Ich kann es an dieser Stelle nur noch einmal betonen, Mehrwert-Services sind die Zukunft von Infrastructure-as-a-Service bzw. Wer als IaaS-Anbieter zu Amazon konkurrenzfähig sein will muss mehr als nur Infrastruktur im Portfolio haben.

Schauen wir uns die aktuellen Entwicklungen an, steigt der Bedarf an Lösungen für die Verarbeitung großer strukturierter und unstrukturierter Datenmengen stetig an. Barack Obamas Wahlkampf ist dafür nur ein Use Case, der zeigt, wie wichtig der Besitz qualitativ hochwertiger Informationen ist, um sich für die Zukunft Wettbewerbsvorteile zu verschaffen. Und auch wenn viele in den Amazon Web Services “nur” einen reinen Infrastructure-as-a-Services Anbieter sehen (ich tue das nicht), wird Amazon – mehr als jeder andere (IaaS)-Anbieter – im Kampf um Big Data Lösungen weit oben mitspielen – was letztendlich nicht nur an dem Wissen auf Grund des Betriebs von Amazon.com liegt.