Ich hatte schon einmal im März die Frage gestellt, ob Infrastructure-as-a-Service (IaaS) die ideale Lösung für die Herausforderungen von Big Data ist. Bereits damals bin ich zu dem Ergebnis gekommen, dass die Verarbeitung und Analyse großer Datenmengen – kurz: Big Data – ein idealer Use Case für das Cloud Computing ist. Unternehmen können die hohen Anforderungen, die Big Data erwartet, bequem durch die Nutzung von Cloud Computing Infrastrukturen begegnen ohne selbst massiv in eigene Ressourcen zu investieren.
Was ist Big Data
Als Big Data werden besonders große Datenmengen bezeichnet, die mit Hilfe von Standard-Datenbanken und Daten-Management-Tools nicht oder nur unzureichend verarbeitet werden können. Problematisch sind hierbei vor allem die Erfassung, die Speicherung, die Suche, Verteilung, Analyse und Visualisierung von großen Datenmengen. Das Volumen dieser Datenmengen geht in die Terabytes, Petabytes, Exabytes und Zettabytes.
Quelle: Wikipedia.de
Beispiele für Big Data
Für Unternehmen bietet die Analyse von Big Data die Möglichkeit zur Erlangung von Wettbewerbsvorteilen, Generierung von Einsparungspotentialen und zur Schaffung von neuen Geschäftsfeldern. Beispiele hierfür sind:
- zeitnahe Auswertung von Webstatistiken und Anpassung von Online-Werbemaßnahmen
- bessere, schnellere Marktforschung
- Entdeckung von Unregelmäßigkeiten bei Finanztransaktionen (Fraud-Detection)
- Einführung und Optimierung einer intelligenten Energieverbrauchssteuerung (Smart Metering)
- Erkennen von Interdependenzen in der medizinischen Behandlung
- Realtime-Cross- und Upselling im E-Commerce und stationären Vertrieb
- Aufbau flexibler Billingsysteme in der Telekommunikation
Quelle: Wikipedia.de
Herausforderungen von Big Data
Klassische relationale Datenbanksysteme sowie Statistik- und Visualisierungsprogramme sind oft nicht in der Lage, derart große Datenmengen zu verarbeiten. Für Big Data kommt daher eine neue Art von Software zum Einsatz, die parallel auf bis zu Hunderten oder Tausenden von Prozessoren bzw. Servern arbeitet. Hierbei gibt es folgende Herausforderungen:
- Verarbeitung vieler Datensätze
- Verarbeitung vieler Spalten innerhalb eines Datensatzes
- schneller Import großer Datenmengen
- sofortige Abfrage importierter Daten (Realtime-Processing)
- kurze Antwortzeiten auch bei komplexen Abfragen
- Möglichkeit zur Verarbeitung vieler gleichzeitiger Abfragen (Concurrent Queries)
Die Entwicklung von Software für die Verarbeitung von Big Data befindet sich noch in einer frühen Phase. Prominent ist der MapReduce-Ansatz, der in der Open-Source-Software (Apache Hadoop und MongoDb), sowie in einigen kommerziellen Produkten (Aster Data, Greenplum u. a.) zum Einsatz kommt.
Quelle: Wikipedia.de
Cloud Computing und Big Data: Der perfekte Use Case
Unsere Datenmengen steigen exponentiell. Die parallele Nutzung von Dienstleistungen wie HDTV, Radio, Video on Demand (VOD) und Security as a Service haben immer höhere Anforderungen an Netzwerk-Infrastrukturen. Die Nutzungen von Anwendungen wie Videokonferenzen und neue Kommunikationswege wie Social Media verändern sich ständig, was ebenfalls Einfluss auf die tägliche Nutzung und den Zugriff auf Daten durch Unternehmen hat. Um mit diesen wachsenden Datenmengen umzugehen, wird verstärkt auf externe Rechenzentrumsfunktionen- und kapazitäten zurückgegriffen. Welche Daten dabei wie ausgelagert werden sollten stellen die größten Herausforderungen dar.
Ein allgemeines Problem
Traditionell gehören Projekte zur Parallelverarbeitung großer Datenmengen, Data-Mining-Grids, verteilte Dateisysteme und verteilte Datenbanken zu den typischen Nutzern von Big Data. Dazu zählen die Biotech-Branche, Projekte aus der interdisziplinären wissenschaftlichen Forschung, Wettervorhersage, Regierungen und die Medizinbranche. Alle genannten Bereiche haben seit Jahren mit dem Management und der Verarbeitung großer Datenmengen zu kämpfen. Doch nun wirkt sich die Problematik auch auf weitere “normale” Branchen aus.
Im Finanzsektor führen immer neue Regulierungen zu höheren Datenmengen und Forderungen nach besseren Analysen. Darüber hinaus sammeln Web-Portale wie Google, Yahoo und Facebook täglich eine enorme Menge an Daten die zudem noch mit den Nutzern verknüpft werden, um zu verstehen, wie der Nutzer sich auf den Seiten bewegt und verhält.
Big Data wird zu einem allgemeinem Problem. Laut Gartner könnten die Unternehmensdaten in den nächsten fünf Jahren um bis zu 650% weiter wachsen. 80% davon werden unstrukturierte Daten bzw. Big Data sein, die bereits gezeigt haben, dass sie schwer zu verwalten sind.
Zudem schätzt IDC, das ein durchschnittliches Unternehmen 50-mal mehr Informationen bis zum Jahr 2020 verwalten muss, während die Anzahl der IT-Mitarbeiter nur um 1,5% steigen wird. Eine Herausforderung, auf die Unternehmen auf eine effiziente Weise reagieren müssen wenn sie wettbewerbsfähig bleiben wollen.
Wettbewerbsfähigkeit steigern
McKinsey’s Report “Big data: The next frontier for innovation, competition, and productivity”, aus dem Jahr 2011 untersucht, wie Daten zu einer wichtigen Grundlage des Wettbewerbs werden sowie ein neues Produktivitätswachstum und Innovationen schaffen.
Wenn Unternehmen heutzutage wettbewerbsfähig bleiben wollen, müssen sie sicherzustellen, dass sie über die entsprechende IT-Infrastruktur verfügen, um mit den heutigen Daten-Anforderungen umzugehen. IaaS bietet damit ein solides Konzept und Fundament, um damit erfolgreich zu bleiben.
Big Data Verarbeitung in der Cloud
Kosteneinsparungen für die interne IT-Infrastruktur, wie Server und Netzwerkkapazitäten, Freisetzen von dadurch nicht mehr benötigtem technischem Personal, um sich somit effizienter auf das Kerngeschäft zu konzentrieren und die Flexibilität neue Lösungen, auf Grund der sich ständig veränderten Datenmengen, besser zu skalieren sind die ersten Schritte um den Anforderungen von Big Data gerecht zu werden.
Cloud Computing Anbieter sind in der Lage auf Basis von Investitionen in ihre Infrastruktur, Big Data taugliche und freundliche Umgebungen zu entwickeln und diese zu warten, wohingegen ein einzelnes Unternehmen dafür nicht die geeigneten Ressourcen für die Skalierbarkeit bereitstellen kann und ebenfalls nicht über die notwendige Expertise verfügt.
Cloud Ressourcen wachsen mit Big Data
Cloud Computing Infrastrukturen sind darauf ausgelegt, dass sie mit den jeweiligen Anforderungen und Bedürfnissen mitwachsen oder sich reduzieren lassen. Unternehmen können die hohen Anforderungen – wie Hohe Rechenleistung, viel Speicherplatz, hohes I/O, performante Datenbanken usw. – die von Big Data erwartet werden, bequem durch die Nutzung von Cloud Computing Infrastrukturen begegnen ohne selbst massiv in eigene Ressourcen zu investieren.