In meinem Gastbeitrag bei den Automatisierungs-Experten von arago bin ich vor zwei Wochen auf das Thema Big Data eingegangen und das Unternehmen aus dem US-Wahlkampf 2012 von Barack Obama lernen sollten, wie sie Echtzeit-Informationen in einen Vorsprung umwandeln. Neben Cloud Computing, Mobile und Social Media gehört Big Data zu den aktuellen Top-Themen im IT-Unternehmensumfeld. Dabei handelt es sich bei weitem nicht mehr nur um einen Trend sondern um die Realität. Und das mit einem weitreichenden Einfluss auf Unternehmen, ihre strategische Ausrichtung und der IT. Bekannte Technologien und Methoden haben mit der Analyse von Big Data ihre Grenzen erreicht und nur das Unternehmen, welches es schafft, aus den Datensilos einen Informationsvorsprung zu erzielen, wird dem Wettbewerb in Zukunft einen Schritt voraus sein.
Big Data: Kein Alter Wein in Schläuchen
Grundsätzlich ist die Idee hinter Big Data nichts Neues. Von Anfang bis Mitte der 1990er Jahre ging es bereits unter dem Begriff „Business Intelligence“ darum, anhand von Verfahren eine systematische Analysen von Daten vorzunehmen. Die Ergebnisse werden dazu verwendet, um neue Erkenntnisse zu gewinnen, die dabei helfen, die Ziele eines Unternehmens besser zu erreichen und strategische Entscheidungen zu treffen. Allerdings war die Datenbasis, die es zu analysieren galt, deutlich kleiner als heute und lies nur Analysen auf Daten aus der Vergangenheit zu, was zu unsicheren Prognosen für die Zukunft führte. Heute sammeln sämtliche Alltagsgegenstände jede Sekunde massive Datenmengen an Informationen. Dazu gehören Smartphones, Tablets, Autos, Stromzähler oder auch Kameras. Hinzu kommen Bereiche, die sich nicht in der unmittelbaren Umgebung eines Menschen befinden, wie vollautomatisierte Produktionslinien, Distributionslager, Messinstrumente, Flugzeuge und anderen Fortbewegungsmitteln. Und natürlich sind es wir Menschen, die Big Data mit unseren Verhalten im Internet nähren. Tweets auf Twitter, Kommentare auf Facebook, Suchanfragen mit Google, Stöbern mit Amazon und sogar die Vitalwerte während einer Jogging-Session liefern modernen Unternehmen heute unmengen an Daten, aus denen sich wiederum wertvolle Informationen gewinnen lassen.
Strukturierte und unstrukturierte Daten
Große Datensätze sind keine neue Erscheinung. Bereits seit Jahrzenten sammeln Handelsketten, Ölfirmen, Versicherungen oder Banken massiv Informationen über Warenbestände, Bohrdaten und Transaktionen. Weiterhin gehören Projekte zur Parallelverarbeitung großer Datenmengen, Data-Mining-Grids, verteilte Dateisysteme und verteilte Datenbanken zu den typischen Bereichen von dem, was heute als Big Data bezeichnet wird. Dazu zählen die Biotech-Branche, Projekte aus der interdisziplinären wissenschaftlichen Forschung, die Wettervorhersage und die Medizinbranche. Alle genannten Bereiche und Branchen haben mit dem Management und der Verarbeitung großer Datenmengen zu kämpfen.
Doch nun wirkt sich die Problematik auch auf die “normalen” Branchen aus. Die heutigen Herausforderungen bestehen darin, dass Daten aus vielen unterschiedlichen Quellen stammen und zum Teil schnell, unverhersagbar und damit unstrukturiert aufkommen. Big Data soll daher insbesondere an den Stellen helfen, wo viele unterschiedliche Datenquellen miteinander kombiniert werden. Beispiele sind Tweets auf Twitter, das Surfverhalten oder Informationen über Abverkäufe, um auf dieser Basis neue Produkte und Dienstleistungen zu entwickeln. Im Finanzsektor führen immer neue Regulierungen zu höheren Datenmengen und Forderungen nach besseren Analysen. Darüber hinaus sammeln Web-Portale wie Google, Yahoo und Facebook täglich eine enorme Menge an Daten die zudem noch mit den Nutzern verknüpft werden, um zu verstehen, wie der Nutzer sich auf den Seiten bewegt und verhält. Big Data wird zu einem allgemeinem Problem. Laut Gartner könnten die Unternehmensdaten in den nächsten fünf Jahren um bis zu 650% weiter wachsen. 80% davon werden unstrukturierte Daten beziehungsweise Big Data sein, die bereits gezeigt haben, dass sie schwer zu verwalten sind. Zudem schätzt IDC, das ein durchschnittliches Unternehmen 50-mal mehr Informationen bis zum Jahr 2020 verwalten muss, während die Anzahl der IT-Mitarbeiter nur um 1,5% steigen wird. Eine Herausforderung, auf die Unternehmen auf eine effiziente Weise reagieren müssen wenn sie wettbewerbsfähig bleiben wollen.
Warum Unternehmen sich für Big Data entscheiden
Doch wo kommen diese riesigen Datenmengen tatsächlich her und welche Motivation haben Unternehmen, sich mit der Thematik zu beschäftigen. Die Marktforscher der Experton Group haben versucht, die Fragen in Ihrer “Big Data 2012 – 2015” Client-Studie im Oktober 2012 zu klären. Demnach ist der wichtigste Treiber für den Einsatz von Big Data Technologien und Konzepten das rasante Datenwachstum inklusive dem dazugehörigen Qualitätsmanagement und der Automatisierung der Analysen und Reports. Die Themen Kundenbindung und Marketing nehmen circa ein Drittel der Unternehmen zum Anlass, um die Anaysen ihrer Datenbestände zu erneuern. Neue Datenbanktechnologien nennen 27 Prozent der Befragten Unternehmen als Motivation für neue Verfahren zur Datenalyse. Weiterhin zählen nahezu alle Eigenschaften von Big Data zu den Gründen für die Erweiterung des strategischen Datenmanagements. Das zeigt, dass Big Data bereits Realität ist, auch wenn es in vielen Fällen nicht unter diesem Begriff bekannt ist. Die Big Data Treiber selbst sind über alle Branchen und Unternehmensgrößen hinweg gleich. Der einzige Unterschied besteht in der Bedeutung und Intensität. Ein großer Unterschied bei der Unternehmensgröße besteht in der Verteilung der Daten und Informationen an die richtigen Mitarbeiter im Unternehmen. Hier sehen große Unternehmen ihre größten Herausforderungen. Wohingegen kleinere Unternehmen das Thema als sehr unkritisch einstufen.
Big Data: Ein Anwendungsfall für die Cloud
Die Öl-und Gasindustrie hat die Verarbeitung großer Datenmengen durch den Einsatz von traditionellen Storage-Lösungen (SAN und NAS) gelöst. Forschungsorientierte Organisationen oder Unternehmen wie Google, die mit der Analyse von Massendaten zu tun haben, neigen eher dazu den Grid Ansatz zu verfolgen, um die nicht benötigten Ressourcen in die Software-Entwicklung zu investieren.
Big Data Verarbeitung gehört in die Cloud
Cloud Infrastrukturen helfen bei der Kostenreduzierung für die IT-Infrastruktur. Dadurch werden Unternehmen in die Lage versetzt, sich effizienter auf ihr Kerngeschäft zu konzentrieren und erhalten mehr Flexibilität und Agilität für den Einsatz neuer Lösungen. Damit wird ein Grundstein gelegt, sich auf die ständig verändernden Datenmengen einzustellen und für die notwendige Skalierbarkeit zu sorgen. Cloud Computing Anbieter sind in der Lage auf Basis von Investitionen in ihre Infrastruktur, Big Data taugliche und freundliche Umgebungen zu entwickeln und diese zu warten, wohingegen ein einzelnes Unternehmen dafür nicht die geeigneten Ressourcen für die Skalierbarkeit bereitstellen kann und ebenfalls nicht über die notwendige Expertise verfügt.
Cloud Ressourcen wachsen mit der Datenmenge
Cloud Computing Infrastrukturen sind darauf ausgelegt, dass sie mit den jeweiligen Anforderungen und Bedürfnissen mitwachsen oder sich reduzieren lassen. Unternehmen können die hohen Anforderungen – wie Hohe Rechenleistung, viel Speicherplatz, hohes I/O, performante Datenbanken usw. – die von Big Data erwartet werden, bequem durch die Nutzung von Cloud Computing Infrastrukturen begegnen ohne selbst massiv in eigene Ressourcen zu investieren.
Cloud Konzepte wie Infrastructure-as-a-Service (IaaS), vereinen beide Welten und nehmen dadurch eine einzigartige Position ein. Für diejenigen, die das SAN/NAS Konzept verstehen, werden die Ressourcen ebenfalls nutzen können, um massiv-parallele Systeme zu entwerfen. Für Unternehmen denen es schwer fällt sich mit den genannten Technologien auseinanderzusetzen oder diese zu verstehen, bieten IaaS Anbieter entsprechende Lösungen, um die Komplexität der Speichertechnologien zu umgehen und sich auf die Herausforderungen des Unternehmens zu konzentrieren.
Eine passable Lösung kommt von Cloud Computing Pionier Amazon Web Services. Mit der AWS Data Pipeline steht bei Amazon ein Service (noch in der Betaphase) bereit, mit dem sich Daten automatisch zwischen verschiedenen Systemen verschieben und verarbeiten lassen. Die Systeme können sich dazu entweder direkt in der Amazon Cloud oder auf einem anderen System außerhalb befinden. Amazon macht damit die Handhabung der wachsenden Datenmengen auf verteilten System mit unterschiedlichen Formaten einfacher. Dazu lassen sich beliebig viele Pipelines erstellen, in denen die unterschiedlichen Datenquellen, Bedingungen, Ziele, Anweisungen und Zeitpläne definiert sind. Kurzum geht es darum, welche Daten von welchem System auf Basis welcher Bedingungen geladen, verarbeitet und die Ergebnisse anschließend wieder gespeichert werden. Die Pipelines selbst werden je nach Bedarf stündlich, täglich oder wöchentlich gestartet. Die Verarbeitung kann entweder direkt in der Amazon Cloud oder auf den Systemen im unternehmenseigenen Rechenezentrum stattfinden.
Big Data = Big Opportunities?
Nicht nur das Obama Beispiel zeigt, wie gewinnbringend die Verknüpfung von strukturierten und unstrukturierten Daten aus mobilen Endgeräten, Social Media Kanälen, der Cloud und vielen weiteren unterschiedlichen Quellen für ein Unternehmen sein kann. Allerdings muss man sich bei Big Data über eines im Klaren sein. Es geht letztendlich nicht um die Masse der Daten die gesammelt wird, sondern um deren Qualität und wofür die Daten letztendlich überhaupt genutzt werden sollen.
Entscheidend ist daher, ob und wie ein Unternehmen es schafft, aus den Massen an Daten, die durch menschliche und maschinelle Interaktionen entstehen, die qualitativ hochwertigsten Informationen zu analysieren und sich damit eine führende Position am Markt sichert. Qualifizierte Daten sind das neue Öl und werden in den Unternehmen, die den eigenen Vorteil darin erkennen, für den gewinnbringenden Antrieb sorgen.