Categories
News

Dropbox verdoppelt die Speicherkapzität seines Cloud Storage für Pro Accounts

Cloud Storage Anbieter Dropbox hat – per sofort – die Kapazität für seine Pro Accounts kostenlos erhöht. Somit wurde der Speicherplatz für zahlende Nutzer nun von 50GB auf 100GB sowie von 100GB auf 200GB erhöht. Zusätzlich wurde ein neuer Tarif mit 500GB angekündigt.

Dropbox verdoppelt die Speicherkapzität seines Cloud Storage für Pro Accounts

Dropbox reagiert auf den Markt

Mit Google Drive und Microsoft SkyDrive tummel sich mittlerweile ernst zunehmende Mitbewerber auf dem Markt der Cloud Storage Services – vor allem in Bezug auf den Preis. Mit der Verdoppelung der Speicherkapazität reagiert Dropbox erstmalig auf die Angebote der anderen Anbieter.

Die Preise bleiben stabil

Trotz der Verdoppelung des Speicherplatzes für Pro Account Nutzer bleiben die Preise stabil. 100GB kosten im Monat nun 9,99 US-Dollar. Für 200GB zahlt man 19,99 US-Dollar. Der monatliche Preis für die 500GB wurde bisher noch nicht genannt.

Categories
News

Cloud Computing und Collaboration treibt Big Data in die deutschen Unternehmen

Die Menge der Daten, die in deutschen Unternehmen verarbeitet werden, steigt explosionsartig an. Im Schnitt erwarten IT-Entscheider einen Zuwachs von mehr als 40 Prozent in den kommenden zwei Jahren, wie eine aktuelle Studie im Auftrag von BT Germany ergeben hat. Die IT-Verantwortlichen haben die strategische Relevanz von “Big Data” erkannt und erwarten erhebliche Auswirkungen auf die Unternehmens-IT. Vor allem bei Bandbreitenkapazität, Server- und Storage-Infrastrukturen besteht noch erheblicher Handlungsbedarf.

Cloud Computing und Collaboration treibt Big Data in die Unternehmen

Big Data ist kein Buzz Word mehr

Die Ergebnisse der Studie “Datenexplosion in der Unternehmens-IT” zeigen: “Big Data” ist längst mehr als ein reiner Trendbegriff. So geht ein Viertel der befragten Entscheider sogar davon aus, dass das Datenvolumen in ihrem Unternehmen bis Ende 2014 um mehr als 60 Prozent ansteigen wird, im Durchschnitt aller Befragten wird immerhin ein Wachstum um 42 Prozent erwartet. Für die strategische Relevanz des Themas spricht, dass sich knapp über die Hälfte der Unternehmen bereits mit dem Thema “Big Data” beschäftigt hat. Ein weiteres Viertel der Befragten plant, sich künftig mit dem Thema zu befassen. Konkret haben jedoch lediglich acht Prozent der Unternehmen entsprechende Lösungen schon in ihre Prozesse integriert.

Wie schnell wachsen die Daten?

Die Entscheider treibt vor allem die Frage um, mit welcher Geschwindigkeit sich das Datenwachstum vollzieht und wie sich darauf reagieren lässt. Dabei zeigt sich: Das Datenwachstum hat aus Sicht der Befragten vor allem immense Auswirkungen auf die unternehmenseigene Infrastruktur.

So erwarten drei Viertel der Entscheider (76 Prozent) erhebliche Auswirkungen im Bereich der Storage-Systeme durch das Big-Data-Phänomen. Zwei Drittel (64 Prozent) sehen einen großen Handlungsbedarf bei der Server- und Netzwerkinfrastruktur sowie der Bandbreitenkapazität auf sich zukommen, während nur rund die Hälfte (55 Prozent) große Auswirkungen bei den Analyse- und Reporting-Systemen vorhersieht.

Als zentrale Treiber für das globale Datenwachstum sehen die Befragten vor allem die mobile Internetnutzung (59 Prozent), Cloud Computing (53 Prozent) sowie die internetbasierte Kommunikation via VoIP, Video, Chat und Unified Communications (47 Prozent) an. Auch die Nutzung von Social Media (44 Prozent) gilt als wesentlicher Faktor, sorgt sie doch für eine virale Verbreitung von Inhalten über eine Vielzahl von Plattformen. Die Digitalisierung von Geschäftsmodellen (34 Prozent), z.B. in Form von eCommerce und Online-Werbung, trägt nach Ansicht der IT-Verantwortlichen ebenfalls maßgeblich zur wachsenden Datenmenge bei.

Cloud Computing ist Treiber für Big Data

Innerhalb der Unternehmen ist Cloud Computing der wichtigste Treiber für das Datenwachstum – 42 Prozent der Befragten gaben dies als Grund an, gefolgt von Collaboration (34 Prozent) und der Digitalisierung von Geschäftsmodellen (32 Prozent). Die Nutzung von Social Media und Video Streaming spielt innerhalb der Unternehmen nur eine untergeordnete Rolle (12 bzw. 9 Prozent).

Die Unternehmen haben wiederum große Erwartungen an Big Data: Wenn sich der immer größere Datenbestand in Zukunft systematisch verarbeiten und auswerten lässt, erhoffen sie sich positive Auswirkungen auf ihr Geschäft.

Unternehmen mit mehr als 1.000 Mitarbeitern erwarten dabei vor allem eine bessere Aussteuerung von Vertriebs- und Marketingkampagnen (41 Prozent) und geringere Kosten durch optimierte Logistikprozesse (41 Prozent). Bei den Unternehmen mit 500 bis 1.000 Mitarbeitern geht es den Verantwortlichen vor allem um bessere Informationen über das Informations- und Konsumverhalten ihrer Kunden (46 Prozent) und um eine bessere Einschätzung von Marktpotenzialen und Business Cases (38 Prozent).

Categories
News

Pano Logic schiebt VDI in die Cloud – Zugriff über den Google Chrome Browser

Pano Logic, Hersteller virtualisierungsbasierender Soft- und Hardwarelösungen (VDI), präsentiert mit „Pano System for Cloud“ eine Desktop-Computing-Plattform, mit der Unternehmen auf ihre Anwendungen vollständig webbasiert über den Google-Browser Chrome zugreifen können. Der Einsatz eines Hypervisor oder eines lokalen Betriebssystem und Prozessor am Arbeitsplatz sind dafür nicht erforderlich.

Pano Logic schiebt VDI in die Cloud

End-to-End Hard- und Softwarelösung für VDI

Bei „Pano System for Cloud“ handelt es sich um eine Erweiterung der Kerntechnologie von Pano Logics VDI-Ansatz. Dieser stellt eine komplette End-to-End Hard- und Softwarelösung für VDI dar, die mit den drei führenden Hypervisor (vSphere, XenServer und Hyper-V) sowie deren Management-Systemen (VMware View, XenDesktop und Microsoft SCVMM) zusammenarbeiten. Für eine klassische VDI-Infrastruktur wird auf dem Server stets ein Hypervisor benötigt, der die virtuellen Maschinen des kompletten Windows-Desktops verwaltet. „Pano System for Cloud“ startet keine Windows-Session mehr, sondern lediglich einen Google Chrome. Per Browser kann der Nutzer dann auf Google Apps, Microsoft Office 365 und sämtliche als SaaS verfügbaren Anwendungen zugreifen.

Vollständiger Zugriff über den Webbrowser

Für Unternehmen, die bereits vollständig webbasiert per Browserzugriff arbeiten, sollen sich durch die Cloud-Lösung von Pano Logic nochmals deutliche Kostenvorteile ergeben, da auf dem Server nur noch der Pano Logic Controller installiert werden muss. Dabei handelt es sich um eine eine virtuelle Appliance, die bis zu 200 Google Chrome Arbeitsplätze vermitteln kann. Die Serverlizenz für den Pano Controller kostet rund 1.000,00 EUR. Für den Arbeitsplatz selbst bietet Pano Logic mit dem Zero Client G2M eine günstige Variante zum Preis von unter 200,00 EUR. Alternativ zur Pano Box kann auch ein umfunktionierter PC mit Pano Virtual Client Software oder ein Fujitsu Zero Client Monitor eingesetzt werden.

Categories
News

Rackspace nimmt Windows Server 2012 in sein Cloud Portfolio auf

Cloud Anbieter Rackspace wird den kommenden Microsoft Windows Server 2012 sowohl auf seinen klassischen als auch den Cloud Lösungen unterstützen, das kündigt das Unternehmen auf der Microsoft World Partner Conference in Toronto an. Während andere Cloud Anbieter wie die Amazon Web Services das Server Betriebssystem sehr wahrscheinlich ebenfalls unterstützen werden, will sich Rackspace mit einem deutlich höheren Service- und Support-Level abheben.

Rackspace nimmt Windows Server 2012 in sein Cloud Portfolio auf

Rackspace: AWS bietet nur “self-managed”

Während die Amazon Web Services nur einen “self-managed” Level bieten, möchte Rackspace hier tiefer einsteigen und seine Kunden mit deutlich höheren Service- und Supportleistungen umwerben. Dazu hat sich Rackspace bereits intensiv mit den neuen Funktionen und Möglichkeiten des Windows Server 2012 auseinandergesetzt, um diese selbst hochgesteckten Anforderungen für seine Kunden zu erfüllen.

Auch Sharepoint wird unterstützt

Um ebenfalls Microsoft SharePoint Support für seine Kunden bieten zu können, hatte Rackspace im Februar 2012 den Sharepoint Spezialisten SharePoint911 aufgekauft, die laut Rackspace über die besten SharePoint Experten weltweit verfügen.

Windows Server 2012 wird Basis von Rackspace Cloud Sites

Ganz nach dem Motto “Eat your own dog food” wird Rackspace neben dem Support-Angebot den Windows Server 2012 ebenfalls künftig als Basis für seine Rackspace Cloud Sites Plattform einsetzen, auf welcher nach eigenen Angaben bereits tausende von Webseiten gehosted werden.

Categories
Management @de

Netflix: Der Chaos Monkey und die Simian Army – Das Vorbild für eine gute Cloud Systemarchitektur

Die letzten Ausfälle bei den Amazon Web Services (AWS) hier und hier haben gezeigt, dass bei manchen Kunden wie bspw. Instagram, die Systemarchitektur nicht auf das Cloud Computing ausgelegt ist. Und auch wenn AWS so etwas nicht (mehr) passieren darf, sollte man selbst darauf achtgeben, präventiv auf den möglichen Ernstfall vorbereitet zu sein. Eine Möglichkeit ist der von Netflix entwickelte Chaos Monkey und weitere Tools, die ich in diesem Artikel vorstellen möchte.

Üben, Lernen, Testen

Bevor sich Netflix für den Einsatz seines Systems auf den Amazon Web Services entschieden hat (Migration von einer eigenen Infrastruktur), verbrachte das Unternehmen viel Zeit damit, um die AWS Plattform zu verstehen und ein Test-System innerhalb der Infrastruktur aufzubauen. Dabei wurde insbesondere darauf geachtet, soviel realistischen Traffic bzw. Traffic Szenarien wie möglich zu erzeugen, um damit das Test-System auf seine Stabilität hin zu prüfen.

Anfangs entwickelte Netflix dazu einen einfachen Repeater, der die echten und vollständigen Kundenanfragen auf das System innerhalb der AWS Infrastruktur kopierte. Damit identifizierte Netflix die möglichen Engpässe seiner Systemarchitektur und optimierte im Zuge dessen die Skalierbarkeit.

Netflix Rambo Architektur

Netflix selbst bezeichnet seine Software Architektur gerne auch als Rambo Architektur. Das hat den Hintergrund, dass jedes System unabhängig von den anderen Systemen einwandfrei funktionieren muss. Dazu wurde jedes System innerhalb der verteilten Architektur so entwickelt, dass es darauf vorbereitet ist, dass andere Systeme zu denen eine Abhängigkeit besteht, ausfallen können und das dieses toleriert wird.

Sollte das Bewertungssystem ausfallen, verschlechtert sich zwar die Qualität der Antworten, aber es wird dennoch eine Antwort geben. Statt personalisierten Angeboten werden dann nur bekannte Titel angezeigt. Sollte das System, dass für die Suchfunktion zuständig ist, unerträglich langsam sein, muss das Streaming der Filme trotzdem einwandfrei funktionieren.

Der Chaos Monkey

Eines der ersten Systeme die Netflix auf bzw. für AWS entwickelt hat, nennt sich Chaos Monkey. Sein Job ist es zufällig Instanzen und Services innerhalb der Architektur zu zerstören. Damit stellt Netflix sicher, dass alle Komponenten unabhängig voneinander funktionieren, selbst dann wenn Teil-Komponenten ein Problem haben.

Neben dem Chaos Monkey hat Netflix viele weitere Monitoring und Test-Tools für den Betrieb seines Systems auf den Amazon Web Services entwickelt, die das Unternehmen als The Netflix Simian Army bezeichnet.

Latency Monkey

Der Latency Monkey induziert künstliche Verzögerungen im Netflix eigenem REST-Client-Server Communication-Layer, um einen Leistungsabfall zu simulieren und rechtzeitig Maßnahmen zu ergreifen bzw. im Vorwege angemessen zu reagieren. Indem sehr große Verzögerungen erzeugt werden, kann damit zudem der Ausfall eines Nodes oder eines vollständigen Service simuliert werden, ohne diese Instanzen tatsächlich zu zerstören. Damit wird die Fehlertoleranz eines neuen Service überprüft, indem der Ausfall seiner Abhängigkeiten simuliert wird. Der Ausfall dieser Abhängigkeiten wirkt sich dabei jedoch nicht auf den Rest des Systems aus.

Conformity Monkey

Der Conformity Monkey findet Instanzen, die nicht den Best-Practices Anforderungen entsprechen und fährt diese herunter. Wenn z.B. Instanzen gefunden werden, die nicht zu einer Auto-Scaling Group gehören, weiß der Conformity Monkey, dass dieses zu Problemen führen wird. Diese werden also heruntergefahren, um dem Service-Owner die Gelegenheit zu geben, neue Instanzen mit den erwarteten Eigenschaften hochzufahren.

Doctor Monkey

Der Doctor Monkey überprüft die Health Checks, die sich auf jeder Instanz befinden und überwacht zudem weitere Eigenschaften, wie bspw. die CPU-Auslastung, um mögliche Fehlerquellen innerhalb der Instanzen selbst zu erkennen. Werden fehlerbehaftete Instanzen entdeckt, werden diese zunächst automatisch vom Service entfernt. Anschließend erhält der Service-Owner die Gelegenheit die Ursache für den Fehler zu finden und beendet diese Möglicherweise um stattdessen neue Instanzen zu starten.

Janitor Monkey

Der Janitor Monkey sorgt dafür, dass die Netflix Cloud Umgebung effizient betrieben wird und sich kein Müll oder überschüssige Instanzen anhäufen. Dazu sucht er nach ungenutzten Ressourcen und sorgt dafür, dass diese verschwinden.

Security Monkey

Der Security Monkey ist eine Erweiterung des Conformity Monkey. Er findet Sicherheitslücken oder Schwachstellen wie falsch konfigurierte AWS Security Groups und beendet die beanstandeten Instanzen. Er stellt zudem sicher, dass alle SSL-und DRM-Zertifikate gültig sind.

10-18 Monkey

Der 10-18 Monkey (steht auch für Lokalisierung-Internationalisierung bzw. l10n-i18n) erkennt Konfigurations- und Laufzeit Probleme innerhalb von Instanzen, die Kunden in verschiedenen geografischen Regionen, mit unterschiedlichen Sprachen und Zeichensätze bedienen.

Chaos Gorilla

Der Chaos Gorilla ist vergleichbar mit dem Chaos Monkey, simuliert allerdings einen vollständigen Ausfall einer Amazon Availability Zone. Damit wird sichergestellt, dass die Funktionalität des Systems automatisch in andere Availability Zones verschoben wird, ohne das ein manueller Eingriff von Netflix erforderlich ist und das der Nutzer davon etwas bemerkt.

Fazit

Die Simian Army von Netflix ist ein Extrembeispiel wie eine Cloud Architektur auszusehen hat. Das Unternehmen hat viel Zeit, Anstrengungen und Kapital in die Entwicklung seiner Systemarchitektur investiert, die auf der Cloud Infrastruktur der Amazon Web Services läuft. Aber es lohnt sich und jedes Unternehmen, das die Cloud ernsthaft nutzen möchte und ein hochverfügbares Angebot präsentieren will, sollte sich Netflix unbedingt zum Vorbild nehmen.

Categories
News

Fairfax setzt auf Google Apps – BYOD ein Treiber für die Entscheidung

Das australische Medienunternehmen Fairfax Media wechselt zu Google Apps for Business, um auf Basis der Cloud-basierten Office Suite, die interne Kommunikation zu verbessern und neue Trends wie bspw. Bring-your-own-device (BYOD) zu unterstützen und seinen Mitarbeitern einen flexibleren Arbeitsplatz zu ermöglichen.

Fairfax setzt auf Google Apps - BYOD ein Treiber für die Entscheidung

Microsoft Office wird nicht abgelöst – Kommunikation hat Priorität

In der Vergangenheit hat sich Fairfax für die interne Kommunikation auf die Nutzung von Telefonen, E-Mails, Tabellenkalkulationen- und Textverarbeitungssoftware verlassen. Das Medienunternehmen wird in Zukunft auf Googles Office und Collaboration Suite Google Apps for Business setzen, aber das bisher eingesetzte Microsoft Office nicht ersetzen – zumindest für die Mitarbeiter, die darauf angewiesen sind.

Fairfax will damit die Kommunikation seiner Mitarbeiter verbessern, indem das Unternehmen moderne Technologien wie Instant Messaging, einen einfacheren Dokumentenaustausch sowie Desktop Video-Konferenzen in Echtzeit nutzt.

Consumerization of IT und BYOD sind Trendsetter

Insbesondere auf Grund von neuen Trends wie Consumerization of IT und BYOD möchte Fairfax seine Technologie Strategie ändern und den neuen Begebenheiten anpassen. Somit ist eine Cloud-basierte Lösung, mit der von überall und mit quasi jedem Endgerät auf die Daten und Anwendungen zugegriffen werden kann unumgänglich.

10.000 Mitarbeiter gehen in die Google Cloud

Fairfax rechnet damit, dass jeder Mitarbeiter – ca. 10.000 – Google Apps nutzen wird. Allerdings muss das noch eindeutig bestimmt werden. Auf jedenfall sollen alle Mitarbeiter bis November 2012 in der Lage sein Google Apps nutzen zu können.

Categories
News

Big Data: MapR integriert seine Hadoop Distribution mit der Google Compute Engine

MapR Technologies, Softwareanbieter für die Analyse großer Datenmengen, wird in Zukunft seine eigene Apache Hadoop Distribution für Googles Infrastructure-as-a-Service Google Compute Engine bereitstellen. MapR für die Google Compute Engine wird zunächst kostenlos als Private Beta für eine ausgewählte Anzahl von Benutzern zur Verfügung stehen. Wer Interesse an der Big Data Analyse hat, kann sich hier dafür bewerben.

Big Data: MapR integriert seine Hadoop Distribution mit der Google Compute Engine

Big Data Analyse auf der Google Compute Engine

Mit der Kombination von Googles neuen IaaS und MapRs Hadoop sind Nutzer damit in der Lage große Implementierungen von MapR Cluster on-Demand bereitzustellen und sich damit ein Cloud-basiertes System für die Analyse großer Datenmengen aufzubauen. Google hatte MapReduce ursprünglich für sein interes Such-Framework entwickelt.

Ein Meilenstein für die Big Data Analyse

Während der Google I/O demonstrierte MapR bereits, zu was seine Hadoop Implementierung in der Lage ist. Ein 1TB TeraSort Job wurde innerhalb von 1 Minute und 20 Sekunden verarbeitet. Dabei nutzte MapR einen Google Compute Engine Cluster bestehend aus 1.256 Nodes, 1.256 Platten und 5.024 Cores für gerade einmal 16 US-Dollar.

Zum Vergleich: Der aktuelle Weltrekord für den TeraSort liegt bei 1 Minute und 2 Sekunden. Dazu wurde ein physikalischer Cluster mit mehr als vier Mal so vielen Festplatten, doppelt so vielen Cores und weitere 200 Server benötigt. Kosten: Mehr als 5.000.000 US-Dollar.

Integration

Für die Integration von MapR mit der Google Compute Engine stehen mehrere Standard MapR Konfigurationen zur Verfügung. Nutzer können die Google Compute Engine je nach Bedarf nutzen und können, wenn nötig, mehr als 1.000 Node Cluster starten.

Categories
News

Moodle Plugin ermöglicht Zugriff auf Dokumente in Microsoft SkyDrive

Microsoft erweitert stetig die Integration seiner Anwendungen mit seinem Cloud Storage Service SkyDrive. Allerdings wurden vor längerer Zeit die SkyDrive APIs geöffnet, was Entwickler dazu motivieren sollte SkyDrive für sich zu entdecken. Moodle ist das jüngste Projekt, was auf diesen Zug aufgesprungen ist. Seit der Version Moodle 2.3 können Nutzer nun direkt auf Dokumente in Microsoft SkyDrive zugreifen.

Moodle Plugin ermöglicht Zugriff auf Dokumente in Microsoft SkyDrive

Moodle und SkyDrive

Bei Moodle handelt es sich um ein Open Source Kursmanagementsystem sowie eine Lernplattform und wird bevorzugt von Bildungseinrichtungen eingesetzt. Moodlestellt online „Kursräume“ zur Verfügung. In diesen werden Arbeitsmaterialien und Lernaktivitäten bereitgestellt. Jeder Kurs kann so konfiguriert werden, dass nur angemeldete Teilnehmer diesen besuchen können, Gäste zugelassen sind oder zur Teilnahme ein Passwort erforderlich ist.

Das Plugin für die Integration von Moodle mit SkyDrive wurde vom Moodle Entwickler Dan Poltawski veröffentlicht und ermöglicht den Zugriff von Moodle auf Dokumente die in Microsoft SkyDrive abgelegt wurden. Voraussetzung dafür ist die Moodle Version 2.3.

Moodle und Cloud Storage Services

Moodle 2 unterstützt die Verbindung zu vielen Datei Repositories und Cloud Storage Services, darunter Dropbox, Box.net, Google Docs. Mit dem neuen Plugin kann nun auch auf die Daten aus dem eigenen Microsoft SkyDrive Account zugegriffen werden.

Das Plugin wurde ursprünglich von dem Telekommunikationsanbieter LUNS als Client für die Universidad Teconológica de Chile (INACAP) entwickelt und als Open Source veröffentlicht. Dan Poltawski führte die Entwicklung des Plugins fort und stellte es für Moodle 2.3 bereit.

Categories
News

Collide: Google präsentiert Collaborative Cloud IDE

Google präsentiert unter dem Namen “Collide” eine neue Cloud basierte Collaborative IDE, mit der gemeinsam, verteilt und ortsunabhängig an Java Quellcode entwickelt werden kann. Das schreibt (noch) Google Software Engineer Scott Blum auf seinem Google+ Account.

Collide: Google präsentiert Collaborative Cloud IDE

Hintergrund

Scott kündigt in dem Beitrag seinen Abschied von Google an, da Google die Entwicklungsabteilung in Atlanta auflöst. Eines der Projekte an dem Scott beteiligt war, wurde parallel mit der Schließung des Google Büros in Atlanta ebenfalls beendet. Allerdings werden Teile von diesem Projekt nun in ein neues Open Source Projekt überführt.

Das Projekt hat den Namen “Collide” (collaborative IDE). Dabei handelt es sich um ein Web-basierter Code-Editor, mit dem gemeinsam an Software-Projekten gearbeitet werden kann und richtet sich an Java Entwickler.

Voraussetzungen

  • Java 7
  • Ant 1.8.4+
  • Alle weiteren Abhängigkeiten sind im Projekt hinterlegt

Screencast

Peter Cooper von CooperPress hat dazu bereits einen kurzen Screencast veröffentlicht, der zeigt, wie man collide konfiguriert und die ersten Schritte macht.

httpv://www.youtube.com/watch?v=8Gq12bLbm54

Categories
Analysen

Der Amazon Web Services (AWS) Ausfall: Letzte Chance – So etwas darf nicht noch einmal passieren!

Nach dem letzten Ausfall der Amazon Web Services (AWS) am 29.06/30.06 habe ich – zurecht – die schlechte Systemarchitektur von Instagram kritisiert. Man sollte niemals alle seine Eier in ein Nest legen. Allerdings habe ich mir noch einmal in Ruhe die Fehler innerhalb der Amazon Cloud während des Ausfalls angeschaut. Amazon muss unbedingt seine Hausaufgaben erledigen, es geht hier schließlich um knallhartes Business und die Kunden zählen auf die Verfügbarkeit der Cloud Infastruktur.

Der Geduldsfaden wird immer dünner

Eines ist klar und das predige ich in jeder Situation. Amazon bzw. jeder IaaS Anbieter stellt “nur” die nötigen Infrastrukturressourcen in Form von virtuellen Instanzen inkl. Konfigurationstools bereit, um damit sein eigenes virtuelles Rechenzentrum aufzubauen. Die Verfügbarkeit des auf der Cloud betriebenen Systems muss selbst sichergestellt werden. Aber wie, wenn das “Werkzeug” dafür nicht funktioniert?

David Linthicum schreibt, dass er in der Nähe der Cloud Rechenzentren an der Ost Küste der USA wohnt. Und er bestätigt, dass die Gewitter wirklich sehr stark gewesen sind und die Stromversorgung und das Mobilfunknetz flächendecken lahmgelegt haben. Er schreibt zudem, dass solche Unwetter in dieser Region nicht ungewöhnlich sind und die meisten Cloud Anbieter keine Probleme damit hatten.

Komplexität kann man nicht beherrschen

Amazon ist mit Abstand Marktführer im Cloud Infrastruktur Markt und dieser Ausfall zeigt deutlich, wie schwierig es für Cloud Computing Anbieter (uneingeschränkt) ist, diese massiven Systeme zu betreiben und robust gegen Fehler auszulegen. Immerhin besteht alleine die Amazon Cloud in der Region US-EAST, nach eigenen Angaben, aus 10 Rechenzentren, die in vier Availability Zones aufgeteilt ist.

Die Probleme im Detail

Es handelte sich mal wieder um eine Kaskade von unerwarteten Fehlern, die zu diesem langen Ausfall führten. So konnte in einem Rechenzentrum die Notstromversorgung nicht aktiviert werden. Die USVs konnte die Systeme nicht lange genug mit Strom versorgen, wodurch diese in der Region heruntergefahren werden mussten. Dadurch standen keine virtuellen Instanzen mehr zur Verfügung. Was die Situation jedoch verschlimmerte, waren Probleme mit den Konfigurationstools, Software mit denen Kunden die Ressourcen innerhalb der Region erstellen, verschieben und anpassen können. Dadurch waren die Kunden nicht in der Lage auf den Ausfall zu reagieren.

Engpass

Ein weiteres Problem war ein Engpass während des Bootvorgangs der Amazon Server. Das führte dazu, dass es länger dauerte als erwartet, um wichtige AWS Services wie EC2 und EBS wieder hochzufahren. Das sorgte für ein Folgeproblem, als EBS wieder online war, da hier technische Eingriffe notwendig waren, um sicherzustellen, dass alle auf EBS gespeicherten Daten weiterhin vorhanden sind. Laut Amazon hat es mehrere Stunden benötigt, um diesen Fehler zu beheben.

Ein unbekanntes Problem

Das aber vielleicht schwerwiegendste Problem bestand in einem unvorhergesehen Fehler im Elastic Load Balancer (ELB), der dafür zuständig ist, den Traffic zu den Servern mit ausreichend Kapazität zu leiten. Als EC2 plötzlich nicht mehr verfügbar war, versuchte der ELB weiterhin Workloads auf die Server zu verteilen. Als die Amazon Cloud dann neu gestartet wurde, fuhren ebenfalls eine große Anzahl an ELBs in einem Status hoch der zu einem Fehler führte, den Amazon zuvor noch nicht gesehen hatte. Dieser überflutete die Amazon Cloud mit Anfragen, was wiederum zu einer Verzögerung führte. Dieser Fehler, in Kombination mit einer großen Anzahl neuer Server, die in von dem Ausfall nicht betroffenen Availability Zones durch Kunden ausgerollt wurden, erzeugte weitere Anfragen, die in der Summe die Fehlerbehebung verzögerte.

Gewitter + Viele eigene Fehler

Zwar war die eigentliche Ursache für den Ausfall der Amazon Cloud ein Gewitter. Die Wahrheit ist jedoch, dass sich die Cloud Infrastruktur durch eigene versteckte Fehler wieder selbst außer Gefecht gesetzt hat.

Kunden verlieren Daten

Neben Anbietern wie Instagram, Pinterest und Heroku waren ebenfalls Foursquare, Quran, Moby und Reddit von dem Ausfall betroffen. Dabei sollen mehrere große EC2 Kunden wertvolle Daten verloren haben. Darunter Chartbeat, die von einem Verlust von 11 Stunden an historischen Datenmaterial sprechen. Diese seien laut dem Unternehmen nicht wiederherstellbar.

Alternativen evaluieren

Ich habe mich bisher immer schützend vor die Amazon Web Services gestellt, da sie wirklich einen sehr guten Job machen und für das Cloud Computing stehen. Allerdings muss ich gestehen, dass ich langsam ein wenig irritiert bin was die Vorsichtsmaßnahmen gegenüber “unvorhersagbare” Ereignisse wie Gewitter und Stromausfälle sind. Das erneut die Notstromversorgung nicht funktioniert, die schlussendlich zu dem Ausfall geführt hat, ist doch sehr merkwürdig und muss hinterfragt werden. Zumal es sich dabei schon um das zweite Mal handelt, wo “ein Schalter” defekt war. Bis vor einer Woche habe ich meine Hand dafür ins Feuer gelegt, dass Amazon regelmäßig Fail-Over Szenarien durchführt, um sicherzustellen, dass Stromausfälle oder Unwetter routinemäßig “abgearbeitet” werden und “ein Schalter” im richtigen Moment mal nicht klemmt. Wo gerade der Strom doch als das analoge Paradebeispiel für das Pay-as-you-go Modell des Cloud Computing steht. Mittlerweile muss ich meine Hand – für die Amazon Web Services – für diesen Fall leider erst einmal zurückziehen.

Die Amazon Web Services haben dem Cloud Computing mit dieser Ausfallserie zwar nicht stark geschadet, aber erneut Diskussionen ausgelöst, die vor Monaten Ad acta gelegt wurden. Es kann einfach nicht sein, dass ein Stromausfall solche Probleme verursacht und schon gar nicht ein zweites Mal.

Es ist daher an der Zeit seine Eier nicht mehr nur in eine Availability Zone oder Region zu legen, sondern sich ebenfalls Gedanken über Alternativen und andere Clouds zu machen, um das eigene Risiko zu minimieren. Ein gutes Beispiel ist die Web TV Agentur Schnee von Morgen von Nikolai Longolius. Das Unternehmen setzt primär auf die Amazon Web Services und hat parallel eine Version für die Google App Engine entwickelt. Risikomanagement halt!

Ich sehe hier für Amazon allerdings noch ein zweites Problem. Nachdem sich das Unternehmen anfangs verstärkt auf die Startups dieser Welt konzentriert hat und weiterhin konzentrieren wird, versuchen sie auch vehement in den Bereich für etablierte Unternehmen einzusteigen. In einem Markt, wo sich bereits erfahrene Anbieter wie HP, IBM und Microsoft tummeln, die Wissen wie man auf die Bedürfnisse von großen Kunden eingeht. Diese Ausfälle werden es Amazon erschweren, Argumente für den Weg in die AWS Cloud zu finden.


Bildquelle: http://thearmadagroup.com