Fünf Thesen zu Open Source und Big Data 2017 von Hadoop-Entwickler Doug Cutting
1. Big Data und Open Source werden praktisch jede Branche beeinflussen.
„Generell erwarte ich, dass sich die Produktivität in Branchen wie der Fertigung, Telekommunikation, bei Transport oder Finanzen verbessert, weil Big Data ein besseres Verständnis über die Kunden ermöglicht. Spannend wird es auch bei Versorgern, die Hadoop nutzen, um Energieverbräuche zu optimieren. Persönlich bin ich sehr gespannt darauf, welche Verbesserungen sich durch neue Technologie-Stacks in der Genomanalyse und Präzisionsmedizin erreichen lassen.
2. Open Source schafft die Voraussetzungen für „Multi Cloud”.
„Cloud-Anbieter sind dabei, ihre Angebote vom einfachen Infrastructure-as-a-Service (IaaS) hin zu Platform-as-a-Service (PaaS) zu entwickeln. Sie wollen nicht mehr nur als Hosts bzw. Speicherort dienen, sondern selbst Datenbanken und Verarbeitungssysteme bereitstellen. Unglücklicherweise verwenden sie dazu aber meist proprietäre APIs und bringen Anwender damit wiederum in Abhängigkeiten, denen sie schon bei On-Premise-Lösungen ausgesetzt waren. Mit Open-Source-Datenbanken und -Lösungen können sich Anwender jedoch von dieser Einschränkung befreien und gewinnen erheblich an Flexibilität. Das erlaubt es Ihnen beispielsweise, ohne Probleme mehrere Cloud-Anbieter in Anspruch nehmen zu können, ohne jedesmal ihre Anwendungen anpassen zu müssen. Sie können auch die jeweils kostengünstigsten Cloud-Angebote in Anspruch nehmen, unterschiedliche Clouds in verschiedenen Regionen nutzen oder eine Kombination aus Cloud-basierten und lokalen Systemen einsetzen.”
3. Organisationen müssen beim Technologie-Stack umdenken.
„Der aktuelle Technologie-Stack setzt ein neues Denken voraus, denn er verwendet einen anderen Betriebsmodus. Anstelle punktueller Lösungen liefert er den Anwendern jetzt eine umfassende Datenplattform. Daten müssen nicht mehr in ein anwendungsspezifisches Schema gepresst werden, sondern können in einem relativ „rohen“ Format gespeichert werden, auf das die unterschiedlichsten Anwendungen zugreifen können. Mittlerweile stehen auch unheimlich viele Tools zur Verfügung: Neben SQL-Engines lassen sich Search, Streaming und beispielsweise Machine-Learning flexibel kombinieren. All dies erfordert neue Fertigkeiten aber vor allem einen anderen Führungsstil und oftmals auch eine andere Organisationsstruktur. Wichtig ist, ganz oben in der Organisation Unterstützung für Open-Source zu haben. Trotzdem sollten am Anfang kleine Projekte stehen, und nicht der Versuch, direkt das Rad neu zu erfinden.”
4. Spark wird zur „Engine 2.0” des Open-Source-Datenökosystems
„Entwickler erstellen immer weniger neue Anwendungen auf Basis von MapReduce und verwenden stattdessen lieber Spark. MapReduce wird auch in Tools wie Hive und Pig sukzessive durch Spark als Engine ersetzt. Aber das macht MapReduce nicht überflüssig. Es wird noch für viele Jahre bei existierenden Anwendungen gut funktionieren und für viele Batch-Prozesse mit hohem Volumen sogar das überlegene Werkzeug bleiben. Wenn MapReduce die Engine v1.0 für das Open-Source-Datenökosystem war, dann ist Spark jetzt die v2.0.”
5. Das Open-Source-Datenökosystem bietet beste Karriereaussichten
Man sollte sich nicht auf einzelne Technologien oder Lösungen konzentrieren, sondern darauf, wie sich die einzelnen Komponenten des Open-Source-Datenökosystems am besten problemorientiert miteinander verbinden lassen. Wichtig ist ein Verständnis dafür, wie sich neue Technologien in bestehenden Szenarien einsetzen lassen, was sie ersetzen könnten und vor allem was sie ermöglichen. Wer über ein solch architektonisches Verständnis verfügt, hat in unserer Branche beste Karrierechancen.
Cloudera bietet eine zeitgemäße Plattform für Datenmanagement und -analyse auf Basis von Apache Hadoop sowie den neuesten Open Source-Technologien. Weltweit führende Unternehmen vertrauen auf Cloudera, um mit Unterstützung von Cloudera Enterprise – der schnellsten, einfachsten und sichersten Datenplattform der Gegenwart – ihre wichtigsten geschäftlichen Herausforderungen zu meistern. Unsere Kunden erfassen, speichern, verarbeiten und analysieren auf effiziente Weise gewaltige Datenmengen und nutzen fortschrittliche Analysemethoden, um Unternehmensentscheidungen schneller, flexibler und kostengünstiger als je zuvor treffen zu können. Auf dem Weg zum Erfolg bieten wir unseren Kunden umfassenden Support, Schulungen und andere professionelle Services. Weitere Informationen finden Sie unter http://cloudera.com.
Kontakt mit Cloudera
Lesen Sie unsere Blogs: cloudera.com/engblog und vision.cloudera.com
Folgen Sie uns auf Twitter: twitter.com/clouderade
Besuchen Sie uns auf Facebook: facebook.com/cloudera
Treten Sie der Cloudera Community bei: cloudera.com/community
Cloudera
Arnulfstrasse 122
80636 München
http://www.cloudera.com
Telefon: +1 (650) 644-5907
E-Mail: press@cloudera.com
Public Footprint GmbH
Telefon: +49 (214) 8309-7790
E-Mail: schumacher@public-footprint.de