Big Data Analytics

1 Big Data Allgemein

Der Begriff Big Data wird in der heutigen Zeit sehr inflationär genutzt und es existieren viele verschiedene, mehr oder weniger konkrete Definitionen des Begriffs. Häufige Verwendung findet das durch das IT-Beratungs- und Marktforschungsinstitut Gartner Inc. veröffentlichte „3- V-Modell“. [Gartner Inc. 2011] Inzwischen wurde das Modell um ein weiteres „V“ (Veracity) ergänzt und hat mit dem Namen „4-V-Modell“ allgemeine Anerkennung gefunden.

4-V-Modell
Abbildung 1: Das 4-V-Modell
[entnommen aus: Schön 2016, S.302]2

Je stärker die unterschiedlichen Eigenschaften des ursprünglichen 3-V-Modells (Volume, Variety und Velocity) bei einer Datenmenge ausgeprägt sind, desto schwieriger wird es, sie auf herkömmliche Weise auszuwerten. Dementsprechend trifft die Bezeichnung Big Data mit zunehmender Ausprägung der Eigenschaften immer besser auf die entsprechende Datenmenge zu. Umso mehr Sinn ergibt es dann auch, diese mit Hilfe von speziellen Big Data Lösungen auszuwerten.

Big Data an sich stellt also keine Technologie dar, sondern ist der Oberbegriff von speziellen Datenmengen. Zur Verarbeitung von Big Data werden aber wiederum eine Vielzahl neuer Technologien genutzt, die daher auch als Big Data Technologien bezeichnet werden. [Vgl. Dorschel 2015, S. 5f.] In einem Leitfaden des Bitkom e.V. wird Big Data mit den folgenden Worten beschrieben:

„Big Data bezeichnet den Einsatz großer Datenmengen aus vielfältigen Quellen mit einer hohen Verarbeitungsgeschwindigkeit zur Erzeugung wirtschaftlichen Nutzens.“
[Bitkom 2012]

2 Einordnung in den Hype-Zyklus und den Digitalisierungsprozess

Big Data taucht im Hype-Cycle-Modell das erste Mal im Jahr 2011 unter der Bezeichnung „Big Data and Extreme Information Processing and Management“ in der Mitte zwischen dem technologischen Auslöser und dem Gipfel der überzogenen Erwartungen auf. [Vgl. Cloer 2011] Im Jahr 2014 taucht Big Data als eigenständiger Begriff das letzte Mal im Hype-Cycle-Modell auf und befindet sich, wie in Abbildung 2 zu erkennen, auf dem Weg in das Tal der Enttäuschungen. Gartner prognostiziert, dass das Plateau der Produktivität zwischen 2019 und 2024 erreicht wird.

Gartner's Hype Cycle for Emerging Technologies 2014

Abbildung 2: Gartner’s Hype Cycle for Emerging Technologies 2014
[entnommen aus: Gartner Inc. 2014]

Die Analysten des Gartner Instituts begründen ihre Entscheidung, Big Data im Jahr 2015 nicht mehr als eigenständigen Begriff im Hype-Cycle aufzunehmen, damit, dass Big Data eine Vielzahl neuer Technologien hervorgebracht hat, die nun als eigenständige Technologien in ihrem eigenen Hype Cycle dargestellt werden, wie z.B. Deep Learning. [Vgl. Woodie 2015]

Im Zuge der Digitalisierung spielt die Etablierung von Big Data eine entscheidende Rolle. Big Data steht für einen fundamentalen Umbruch, bei dem die Hard- und Software-Lösungen als solche in den Hintergrund der Wertschöpfung treten und die Daten zum entscheidenden Erfolgsfaktor werden. Die inhaltliche Auseinandersetzung mit Daten und ihrer Semantik gewinnt damit zunehmend an Bedeutung. Big Data Technologien können im Zuge der Digitalisierung einerseits als logische Weiterentwicklung von bestehenden Technologien (z.B. transaktionale Systeme oder Dokumenten-Management-Systeme), andererseits aber auch als direkte Konkurrenz dieser angesehen werden. Eine weitere Sichtweise wäre, Big Data Technologien als sinnvolle Ergänzung zu bestehenden Anwendungs-Landschaften zu sehen. [Vgl. Bitkom 2012, S. 22-29]

3 Big Data Analytics

Auch für den Begriff Big Data Analytics liegt keine einheitliche Definition vor. Der Begriff steht in enger Verbindung zu Begriffen wie Business Intelligence, Business Analytics, Data Mining usw. Es finden sich eine Vielzahl unterschiedlicher Auffassungen dieser Begriffe und auch die Abgrenzungen der Bereiche zueinander scheinen fließend und nicht klar abgegrenzt. Auch in der Umgangssprache werden die genannten Begriffe oft vertauscht bzw. irrtümlich verwendet. Nach eingehender Recherche soll im Folgenden eine Abgrenzung bzw. eine Begriffsbestimmung nach persönlicher Auffassung erfolgen. Zu beachten ist, dass die Grenzen in der Realität oft nicht so klar gezogen werden können, wie sie im Folgenden eventuell dargestellt werden.

Einordnung von BI, BA und BDA in den Gartner Analytic Value Escalator
Abbildung 3: Einordnung von BI, BA und BDA in den Gartner Analytic Value Escalator [eigene Darstellung in Anlehnung an: TBM Consulting Group Inc. (o.J.)]

4 Von Business Intelligence und Business Analytics zu Big Data Analytics

Stellt man den Begriff der Analytik nun in den Zusammenhang mit Big Data, ergibt sich daraus die Lehre der Beschaffung von Big Data, der Analyse von Big Data und der Ergebnisverwendung von Big Data Analysen. Besonders im Bereich der Business Analytics verändern sich die Anforderungen der Analytik an die Datengrundlage zunehmend und es kann in den meisten Fällen auch von Big Data Analytics gesprochen werden. An dieser Stelle soll ein einfaches Beispiel zur Verdeutlichung angeführt werden. Gegeben sei ein Software-Unternehmen, welches Computer-Spiele entwickelt und diese weltweit vertreibt.

Die Unternehmensführung stellt nun die Frage, wie sich der Umsatz des Unternehmens in den letzten drei Jahren, auf die einzelnen Kontinente bezogen, entwickelt hat und welche Ursachen es für eventuelle Unregelmäßigkeiten gibt. Ersichtlich wird, dass an dieser Stelle die Business Intelligence mit den vergangenheitsbezogenen Analytik-Methoden zum Einsatz kommt. Soll die Frage der Unternehmensführung beantwortet werden, reicht es in der Regel aus, auf Umsatzdaten aus internen Quellsystemen zuzugreifen. Hierbei handelt es sich dementsprechend um strukturierte Daten. Aus den Daten wird beispielsweise ersichtlich, dass sich alle Umsatzzahlen in den letzten drei Jahren kontinuierlich positiv entwickelt haben. Nur der Umsatz in Europa ist in den letzten drei Jahren besorgniserregend gesunken. Allerdings lässt sich anhand der strukturierten Daten auch die Frage nach dem „Warum?“ beantworten. Ersichtlich wird, dass in Europa in den letzten drei Jahren eine Vielzahl von Filialen geschlossen wurden. Stellt die Unternehmensführung nun aber zum Beispiel Fragen wie „Wie wird sich unsere Kundenstruktur in Zukunft entwickeln?“ oder „Was sind die Trends und die Wünsche der Kunden in Bezug auf Computerspiele in den nächsten Jahren?“, kommt der Bereich der Business Analytics mit den zukunftsorientierten Analytik-Formen ins Spiel. Schnell wird allerdings auch klar, dass es nicht mehr ausreicht, lediglich auf die strukturierten, vergangenheitsbezogenen Datenbestände der Business Intelligence zurückzugreifen. Vielmehr müssten diese Datenbestände angereichert werden um externe Daten, die den Markt und die Konkurrenz betreffen.

Zur Beantwortung der zweiten Frage würden sich weiterhin zum Beispiel sämtliche, über Social-Media-Plattformen gesammelten, Daten wie Produktrezensionen, Kundenkommentare, Blogbeiträge, Videoreviews, Podcasts usw. anbieten. Betrachtet man diese Daten wird deutlich, dass es sich um extrem große (Volume), unstrukturierte bzw. vielfältige (Variety) und schnelllebige (Velocity) Daten handelt. Auch lässt sich vermuten, dass diese Daten die Trends und Kundenwünsche in repräsentativem Maße widerspiegeln und sich daher zur Beantwortung der Frage gut eignen (Veracity). Es handelt sich dementsprechend um Big Data. Beispielsweise lassen sich nun mittels Text- oder Multimedia-Mining Antworten auf die Fragen der Geschäftsführung finden, anhand derer dann zukunftsorientierte Entscheidungen getroffen werden können. Durch die Auswertung der Social-Media-Daten ließe sich zum Beispiel feststellen, dass sich die Kunden mehr Simulationsspiele auf dem Markt wünschen. Das Unternehmen könnte auf Grundlage dieser Erkenntnis den Bereich der Simulationsspiele-Entwicklung ausbauen. Im Bereich der Business Analytics liegen die Daten oft unstrukturiert vor (vor allem im Bereich Web/Social Media) und werden nahezu in Realgeschwindigkeit aktualisiert (vor allem im Bereich Sensordaten). Sie erfüllen also die Bedingungen, um als Big Data bezeichnet zu werden. Wie bereits erläutert, erfordert dies für eine reibungslose Verarbeitung den Einsatz spezieller Big Data Technologien. In einem Großteil der Fälle kann also anstelle von Business Analytics auch von Big Data Analytics gesprochen werden. [Vgl. Schön 2016, S. 311-313] Dieser Sachverhalt wird ebenfalls in Kapitel 2.1, Abbildung 3, dargestellt.

Anhand von Big Data lassen sich gegebenenfalls auch Fragestellungen der Business Intelligence beantworten, in der Regel kommen hier aber weiterhin strukturierte Daten zum Einsatz. Big Data Analytics ersetzt also die beiden Disziplinen nicht, sondern eröffnet durch den Zugang neuer Datenquellen andere Auswertungsmöglichkeiten, die in der Regel für Predictive oder Prescriptive Analytics genutzt werden. Durch die Ergebnisse kann im Optimalfall ein immenser wirtschaftlicher Wert entstehen, der in Wettbewerbsvorteilen nach dem Motto „Ich weiß heute schon, was sich die Kunden morgen wünschen“ mündet. [Vgl. Dorschel 2015, S.58-63; Schön 2016, S. 313]

5 Big Data Technologien – Apache Hadoop Framework

Das von der ehrenamtlich arbeitenden Apache Software Foundation entwickelte Hadoop Framework, soll die verteilte Verarbeitung großer Datenmengen über ein hochverfügbares Cluster ermöglichen. Dieses Cluster kann dabei von einigen wenigen Servern bis hin zu einer Vielzahl von Servern mit eigenem Speicher und eigener Rechenkraft hochskaliert werden. Das Framework besteht, wie in Abbildung 6 dargestellt, ab der Version 2.0 aus drei zentralen Bestandteilen und vielen Erweiterungsmöglichkeiten. Hadoop wird als Ökosystem verstanden, bei dem mit den drei zentralen Bestandteilen in Verbindung mit den Erweiterungen eine individuelle Architektur aufgebaut werden kann.

Hadoop 1.0/2.0 Architektur
Abbildung 4: Hadoop 1.0/2.0 Architektur
[entnommen aus: Intellipaat.com 2018]

Verfasst von Nico Peppinghaus im Rahmen der Masterveranstaltung „IT-Controlling“ bei Frau Prof. Dr. Gröner an der Fachhochschule Dortmund.
Veröffentlicht am 08.04.2018.


Literaturverzeichnis

  • Bitkom (2012): Big Data im Praxiseinsatz. Szenarien, Beispiele, Effekte. URL: https://www.bitkom.org/Bitkom/Publikationen/Leitfaden-Big-Data-im-Praxiseinsatz- Szenarien-Beispiele-Effekte.html, Stand: 05.01.2019.
  • Cloer, Thomas (2011): Emerging Technologies 2011: Gartner Hype Cycle – die Mutter aller Prognosen. IDG Business Media GmbH. URL: https://www.computerwoche.de/a/gartner-hype-cycle-die-mutter-aller-prognosen,2492728, Stand: 08.01.2019.
  • Dorschel, Joachim (Hg.) (2015): Praxishandbuch Big Data. Wirtschaft – Recht – Technik. Weisbaden: Springer Gabler.
  • Gartner Inc. (2011): Gartner Says Solving ‚Big Data‘ Challenge Involves More Than Just Managing Volumes of Data. URL: https://www.gartner.com/newsroom/id/1731916, Stand: 04.01.2019.
  • Gartner Inc. (2014): Gartner’s 2014 Hype Cycle for Emerging Technologies Maps the Journey to Digital Business. URL: https://www.gartner.com/newsroom/id/2819918, Stand: 08.01.2019.
  • Intellipaat.com (2018): What is Hadoop? URL: https://intellipaat.com/blog/what-is- hadoop/, Stand: 22.01.2019.
  • Schön, Dietmar (2016): Planung und Reporting. Grundlagen, Business Intelligence, Mobile BI und Big-Data-Analytics. 2. Aufl. 2016. Wiesbaden: Springer Fachmedien Wiesbaden.
  • TBM Consulting Group Inc. (o.J.): How Manufacturers Are Using Prescriptive Analytics to Optimize Profits. URL: http://www.tbmcg.com/resources/blog/technology-prescriptive- analytics/, Stand: 12.01.2019.
  • Woodie, Alex (2015): Why Gartner Dropped Big Data Off the Hype Curve. Datanami. URL: https://www.datanami.com/2015/08/26/why-gartner-dropped-big-data-off-the-hype- curve/, Stand: 08.01.2019.