Big Data beziehen sich auf riesige, komplexe Sammlungen von Daten, die ständig wachsen und sowohl strukturiert (wie die Spezifikationen aller Produkte, die ein Unternehmen verkauft) als auch unstrukturiert (wie Metadaten, Social Media-Posts und Weblog-Daten) sind.
Im Jahr 2001 veröffentlichte Gartner diese Definition:
Big data sind große Datenmengen und Informationsbestände, die kostengünstige und innovative Methoden der Informationsverarbeitung benötigen, die eine verbesserte Entscheidungsfindung und Prozessautomatisierung ermöglichen.
Eine nicht enden wollende Datenquelle, auf die Unternehmen angewiesen sind, ist das Streaming von Daten, die aus dem großen, miteinander verbundenen Netz von Geräten, auf die sie Zugriff haben, in ihre IT-Systeme gelangen. Das Internet der Dinge (IoT) ist Teil dieser wachsenden großen Datenquelle. Daten, die von IoT-Geräten - von Autos über Wearables bis hin zu Mobiltelefonen - einströmen, bieten Herstellern, Regierungen, Medien und Werbetreibenden bereits eine Fülle von Einblicken über ihr Publikum. Eine weitere wichtige Quelle sind Social-Media-Daten. Diese unstrukturierten Daten können nuancierte Muster und Präferenzen aufzeigen und sind für Dinge wie Marketingstudien, Erkenntnisse über Verkauf und Support, politische Prognosen und soziologische Forschung von großem Wert. Und es gibt mehrere öffentlich zugängliche Datenquellen, die jeder nutzen kann, wie das Offene Datenportal der Europäischen Union und data.gov (US-Regierung).
Big Data sind jedoch in ihrem Rohzustand von geringem Wert. Organisationen können aus ihnen nur Wert schöpfen, indem sie sie speichern, verarbeiten und analysieren und sie nutzen, um Erkenntnisse zu gewinnen, die die von ihnen angebotenen Produkte und Dienstleistungen beeinflussen können. Das Gewinnpotenzial ist enorm. Big Data hilf Unternehmen dabei, die Kundennachfrage zu antizipieren und neue Produkte und Dienstleistungen zu entwickeln, und helfen anderen dabei, Anrufprotokolle, Webbesuche und Social Media-Posts zu analysieren, um Probleme mit ihrer Kundenerfahrung zu beheben. Und Big Data hilft vielen Unternehmen, Muster zu erkennen, die Betrug signalisieren, lange bevor ein Mensch ihn entdecken könnte. Es stehen Technologien zur Verfügung, um die besonderen Anforderungen dieser Art von Projekten zu unterstützen.
Der Branchenanalyst Doug Laney sagte 2001, dass die gängige Definition von Big Data aus drei Vs besteht: Volume, Velocity und Variety.
Volumen bedeutet einfach, dass es mehr Daten gibt. Dabei kann es sich um Transaktionsdaten handeln, die über Jahre hinweg gespeichert wurden, um unstrukturierte Daten aus sozialen Medien oder um Sensor- und Maschinendaten, die gesammelt werden.
Die Geschwindigkeit bezieht sich auf die Geschwindigkeit, mit der die Daten von Sensoren, intelligenten Messgeräten und RFID-Etiketten strömen. Dies hat dazu beigetragen, dass der Bedarf an einer Datenanalyse in Echtzeit gestiegen ist.
Das dritte V ist die Vielfalt, die sich auf die verschiedenen Formate der Daten bezieht. Zu diesen verschiedenen Formaten gehören strukturierte Daten, numerische Daten, Daten aus Geschäftsanwendungen, unstrukturierte Daten und Finanztransaktionsdaten sowie andere.
Einige Unternehmen wie SAS sind der Ansicht, dass es zwei weitere V's gibt: Variabilität und Veracity.
Bei der Variabilität geht es um die Inkonsistenz der Datenströme, z. B. die Aktivität in den sozialen Medien, die auf ein Ereignis reagiert und einen Anstieg der Nutzung bewirkt.
Veracity bezieht sich auf die Tatsache, dass die Daten aus mehreren verschiedenen Quellen stammen, die schwer konsistent zu halten sind.
Stand: 19.04.2024