KI, Big Data, Machine Learning, Predictive Analytics usw. kurz erklärt
Der Siegeszug der so genannten „Algorithm Economy“ bringt – wie so oft bei digitalen Trends – eine Menge Wirrungen rund um „neue“ Begrifflichkeiten und Buzzwords mit sich. Egal ob Job-Plattform, Content-Management-System, Bots oder Newsletter-Tool – scheinbar muss alles heutzutage irgendwas mit Künstlicher Intelligenz machen, wenn es fancy sein will. Man bekommt den Eindruck, was früher das Bluetooth, ist heute die KI (oder nennen wir es AI, weil „Artificial Intelligence“ eh viel cooler klingt?)
Fakt ist, nicht erst seit Watson wissen wir – alles ist besser Dank „AI“!
Doch was bedeutet dieser oftmals missverständlich benutzte Klumpen neuer, heilsbringender Zauberworte, die seit einiger Zeit alle Gefilde des Online-Marketings durchziehen, wie es einst Social, Big Data und Co. taten?
Wir räumen auf mit dem Halbwissen rund um die AI-Buzzword-Blackbox! Es folgt eine Begriffs-Spezifikation:
Künstliche Intelligenz /Artificial Intelligence (KI / AI)
Artificial Intelligence (EN) / Künstliche Intelligenz (DE) beschreibt eine spezielle Menge moderner statistischer Verfahren. Ziel Künstlicher Intelligenz ist es, automatisch Entscheidungen auf Basis unzureichend vorliegender Informationen im Millisekunden-Bereich zu treffen. KI ermöglicht die Verarbeitung großer, zum Teil sich widersprechender Datenmengen. Methoden Künstlicher Intelligenz ebnen damit den Weg von „traditionell“ eher „stumpfen“ Entscheidungsregeln hin zu vernetzten, komplexen Entscheidungen durch Maschinen. KI-Methoden sind also in der Lage, das Gesamtbild, das heißt, die Gesamtheit aller verfügbaren Informationen, in ihre Entscheidungen einzubeziehen. Diese Methoden haben damit mehr mit menschlicher Intuition und Intelligenz gemein, als mit fest verdrahteten Programmen klassischer Methoden. Mit Künstlicher Intelligenz lassen sich z.B. Onlineshops optimieren.
Big Data
Big Data ist ein Schlagwort, welches moderne Techniken der Datenanalyse zusammenfasst. Von Big Data ist dann die Rede, wenn die Datenquellen entweder zu groß, zu schnell oder unzureichend annotiert sind und klassische Datenbanktechnologien und Analyseverfahren nicht mehr ausreichen. Für KMUs tritt typischerweise der letzte Fall (unterannotierte Daten) ein. Zur Analyse solcher Daten werden dann Methoden aus dem Bereich der künstlichen Intelligenz und des Data Mining herangezogen. Der Einstieg in das Big Data-Universum ist allerdings mit einigen Detailfragen verbunden.
Data Science
Data Science ist ein interdisziplinäres Feld, welches sich mit der Untersuchung, Verarbeitung und Nutzung von Daten beschäftigt. Es besteht aus modernen Programmierparadigmen, statistischer Methodik und Techniken auch aus dem Bereich der Künstlichen Intelligenz. In der Algorithmic Economy nimmt Data Science eine zentrale Rolle ein.
Algorithmus
Ein Algorithmus ist eine Folge von mathematischen Berechnungen und Anweisungen, die ausgehend von einem Input einen Output generiert. Ein konkretes Beispiel: mit prädiktiven Algorithmen lassen sich Produktkäufe für bis dato unbekannte User vorhersagen.
Machine Learning
Maschinelles Lernen (Machine Learning) bezeichnet das Auffinden innerer Zusammenhänge von Daten ohne menschliches Zutun. Dafür werden nur die Informationen aus den vorliegenden Daten genutzt und menschlicher Bias minimiert. Häufig findet maschinelles Lernen Zusammenhänge, die menschlichen Beobachtern verborgen bleiben. Ziel von Machine Learning ist typischerweise das Training eines sog. Klassifizierers (Algorithmus), um zukünftiges Verhalten vorherzusagen (siehe auch Unstrukturierte Daten)
Deep Learning
Deep Learning ist eine Untergruppe der Methoden aus dem Bereich Machine Learning. Typischerweise kommt der Begriff „Deep Learning“ aus dem Bereich künstlicher neuronaler Netzwerke. Beim Deep Learning wird ein zu lösendes Problem in mehreren Schichten nacheinander analysiert um optimale Ergebnisse zu gewinnen. Jede Schicht dringt dabei tiefer (daher „deep learning“) in die Problemsphäre ein. Obwohl die zugrundeliegende Methodik relativ alt ist, ist der Begriff kürzlich u.a. von Google neu popularisiert worden.
Neuronale Netze
Neuronale Netze sind eine weitere spezielle Methode des maschinellen Lernens. Die neuronalen Netze sind dem menschlichen Gehirn nachempfunden, daher der Name. Derartige Netze haben sehr viele verschiedene Anwendungsfälle und sind typischerweise sehr starke Klassifizierer. Sie eigenen sich aber auch für Regressionen oder zum Clustering.
Data Mining
Data Mining ist ein übergeordneter Begriff deskriptiver analytischer Methoden. Ziel von Data Mining ist dabei nicht die Konstruktion von Klassifizierern (Algorithmen) oder Regressionsformeln für die Vorhersage zukünftigen Verhaltens. Es geht beim Data Mining vor allem um das „Schürfen“ nach verborgenen Erkenntnissen. Solche Erkenntnisse sind nur von den Daten definiert und nicht durch menschliche Annahmen verzerrt. So werden häufig grundlegend andere Zusammenhänge aufgedeckt, als anfänglich erwartet. Ein Beispiel für unerwartete Einblicke sind unsere Fluiden Personas.
Advanced Analytics
Advanced Analytics ist ein Schlagwort, welches die Methoden moderner Statistik zusammenfasst. Dieses Wort soll z.B. Methoden der künstlichen Intelligenz oder des Data Mining von „klassischer“ Statistik abgrenzen. Advanced Analytics sind dabei typischerweise multivariate Methoden, die Analysen in hochdimensionalen Räumen erlaubt, wobei die Daten sehr stark voneinander abhängen.
Descriptive Analytics
Deskriptive Analytics (deskriptive/beschreibende Analysetechniken) hat zum Ziel, den Ist-Stand eines Datensatzes zu beschreiben. Dabei sollen die eigenen Daten, und damit die Kunden, Mitarbeiter oder Arbeitsgeräte, besser verstanden werden, um in Zukunft besser auf sie eingehen zu können. Typische Methoden sind Clustering, Nearest Neighbors oder Hypothesentests.
Predictive Analytics
Mit Predictive Analytics (prädiktive/vorhersagende Analysetechniken) lässt sich von bekannten Daten und Ergebnissen auf unbekannte oder zukünftige Ergebnisse schließen. Typischerweise soll mit sog. prädiktiven Algorithmen von bekannten Ereignissen, über die mehr Informationen vorliegen, auf jene Erkenntnisse geschlossen werden, die erst in der Zukunft eintreten. Damit kann frühzeitig reagiert werden. Beispiele sind das Schätzen von Preisbereitschaft oder den Wünschen des Kunden (die definitiv erst nach dem Kauf bekannt sind), um frühzeitig zu (re)agieren.
Prescriptive Analytics
Prescriptive Analytics (preskritive/normative Analysetechniken) ist eng verwandt mit Predictive Analytics. Ziel ist es, mittels Vorhersagen ein bestimmtes Ziel zu erreichen, also normativ auf den Vorgang einzuwirken. Dies umfasst z.B. die Vorhersage von Preisbereitschaft, um dann gezielt Rabatte auszuspielen, um den Umsatz zu erhöhen.
Strukturierte Daten
Strukturierte Daten sind Daten, für die Relationen untereinander und relevante Information bekannt und z.B. in einer Datenbank abgelegt sind. Dadurch ist es möglich, nach Eigenschaften zu filtern oder zu sortieren. Beispiele sind Alter und Geschlecht in gut geführten CRMs. Relationelle Datenbanken können solche Daten sehr gut verarbeiten.
Unstrukturierte Daten
Unstrukturierte Daten, oder besser: unterannotierte Daten, sind Daten, für die Relationen zwischen den Daten und relevanten Information nicht und nur teilweise bekannt sind. Dadurch gibt es keinen direkten Weg, nach diesen Informationen zu suchen oder zu filtern. Beispiel sind Preisbereitschaft oder relevanter Content im aktuellen Moment. Diese Informationen sind nicht direkt zugänglich und müssen mittels höherer analytischer Methoden geschätzt werden.
Daten-Clustering
Clustering ist eine Unterkategorie des Data Minings. Ziel ist die Zusammenfassung „ähnlicher“ Daten zu größeren Strukturen (Clustern). Dadurch können Grobstrukturen in Daten gefunden werden. Clustering kann entweder durch Teilung des Gesamtdatensatzes (Top-Down) oder durch Zusammenfassung von Einzelpunkten (Bottom-Up) geschehen. Ziel ist typischerweise, die Daten besser zu verstehen, um dann geeignete Maßnahmen zur weiteren Auswertung zu finden.
Classifier
Ein Classifier/Klassifizierer ist ein mathematischer Algorithmus, der vorhandene Informationen auf eine Klassenzugehörigkeit abbildet. Ein Beispiel ist ein Algorithmus, der als Input die bisher besuchten Websites eines Nutzers entgegennimmt und eine Geschlechtszugehörigkeit für den Nutzer ausgibt. Classifier operieren typischerweise auf unvollständigen Informationen, sodass diese Ausgabe selten perfekt ist. Die Ausgabe wird deshalb häufig „Schätzung“ genannt.
Regression
Eine Regression ist ein mathematischer Algorithmus, der vorhandene Informationen auf eine oder mehrere reelle Zahlen abbildet. Ein Beispiel ist ein Algorithmus, der als Input die bisher besuchten Websites entgegennimmt und die Preisbereitschaft schätzt. Regressionen operieren typischerweise auf unvollständigen Informationen, sodass diese Ausgabe selten perfekt ist. Die Ausgabe wird deshalb häufig „Schätzung“ genannt.
Übrigens ist dies keinesfalls eine vollständige Liste.
Sie dient als erster Versuch, einen groben Überblick über die verschiedenen Methoden und Bereiche zu geben. Welche Technologien und Methoden zum Einsatz kommen, wenn man „mal etwas mit Künstlicher Intelligenz“ machen möchte, ist u.a. stark vom Anwendungsfall, dem Ziel und der Qualität der vorliegenden Daten abhängig.