Personalisierungslösung epicAi wird AI MASTER 2019
WINNER  2019
Quelle: unsplash.com

Data Mining Methoden:
Diese 5 sind für KI besonders wichtig.

Auch wenn Ihnen Künstliche Intelligenz (alias KI oder AI) bereits etwas sagt; bevor wir mit der Liste der gängigsten Data Mining Methoden starten, stellt sich dann vielleicht doch noch eine andere, entscheidende Frage:

Was ist Data Mining überhaupt?

Bei Data Mining handelt es sich um die Erforschung, Analyse und Auswertung großer Datenmengen. Auf der Suche nach versteckten Mustern und Strukturen werden vor allem Big Data-Bestände „geschürft“. Mit den gewonnenen Datenerkenntnissen lassen sich Unternehmensentscheidungen automatisieren, präzise Prognosen und Vorhersagen treffen und langfristig Kosten senken. Mit Data Mining ist es möglich, die versteckten Geschichten im Datenchaos einer Marke zu lokalisieren. Die Entwicklung intelligenter Softwarelösungen steht und fällt mit dem Erschließen solcher Dark Data.

Sie haben einen Datensatz und wollen herausfinden,
was damit generell möglich ist?

SPRECHEN SIE UNS AN!

Data Mining Methoden

1 Clusteranalyse

Bei der Clusteranalyse wird die zumeist riesige Datenmenge in kleinere Gruppen (Cluster) eingeteilt. Dafür werden Ähnlichkeiten innerhalb der Daten analysiert und auf Grundlage dieser die Gruppen gebildet. Für eine genaue Abgrenzung der Gruppen untereinander müssen die Unterschiede zwischen ihnen möglichst groß sein.

Die Einsatzbereiche von Clusteranalysen sind vielfältig. Eine typische Marketinganwendung ist zum Beispiel die Segmentierung nach Zielgruppen. So werden Personen mit übereinstimmenden Eigenschaften entsprechenden Clustern zugeordnet, um im Folgenden die passenden Produkte oder Angebote an sie auszuspielen.

2 Klassifizierung

Die Klassifizierung oder Klassifikation ist eine der beliebtesten Data Mining Methoden in der Praxis. Im Unterschied zur Clusteranalyse sind die Gruppen, in diesem Fall die Klassen, denen die Daten auf Grund ihrer Eigenschaften zugeordnet werden, bereits vordefiniert. Die Zuordnung der sogenannten Trainingsdaten zu diesen Klassen erfolgt durch bestimmte Entscheidungsregeln. Die wesentlichen Klassifikationsverfahren sind Entscheidungsbäume, Künstliche Neuronale Netze, die Bayes-Klassifikation und das k-Nächster-Nachbar-Verfahren. Eine davon möchte ich kurz vorstellen:

Künstliche Neuronale Netzwerke (KNN)

Wie die Bezeichnung bereits suggeriert, ist dieses analytische Modell der Arbeitsweise des menschlichen Gehirns nachempfunden. Erstaunlich ist, dass das Verfahren bereits in den 1940ern entwickelt wurde, jedoch erst in den letzten Jahren große Beliebtheit erlangte. Wie beim Original handelt es sich auch hier um ein Netz unabhängiger, in Schichten (sog. Layers) aufgebauter Neuronen. Diese Schichten sind untereinander verbunden. Zumeist besteht das Netz nur aus einer Ein- und Ausgabeschicht. Manche Künstliche Neuronale Netzwerke weisen dazwischen jedoch noch weitere Schichten auf. Eine Besonderheit der KNN ist ihre Lernfähigkeit mittels Trainingsdaten.

3 Regressionsanalyse

Die Regressionsanalyse trifft Vorhersagen mit Hilfe erkannter Beziehungen innerhalb des Datensatzes. Sie deckt den Zusammenhang zwischen einer abhängigen und einer oder mehrer unabhängigen Variablen auf. Die verfügbaren Daten prognostizieren so zukünftiges Verhalten. Es gibt grundlegend zwei Arten von Regression:

  • Lineare Regressionen dienen zur Prognose stetiger Variablenwerte in Abhängigkeit unabhängiger Quellvariablen. Diese Art der Regressionsanalyse liefert zudem Aufschluss über die jeweiligen Einflussgrößen der Quell- auf die Zielvariable.

  • Logistische Regressionen hingegen prognostizieren die Wahrscheinlichkeit einer kategorialen Zielvariable abhängig von einer oder mehrerer unabhängiger Quellvariablen.

4 Assoziationsanalyse

Die Assoziationsanalyse dient der Identifikation von Elementen, die häufig miteinander auftreten, also im Zusammenhang stehen. Die dafür benötigten Assoziations- bzw. Abhängigkeitsregeln resultieren aus den erkannten Häufigkeiten innerhalb der Datenmenge.

Ein einfaches Beispiel für diese Data Mining Methode ist die Warenkorbanalyse. So untersuchen bspw. Lebensmittelgeschäfte, welche Produkte häufig zusammen im Warenkorb der Kunden landen. Als Resultat könnten sie ihre Märkte so aufbauen, dass Produkte, die meist zusammen gekauft werden, möglichst weit von einander entfernt angeboten werden. Auf der Suche nach dem gewünschten Produkt müssten die Kunden erst an einer Vielzahl anderer vorbei, was ihren Warenkorb mehr füllen könnte als ursprünglich geplant.

5 Anomalieerkennung (Anomaly Detection)

Der Name ist Programm: Die Anomalieerkennung identifiziert in einem Datensatz von der Norm abweichende Muster und unvorhergesehenes Verhalten, sogenannte Outliers. Die Methode kommt bspw. bei der frühzeitigen Erkennung von Fraud-Aktivitäten zum Einsatz. Allgemein gibt es drei Anomalie-Kategorien:

  • Punktanomalien sind einzelne Daten, die durch auffällige Eigenschaften vom Gesamtdatensatz abweichen.

  • Kontextanomalien treten immer in einem bestimmten Kontext auf, vor allem in Zeitreihendaten. Die Variablen-Werte liegen zwar in einem gültigen Bereich, jedoch passen sie nicht zu ihrem eigentlichen Kontext. Ein Beispiel dafür wäre ein plötzlicher Kälteeinbruch mitten im Sommer.

  • Im Fall von Kollektiven Anomalien fällt eine ganze Datengruppe durch anormales Verhalten auf. Zu finden sind solche Abweichungen bspw. bei Elektrokardiogrammen.

Die Charakterisierung verschiedener Anomalien ist wichtig, um für ihre Erkennung den passenden Algorithmus zu wählen.

Data Mining im Unternehmen

Die Weiterentwicklung von Geschäftsprozessen basiert zunehmend auf datengetriebenen Entscheidungen. Die Wettbewerbsfähigkeit steht und fällt also mit der korrekten Applikation von Data Mining. Der Schlüssel dazu ist ein funktionales Data Scientist-Team. Sie kennen ihren Werkzeugkasten und die richtigen Kniffe. Doch Data Scientists allein reichen nicht aus. Eine weitere Baustelle ist die Datenbeschaffung aus verschiedenen Quellen.

epicinsights hilft Ihnen mit hochspezialisierten Consultants und vielen Jahren Projekt-Erfahrung. Mit einem umfassenden Tech-Stack und unserer eigenen Big Data-Infrastruktur realisieren wir für Sie maßgeschneiderte Data-Lösung und unterstützen Sie auch beim Aufbau datenzentrierter inhouse Teams und Anwendungen.

Data Literacy

Die Umsetzung datengetriebener Anwendungen und Prozesse birgt komplexe Anforderungen an das umsetzende Team.

We enable AI for your business

Unsere Blog-Beiträge:

Hier lesen Sie, für wen sich die Fördermaßnahme "Digital Jetzt" eignet und welche Fallstricke es zu beachten gilt.

Wir sind beim Makeathon 2020 der Lichtwerkstatt Jena als Partnerunternehmen dabei! Alle wichtigen Infos dazu findet ihr hier.

Wir erklären, was der Survivorship Bias mit E-Commerce zu tun hat und wie man ihn überwindet.

Es gibt viele verschiedene Data Roles. Doch worin unterscheiden sie sich eigentlich?

Das Potenzial von Data Engineering blieb lange Zeit unentdeckt. Doch mit der Digitalisierung gerät es zunehmend in den…

Data Literacy wird immer wichtiger in unserer digitalen Welt. Und doch gibt es bisher nur wenige kompetente Datenliteraten.…

KI ist schon heute nicht mehr aus unserem Alltag wegzudenken. Mit schwacher KI stehen wir jedoch noch ganz…

Mit den Zero Party Data erscheint ein neuer Consumer-Datentyp auf der Marketing-Bildfläche. Was verbirgt sich dahinter?

Der kommerzielle Werbebetrug erreicht zunehmend Deutschland. Doch was lässt sich dagegen tun?

Was verbirgt sich hinter dem Begriff Dark Data? Und müssen Unternehmen sich davor fürchten?

Am 11. und 12. September 2019 finden Sie uns bei der DMEXCO.

Wir haben unseren Machine Learning-Experten von seinen Monitoren weggelockt und ihm einige Fragen gestellt.

Am 24. Januar 2019 überzeugte epicinsights mit ihrer Predictive Analytics-Plattform epicAi.

Warum ist der Performance Gap eine zentrale Herausforderung für den Einsatz Künstlicher Intelligenz im E-Commerce?

Was heißt eigentlich Bottom-Up für moderne Marketing-Maßnahmen? Was sind die Vorteile?

Explorative Datenanalysen und Künstliche Intelligenz ermöglichen eine neue Ära der Effizienzsteigerung.

Wann immer ich in den letzten Jahren auf Sales- und Marketingveranstaltungen gewesen bin, kam früher oder später die…

Was meint Big Data eigentlich und wie erreiche ich auf effiziente Weise sog. "Quick Wins"?

Lesen Sie hier, wie Künstliche Intelligenz die User Experience eines Onlineshops effizienter und effektiver macht.

Was bedeuten die oftmals missverständlich benutzten Zauberworte aus der AI-Buzzword-Blackbox wirklich?

Buyer Personas sind statisch. Wir setzten stattdessen auf Smart Data- Technologien und dynamische Fluide Personas. Warum?

Fluide Personas ermöglichen es mir als Webseiten- oder Shop-Betreiber Zielgruppen endlich vollumfänglich und multidimensional zu erfassen.

Newsletter Anmeldung