Data-Mining
Patrick Thoma
Was ist Data-Mining
- Das Auswerten von größeren Datenbeständen.
- Erkennung neuer Muster durch Anwendung von Methoden.
Clusteranalyse I
k-Means Algorithmus
- k steht für die Anzahl der Gruppen
- Objekte (Kunden) werden in ein Koordinatensystem mit n-Achsen eingetragen
- n steht für die Anzahl der Achsen
Clusteranalyse II
Beispiel mit n = 2 und k = 2
Clusteranalyse III
Zufällige Objekte werden zu Schwerpunkten gemacht
Clusteranalyse IV
Objekte werden nahestem Schwerpunkt zugeordnet
Clusteranalyse V
Neuer Schwerpunkt in der Mitte der Objekte in einer Gruppe
Clusteranalyse VI
Abstand der Objekte und der Schwerpunkte wird erneut geprüft
Problem der Clusteranalyse
Je nach Wahl der Startpunkte für die Schwerpunkte, können sich andere Ergebnisse ergeben.
Lösung:
- Um möglichst gute Zuordnungen zu den Clustern zu erhalten, werden mehrere Durchläufe mit unterschiedlichen Startpunkten für die Schwerpunkte durchgeführt.
Begriffserklärung I
- Item: Ein Objekt.
- Itemset: Zusammenfassung von Items, die null, eins odere mehrere Items umfasst.
Begriffserklärung II
Support: Ist die relative Häufigkeit der Vorkommnisse eines Items in allen Einkäufen.
Einkauf:1 |
Milch, Käse, Brot |
Einkauf:2 |
Milch, Chips, Brot |
Einkauf:3 |
Milch, Chips |
- support(Milch) = 100%
- support (Brot) = 66,6%
- support (Milch, Brot) = 66,6%
Begriffserklärung III
Konfidenz: Gibt die Häufigkeit an, in der Item2 gekauft wird, wenn auch Item1 gekauft wird an.
Einkauf:1 |
Milch, Käse, Brot |
Einkauf:2 |
Milch, Chips, Brot |
Einkauf:3 |
Milch, Chips |
- confidence(Milch --> Brot) = 66,6%
- confidence (Brot --> Milch) = 100%
- confidence (Brot --> Chips) = 50%
Apriori-Algorithmus
- Algorithmus um eine Auflistung der häufig zusammen gekauften Items zu erstellen.
- Jedes Item wird einzeln überprüft, ob dessen Support größer als der Schwellensupport ist.
- Wenn der Schwellensupport bestanden wurde wird
- aus 1-elementigen Itemsets 2-elementige Itemsets
- dann wird der Support wieder mit dem Schwellensupport verglichen
- und aus 2-elementigen Itemsets 3-elementige Itemsets usw.
Beispiel I
Einkauf |
Itemset |
1. |
(Milch, Käse, Brot) |
2. |
(Milch, Brot, Chips) |
3. |
(Milch) |
4. |
(Joghurt, Zahnpasta, Saft) |
5. |
(Käse, Brot) |
Beispiel II
Support von 1 elementigen Itemsets |
support(Milch)=60% |
support(Käse)=40% |
support(Brot)=60% |
support(Joghurt)=20% |
support(Zahnpasta)=20% |
support(Saft)=20% |
support(Chips)=20% |
Schwellensupport |
>= 30% |
>= 30% |
>= 30% |
< 30% |
< 30% |
< 30% |
< 30% |
|
Beispiel III
Support von 2 elementigen Itemsets |
support(Milch, Brot)=40% |
support(Käse, Brot)=40% |
support(Milch, Käse)=20% |
Schwellensupport |
>= 30% |
>= 30% |
< 30% |
|
Beispiel IV
Support von 3 elementigen Itemsets |
support(Milch, Käse, Brot)=20% |
|
- confidence(Brot --> Milch) = 66,6%
- confidence(Milch --> Brot) = 66,6%
- confidence(Brot --> Käse) = 66,6%
- confidence(Käse --> Brot) = 100%
Ergebnis der Warenkorbanalyse I
Plazierung der Waren um Kunden möglichst viele Produkte zu zeigen
Ergebnis der Warenkorbanalyse II
Werbeaktionen mit gleichem Gewinn
Datenschutz
- Daten dürfen sich nicht auf die Person zurückführen lassen ohne die Einwilligungs dieser Person
- Clusteranalyse: Da sich die Daten zu den Personen zurückführen lassen ist hier eine Einwilligung erforderlich.
Aus diesem Grund gibt es Mitgliedskarten, die dem Kunden Rabatt im Tausch fü diese Daten bietet.
- Warenkorbanalyse: Diese Daten können sich nicht ohne unverhältnismäßig hohen Aufwand auf die Person zurückführen lassen.
Verabschiedung
Vielen Dank für ihre Aufmerksamkeit!
Noch Fragen?