Aggregation (OLAP)
Aggregation (auch Konsolidierung oder Verdichtung) bezeichnet, im Zusammenhang mit der Verwaltung großer Datenmengen in einem Data-Warehouse, das Zusammenfassen einer Reihe von Fakten zu einem einzelnen Fakt. Beispielsweise lassen sich aus einer Menge von Zahlen der Mittelwert, das Minimum bzw. Maximum oder die Summe bestimmen. Das Ergebnis wird dann stellvertretend für die Quelldaten verwendet. Der umgekehrte Weg wird als Verfeinerung bezeichnet.Aggregation und Verfeinerung sind Operationen des Online Analytical Processing (OLAP). Sie bilden einen Cube auf einen kleineren (Aggregation) oder größeren (Verfeinerung) Cube ab. Die Operationen finden entlang von Klassifikationspfaden statt und verändern somit die Klassifikationsstufen (auch: Konsolidierungsebenen) der einzelnen Dimensionen.
Die entsprechenden Operationen in einem DBMS werden auch als ?Roll up? und ?Roll/Drill_down? bezeichnet. Eine einfache Aggregation ist in SQL mittels
GROUP BY möglich. Werkzeuge für die memory-basierte Analyse können aufgrund der hohen Performance des Speichermediums Aggregationen zum Zeitpunkt der Abfrage der Informationen durchführen (Berechnung on-the-fly), und bieten daher besondere Flexibilität.
Beispiel
Ein Data-Warehouse enthält als einzelne Fakten Verkäufe nach Datum, Branche und Geschäft. Die Datumsdimension enthält einen Klassifikationspfad mit den Klassifikationsstufen Tag-Monat-Jahr-TOP. Durch Aggregation entlang dieses Pfades lässt sich bei Verwendung der Summenfunktion beispielsweise die Anzahl der Verkäufe nach Jahr, Branche und Geschäft ermitteln. Bei Aggregation auf die oberste Klassifikationsstufe TOP fällt die Datumsdimension zusammen; der Ergebniscube enthält die Gesamtanzahl der Verkäufe aller Zeiten nach Branche und Geschäft.
Aggregatfunktionen
Die bei einer Aggregation verwendeten Funktionen lassen sich unterteilen in
* Distributive Funktionen: Summe, Anzahl, Maximum, Minimum...
* Algebraische Funktionen: Mittelwert, Standardabweichung, Top-N...
* Holistische Funktionen: Median, Rang, Percentile...
Distributive und Algebraische Aggregatfunktion können aus einem oder einer festen Menge von Fakten aus tiefer liegenden Klassifikationsstufen berechnet werden, während bei holistischen Aggregatfunktionen auf die Grundgesamtheit aller Fakten zurückgegriffen werden muss.
Aggregierbarkeit
Nicht jede Art von Aggregation ist entlang eines bestimmten Klassifikationspfades möglich. Zu beachten sind
* Überlappungsfreiheit der Zuordnung von Klassifikationsknoten
* Vollständigkeit der Zerlegung pro Klassifikationsstufe
* Typverträglichkeit von Fakt und Aggregatfunktion
Siehe auch
Online Analytical Processing
Literatur
* Lenz und Shoshani: Summarizability in OLAP and Statistical Databases. SSDBM, 1997

