Was ist eine Kreuztabelle?
Bei einer Kreuztabelle, auch als Kontingenztabelle bezeichnet, handelt es sich um ein Analyseinstrument der deskriptiven Statistik, das oftmals in der Marktforschung angewandt wird. Kreuztabellen beinhalten die absoluten und relativen Häufigkeiten von Kombinationen zweier Merkmalsausprägungen einer statistischen Einheit. Sie liefern Erkenntnisse darüber, inwiefern die beiden untersuchten Variablen miteinander in Beziehung stehen. Generell lassen sich mithilfe von Kreuztabellen große Datenmengen kompakt zusammenfassen und strukturieren.
Beispielfragen für Kreuztabellen
Die folgenden Beispiele verdeutlichen, weshalb die Kontingenztabellen vor allem in der Marktforschung und dem Handelssektor relevant sind:
- Welche Obstsorte verkauft sich zu welcher Jahreszeit am besten?
- Präferieren bestimmte Altersgruppen bestimmte Produktfarben?
- Führt gesunde Ernährung zu einem längeren Leben?
- Verkaufen sich T-Shirts bestimmter Farben besser je nach Jahreszeit?
Daten und Einheiten einer Kontingenztabelle
Um eine klassische Kreuztabelle (engl. Crosstab) erstellen zu können, ist ein zweidimensionaler Datensatz erforderlich. Dieser sollte folgende Informationen beinhalten:
- Statistische Einheit: Hierbei handelt es sich um ein einzelnes Objekt in einer statistischen Erhebung. Die Einheiten werden auch als Merkmalsträger bezeichnet, da sie die Merkmale und Informationen in sich tragen, deren Zusammenhang ermittelt werden soll. Aus dem Datensatz muss hauptsächlich die Anzahl der statistischen Einheiten ersichtlich werden.
- Merkmale: Im statistischen Kontext werden Merkmale vorwiegend als Variablen bezeichnet, ihnen sind jeweils mehrere Merkmalsausprägungen zuzuschreiben. Mit einer Kreuztabelle kann die Beziehung zweier Variablen (Merkmal 1 und 2) untersucht werden, wobei vorab festzulegen ist, welches Merkmal als Ursache und welches als Auswirkung betrachtet wird.
- Merkmalsausprägungen: Die Merkmalsausprägungen gestalten sich entsprechend der Merkmale und sind in ihrer Anzahl grundsätzlich unbegrenzt – dennoch empfiehlt es sich, die Merkmalsausprägungen überschaubar zu halten und pro Merkmal nicht mehr als etwa fünf zur Untersuchung heranzuziehen.
Aus dem vorliegenden Datensatz sollte demnach hervorgehen, welche Merkmale von statistischen Einheiten untersucht werden und wie häufig welche Kombination zweier Ausprägungen auftritt.
Datensatz des Beispiels
Für die untenstehende Beispiel-Kreuztabelle sähen die Daten wie folgt aus:
- Statistische Einheit: verkauftes T-Shirt
- Anzahl der statistischen Einheiten: 500
- Merkmale (Variablen): Farbe (Merkmal 1) und Jahreszeit (Merkmal 2)
- Merkmalsausprägungen Merkmal 1: blau, grün, gelb und rot
- Merkmalsausprägungen Merkmal 2: Frühling, Sommer, Herbst und Winter
Wie funktioniert eine Kreuztabelle?
Die grundlegende Funktion einer Kreuztabelle besteht darin, zwei nominal skalierte Variablen „über Kreuz zu legen“. Dies bedeutet, dass innerhalb einer Tabelle zwei Häufigkeitsauszählungen miteinander kombiniert werden – die der ersten und die der zweiten untersuchten Variable. Aus diesem Grund wird auch von Häufigkeitstabellen gesprochen. Jede einzelne statistische Einheit fließt mit ihren jeweils zwei erhobenen Merkmalsausprägungen in die Kreuztabelle ein. Dadurch lässt sich erkennen, mit welcher Häufigkeit die verschiedenen Kombinationen von Merkmalsausprägungen gegeben sind. Ausgehend von dieser Grundlage können wiederum verschiedene Erkenntnisse abgeleitet und weiterführende Untersuchungen vorgenommen werden.
Erkenntnisse aus einer Kreuztabelle
Ist eine Kreuz- bzw. Häufigkeitstabelle mit sämtlichen relevanten Daten gefüllt, können daraus mehrere Erkenntnisse gewonnen werden. Hierzu gibt es verschiedene Vorgehensweisen.
Absolute und relative Häufigkeiten
Die in der Kontingenztabelle eingetragenen Daten können als absolute sowie relative Häufigkeiten ausgedrückt werden:
- Bei absoluten Häufigkeiten handelt es sich um die zeilen- bzw. spaltenweise Summierung der einzelnen Häufigkeiten jeder untersuchten Merkmalsausprägung.
- Zum Erhalt der relativen Häufigkeiten hingegen werden die absoluten Werte (ganze Zahlen) in Relation zur Gesamtheit aller statistischen Einheiten gesetzt.
Mithilfe der relativen Häufigkeiten kann der prozentuale Ansatz einer jeden Kombination von Ausprägungen ermittelt werden, was wiederum die Darstellung in Form von Diagrammen (z. B. Streifen- oder Kreisdiagramme) ermöglicht.
Signifikanz der Kreuztabelle mit Chi-Quadrat-Analyse
Der Chi-Quadrat-Unabhängigkeitstest dient der Überprüfung der statistischen Signifikanz einer Kreuztabelle. Es wird also die Wahrscheinlichkeit ermittelt, ob die Häufigkeitsverteilungen und daraus erschlossenen Zusammenhänge nicht bloß zufällig sind. Im Falle der Kontingenztabelle handelt es sich dabei um die Beziehung der beiden untersuchten Variablen. Es gilt herauszufinden, inwieweit sie abhängig bzw. unabhängig sind und die Ergebnisse der statistischen Erhebung demnach als signifikant oder nicht gelten.
Der Chi-Quadrat-Test sieht zunächst die Berechnung eines Chi-Quadrat-Wertes für jede einzelne Zelle vor, der dann zu einem Gesamtwert für die Tabelle zusammengefasst wird. Die grundlegende Formel gestaltet sich dabei folgendermaßen:
(Beobachteter Wert – Erwarteter Wert)² / (Erwarteter Wert) = Chi-Quadrat-Wert
Der erwartete Wert ergibt sich, in dem die Randhäufigkeiten multipliziert und durch ihre Gesamtsumme dividiert werden. Bewegt sich die durch die obige Formel erhaltene Prozentzahl zwischen .05 und 5, gelten die Ergebnisse als statistisch signifikant.
Aufbau einer klassischen Kreuztabelle – Beispiel
Das nachfolgende Beispiel zeigt, wie sich eine klassische Kreuztabelle gestaltet und welche Erkenntnisse daraus gewonnen werden können. Die Fragestellung lautet:
Verkaufen sich T-Shirts bestimmter Farben besser je nach Jahreszeit?
Es gilt herauszufinden, ob ein Zusammenhang zwischen den hier gewählten hypothetischen Variablen Farbe und Jahreszeit besteht – und falls dem so ist, um welchen es sich dabei handelt.
Der hierzu erdachte Datensatz wird folgendermaßen in einer Kreuztabelle visualisiert:
Abbildung 1 Kreuztabelle / Kontingenztafel Qualtrics
Die im rot markierten Bereich der Kontingenztabelle liegenden Verteilungen werden als gemeinsame empirische Häufigkeiten bezeichnet – die daneben und darunter eingetragenen Zahlen stellen die sogenannten Randhäufigkeiten dar.
Da in diesem Beispiel pro Jahreszeit jeweils ein erhöhter Farbwert zu erkennen ist (grün im Frühling, gelb im Sommer, rot im Herbst und blau im Winter), besteht Grund zur Annahme, dass ein Zusammenhang zwischen der Jahreszeit und der Farbe des verkauften T-Shirts besteht.
Die prozentualen Anteile der einzelnen Farben (berechnet anhand der relativen Häufigkeiten) je nach Jahreszeit können nun in einem Streifendiagramm abgebildet werden. Dadurch wird die Beziehung der Variablen zueinander noch deutlicher:
Abbildung 2 Auswertung Kreuztabelle Qualtrics
Vorteile von Kreuztabellen
Mithilfe von Kreuztabellen können Beziehungen zweier Variablen zueinander untersucht werden. Die simple Anordnung der Daten in einer Kreuztabelle ermöglicht einen ersten Überblick über komplexe Zusammenhänge und bringt zudem folgende generelle Vorteile mit sich:
- Übersichtlichkeit: Große Datenmengen lassen sich in Kreuztabellen gut strukturieren, zusammenfassen und einfach veranschaulichen.
- Auswertung: Die Ergebnisse einer Kreuztabelle können leicht ausgewertet werden. Es ist kein kompliziertes Verfahren nötig.
- Verbindung: Auch der Zusammenhang zwischen zwei Variablen mit unterschiedlichem Skalenniveau (bspw. einer Nominal- oder Ordinalskala) kann anhand einer Kreuztabelle ermittelt werden.
Probieren Sie Qualtrics noch heute aus