Grundbegriffe der beschreibenden Statistik
\(~\)
|
Beschreibende Statistik Die Aufgabe der beschreibenden oder auch deskriptiven Statistik ist die Analyse einer gegebenen Menge an Daten. Das Ziel ist es, diese Daten durch Kenngrößen, Tabellen oder Grafiken übersichtlich darzustellen und abzubilden. Dies ist vor allem bei sehr umfangreichem Material nützlich, da dies schwer zu überblicken ist. |
\(~\)
|
Definition Als Grundgesamtheit bezeichnet man eine Menge von Subjekten oder Objekten, die hinsichtlich gewisser Eigenschaften, Merkmale oder Zusammenhänge untersucht werden sollen. Beobachtet man nicht jedes Element, sondern nur eine endliche Teilmenge der Grundgesamtheit, so sagt man, dass eine Stichprobe erhoben wird. In dieser Situation besteht die Aufgabe der Statistik darin, aus dem Befund der Stichprobe begründete Schlüsse über die Verhältnisse in der Grundgesamtheit zu ziehen. Daher sollte die Stichprobe die für die Untersuchung bedeutsamen Eigenschaften der Grundgesamtheit möglichst genau abbilden. Eine Stichprobe heißt Zufallsstichprobe vom Umfang \(n\), wenn sie \(n\) Elemente enthält, die jeweils zufällig aus einer Grundgesamtheit ausgewählt wurden. Fasst man das untersuchte Merkmal als eine Zufallsgröße \(X\) auf, so nennt man die Zufallsgrößen \(X_1, X_2, \dots, X_n\) zufällige Stichprobe vom Umfang n, falls diese zu unabhängigen Teilvorgängen gehören und die gleiche Verteilung wie \(X\) besitzen. |
\(~\)
|
Beispiel
|
\(~\)
|
Definition Die Urliste oder auch Beobachtungsliste ist das direkte Ergebnis einer Erhebung von statistischen Daten. Sie bezeichnet eine ungeordnete Zusammenstellung von erhaltenen Angaben, die in der Reihenfolge der Beobachtung erfasst wurden. Eine Sortierung erfolgt in der Regel danach. |
\(~\)
|
Beispiel
|
\(~\)
|
Skalenarten Eine Skala ist die Maßeinteilung einer Größe. In der Statistik unterscheidet man die folgenden vier Skalenarten. Nominalskala: Nominalskalierte Merkmale haben nur eine endliche Anzahl an Ausprägungen und können nicht nach irgendeiner Rangfolge geordnet werden. Ein Beispiel ist das Merkmal "Farbe". Man kann einfach nicht sagen, ob die Farbe "blau" besser ist als die Farbe "rot". Beispiele: Farben, Telefonnummer, Straße, Postleitzahl, Geschlecht, ... Ordinalskala (Rangskala): Ordinalskalierte Daten haben auch nur eine endliche Zahl von möglichen Ausprägungen. Allerdings können sie, im Gegensatz zur Nominalskala, in eine natürliche Rangfolge gebracht werden. Meistens sind dies Antworten in einem Test, die auf einer Skala wie etwa trifft sehr zu / trifft eher zu / trifft eher nicht zu / trifft nicht zu gegeben werden. Man kann hier allerdings keine Abstände zwischen den einzelnen Ausprägungen interpretieren, sondern nur sagen, dass eine Ausprägung größer als die andere ist. Beispiele: Rangfolgen, Platzierungen (Platz 1, Platz 2, usw.), Windstärke, Schulnoten (sehr gut, gut, usw.), ... Intervallskala: Intervallskalierte Daten können, genau wie bei der Ordinalskala, Zahlenwerte annehmen (auch unendlich viele). Damit ist also wieder eine Ordnung mittels einer Rangfolge möglich. Auf solch einer Skala kann man aber sinnvoll Abstände bzw. Differenzen definieren. Diese Skala hat allerdings keinen Nullpunkt, d.h. man kann keine Verhältnisse bilden. Ein typisches Beispiel dafür ist die Temperaturskala in Grad Celsius. Man kann Differenzen bilden ("morgen wird es 10 Grad kälter als heute"), aber keine Verhältnisse ("morgen wird es doppelt so kalt wie heute"). Wenn heute null Grad sind, was ist dann "doppelt so kalt"? Beispiele: Temperaturen, Intelligenzquotient, Längengrade auf der Erde, Kalenderzeit, ... Achtung! Schulnoten werden häufig fälschlicherweise zur Intervallskala gezählt (häufig wird beispielsweise ein Durchschnitt berechnet). Verhältnisskala: Verhältnisskalierte Daten haben im Unterschied zur Intervallskala einen absoluten Nullpunkt. Als Beispiel kann man hier die Längenmessung in Metern nennen. 0m ist die kleinstmögliche Ausprägung, weniger als dies kann eine Länge nicht sein. Außerdem können mit dieser Art Skala nun auch Verhältnisse angeben, denn ein Weg von 200m ist doppelt so lang wie einer von 100m. Beispiele: Längenmaße, Gewicht, Einkommen, Größen, Temperatur in Kelvin, ...
Die beiden letzten Skalenarten fasst man auch häufig unter dem Begriff metrische Skala zusammen.
\(~\) Quelle: http://labcompendium.org/E/Definitions/E-Zeichen.htm \(~\) |
\(~\)
|
Definition Ein Merkmal ist eine Eigenschaft der befragten Personen oder untersuchten Objekte, die Gegenstand der Befragung, Zählung oder Messung sind. Wir unterscheiden in qualitative und quantitative Merkmale.
Quantitative Merkmale können gezählt und gemessen werden. Die Merkmalsausprägungen lassen sich also durch Zahlen oder Größenwerte ausdrücken. Daher können sie auf einer Intervall- oder Verhältnisskala angegeben werden.
Bei qualitativen Merkmalen ist dies nicht möglich. Diese Merkmale können nur festgestellt oder möglicherweise verglichen werden und werden daher auf Nominal- oder Ordinalskalen angegeben.
Merkmale können außerdem noch eingeteilt werden in stetige und diskrete Merkmale. Wie schon bei den Zufallsgrößen bedeutet auch hier diskret, dass nur endlich viele oder abzählbar unendlich viele Werte angenommen werden können. Bei stetigen Merkmalen sind unendlich viele Ausprägungen möglich, aber diese sind nicht mehr abzählbar. |
\(~\)
|
Beispiel Die nachfolgende Tabelle zeigt einige Beispiele für qualitative und quantitative Merkmale inklusive möglicher Merkmalsausprägungen.
|
\(~\)
|
Definition Die Daten einer Erhebung liegen zunächst ungeordnet in Form einer Urliste vor. Um die Daten nun übersichtlicher darstellen zu können, werden sie in Form einer Häufigkeitstabelle gebracht. Diese zeigt für jede mögliche Ausprägung des erhobenen Merkmals, wie oft diese vorgekommen ist. In der ersten Spalte notiert man üblicherweise die Indizes \(j\), welche den jeweiligen Ausprägungen zugeordet sind. Die nachfolgende Spalte benennt nochmals die verschiedenen Merkmalsausprägungen.
Danach folgt die absolute Häufigkeit \(H_j\). Diese entspricht einfach der Auszählung der erhobenen Daten. Um nun schneller zu sehen, wie groß die Anteile der einzelnen Merkmale sind, wird in der nächsten Spalte die relative Häufigkeit angegeben.
Sind \(n\) Beobachtungen gegeben, so ist die relative Häufigkeit \(h_j\) definiert als \(h_j = \frac{H_j}{n}\). Oftmals werden auch kumulierte Häufigkeiten mit angegeben. Dabei werden die gegebenen Häufigkeiten einfach bis zur aktuellen Zeile aufsummiert.
Bei absoluten Häufigkeiten ergibt sich dabei in der letzten Zeile eine kumulierte Häufigkeit von \(n\), bei relativen Häufigkeiten erhält man am Ende die Summe \(1\). |
\(~\)
|
Beispiel Wir betrachten hier ein Beispiel mit nominalskalierten Daten. Diese besitzen meist nur wenige Merkmalsausprägungen, weshalb die Darstellung in einer Häufigkeitstabelle besonders übersichtlich wird. In diesem Fall sei von 90 Personen die jeweilige Augenfarbe ermittelt worden. Durch Auszählung einer Urliste könnte sich nun die folgende Häufigkeitstabelle ergeben.
|
\(~\)
|
Klasseneinteilung Bei statistischen Untersuchungen ist es oft nicht möglich oder sinnvoll, alle einzelnen Merkmalsausprägungen zu erheben. Das trifft insbesondere auf Merkmale zu, deren Anzahl von Ausprägungen sehr groß ist. Durch eine Einteilung in Klassen kann dann eine bessere Übersicht über die Daten erreicht werden. Klassen sind sich nicht überlappende, aneinandergrenzende Intervalle von Merkmalswerten, die durch eine untere und eine obere Klassengrenze eindeutig festgelegt sind. Häufig wählt man dazu halboffene Intervalle. Eine Klasseneinteilung ist eine Zusammenfassung von ähnlichen Merkmalsausprägungen zu einer Klasse. Nachteil ist dabei natürlich der Informationsverlust, da nur noch die Klassen und nicht mehr die einzelnen Ausprägungen betrachtet werden. |
\(~\)
|
Bemerkung Für die Festlegung der einzelnen Klassen gibt es keine allgemeingültige Lösung. Die Einteilung ist meist willkürlich und subjektiv. Es gibt jedoch einige Faustregeln, an die man sich halten sollte.
|
\(~\)
|
Beispiel Wir betrachten die Abiturdurchschnittsnoten von 50 zufällig ausgewählten Abiturienten. Dabei sei die folgende Urliste gegeben.
Nun steht die Frage nach einer Klasseneinteilung. Hier soll zunächst einmal eine feste Klassenbreite verwendet werden. Betrachten wir die Regeln zur Anzahl der zu bildenden Klassen, so ergibt sich \(k \approx \sqrt{50} \approx 7.07\) bzw. \(k \approx 1+3.32\log_{10} (50) \approx 6.64\). Wählt man also die Klassen
Noch eine kurze Erinnerung: Trotzdessen, dass Schulnoten auch durch Zahlenwerte veranschaulicht werden, gehören sie zur Ordinal- bzw. Rangskala (siehe oben). |
\(~\)