Inhalt:
Es werden hier einige für das Verständnis wichtige Begriffe und Verfahren erläutert. Statistik ist eine mathematische Disziplin, also geht es nicht ohne Mathematik. Wir werden uns aber bemühen, die Dinge so einfach wie irgend möglich zu halten.
Zählgrößen – Verhältnisgrößen
Unter Zählgrößen verstehen wir solche, bei denen irgendetwas einfach nur gezählt wird, zum Beispiel Hits, Homeruns, Strikeouts, Earned Runs.
Da die reine Anzahl gewöhnlich nicht besonders viel aussagt, werden Verhältnisgrößen gebildet. Dabei werden gezählte Größen ins Verhältnis gesetzt nach dem Schema "so und so viele x pro y". Dadurch entstehen Durchschnittswerte.
Bekannte Beispiele sind Batting Average oder Earned Runs Average.
Stichproben, Stabilisierung
Unter einer Stichprobe verstehen wir einen Satz von ermittelten Größen, zum Beispiel die Ergebnisse aller At Bats in einem Spiel oder besser einer Saison. Jeder wird wissen, dass bei kleinen Stichproben (im Beispiel bei wenigen At Bats) die Durchschnittswerte erheblich schwanken und so gut wie keine Bedeutung haben.
Nehmen wir als Beispiel einen Münzwurf als klassisches Zufallsexperiment. Wir setzen die Münze als absolut symmetrisch voraus. Dann wird sie mit einer Wahrscheinlichkeit von je exakt 50% Kopf oder Zahl zeigen. Werfen wir eine solche Münze etwa 10mal, so wird man intuitiv annehmen, dass je 5mal Kopf und Zahl kommen. Allerdings ist in der Realität dies gewöhnlich nicht der Fall. Vielmehr kommen Folgen wie diese nicht selten vor: K K Z K Z Z Z K Z Z. Man würde in diesem Beispiel also relative Häufigkeiten von 40% für Kopf und 60% für Zahl beobachten. Jeder kennt ähnliches zum Beispiel beim Würfeln, wo es durchaus vorkommen kann, dass jemand dreimal hintereinander eine 6 würfelt oder 20mal hintereinander keine 6. Eine geringe Zahl von Wiederholungen, also eine kleine Stichprobe, weist naturgemäß heftige Schwankungen auf. Wiederholt man solch ein Zufallsexperiment aber sehr oft, so stabilisieren sich die Werte schließlich. Interessant wäre hier die Frage, was "sehr oft" bedeutet, also wie oft wiederholt werden muss, um eine Stabilisierung zu erreichen. Hier wird es kompliziert. Wir beschränken uns auf einige Hinweise bei einigen betreffenden Größen.
Korrelation
Das Wort klingt schon verdächtig kompliziert, mit Recht. Aber der Grundgedanke ist einfach. Man interessiert sich hier dafür, ob zwei Größen auf irgendeine Weise miteinander zusammen hängen. Sehen wir uns ein paar Beispiele an:
Nehmen wir Metallkugeln aus demselben Material. Dann besteht zwischen Durchmesser (also Größe) und Gewicht ein sehr starker Zusammenhang. Das dürfte unmittelbar einleuchten. Betrachten wir bei Kindern des selben Alters Größe und Gewicht. Hier sieht es schon weniger deutlich aus, es gibt kleine dicke und große dünne. Also sind sicherlich nicht immer kleinere auch gleichzeitig schwerer. Aber immerhin dürfte eine Tendenz bestehen, dass im allgemeinen größere Kinder auch eher schwerer sind.
Vergleichen wir bei Autos die Farbe mit der Höchstgeschwindigkeit, so erwarten wir wohl keinen Zusammenhang. Dennoch könnte es möglich sein, dass ein versteckter Zusammenhang besteht, etwa, weil Sportwagen häufiger rot sind als Familienkutschen.
Mit der Korrelation versucht man, ein Maß zu finden, das solche Zusammenhänge zahlenmäßig erfasst. Dabei bedeutet ein Wert von 1 absolute Korrelation, wie im ersten Beispiel. Es gibt da einen funktionalen Zusammenhang. Ein Wert 0 bedeutet, dass keinerlei Zusammenhang besteht. Werte dazwischen sind die häufigsten und bedeuten eine stärkere oder schwächere Korrelation. Wer sich für näheres interessiert, natürlich auf Baseball bezogen, findet dazu einiges bei den Offensivstatistiken.
Run Expectancy Matrix (RE 24)
Eine etwas holprige Übersetzung wäre Run-Erwartungs-Matrix. Aber was bedeutet das?
Eine Matrix ist ein rechteckiges Zahlenschema, also praktisch eine Tabelle. Im hier vorliegenden Fall wird aufgelistet, wie viele Runs durchschnittlich in jeder der 24 möglichen Spielsituationen erzielt wurden. Eine Spielsituation bedeutet dabei eine Kombination aus Anzahl der Aus und Besetzung der Bases. Es gibt 8 Möglichkeiten, wie die Bases besetzt sein können: keine Runner, genau 1 Runner (3 Möglichkeiten), genau 2 Runner (3 Möglichkeiten) und Bases Loaded. Es gibt 3 Möglichkeiten für die Anzahl der Aus, nämlich 0, 1 und 2 Aus. Das macht dann zusammen eben die genannten 8x3=24 Kombinationen.
Von Jahr zu Jahr schwanken die Werte, weisen aber eine erstaunliche Stabilität auf.
Wie werden die Werte nun ermittelt? Sagen wir, wir sind interessiert am Jahr 2015. Dann lässt sich mit den geeigneten Hilfsmitteln recht problemlos bestimmen, wie oft jede der 24 Base-Aus-Situationen vorkam und wie viele Runs jeweils in diesem Inning erzielt wurden. Prinzipiell muss dazu jedes einzelne Scoresheet analysiert werden, was schlimmer klingt als es ist. Auf der Seite Retrosheet.org sind die benötigten Informationen online verfügbar und lassen sich automatisiert untersuchen. Hier ist das Ergebnis für besagtes Jahr 2015 (Quelle: www.tangotiger.net/re24.html ).
Ein x bezeichnet einen Runner auf Base.
0 Aus | 1 Aus | 2 Aus | |
---|---|---|---|
- - - | 0.479 | 0.2572 | 0.0996 |
x - - | 0.8427 | 0.5004 | 0.2203 |
- x - | 1.0762 | 0.6487 | 0.3154 |
- - x | 1.3045 | 0.8916 | 0.3606 |
x x - | 1.4399 | 0.8919 | 0.4361 |
x - x | 1.6682 | 1.1348 | 0.4813 |
- x x | 1.9017 | 1.2831 | 0.5764 |
x x x | 2.2654 | 1.5263 | 0.6971 |
Wir stellen ohne Überraschung fest, dass der kleinste Wert oben rechts auftaucht. Bei leeren Bases und 2 Aus wurden 2015 im Schnitt rund 0,1 Runs erzielt. Der Maximalwert tritt ebenfalls nicht überraschend bei Bases Loaded und keinem Aus auf. Hier wurden im Schnitt mehr als 2,2 Runs erzielt.
In solchen Jahren, da überdurchschnittlich viele Runs pro Spiel gescort wurden, sind die Werte naturgemäß höher. Das Ausreißer-Jahr ist 1998 auf dem Höhepunkt der Dopingära. Viele werden mit den Namen Barry Bonds und Mark McGwire etwas anfangen können.
Hier kommt ein einfaches Beispiel, wozu eine solche Tabelle nutzbringend verwendet werden kann. Nehmen wir einen einzelnen Runner auf dem 1. Base an, weniger als 2 Aus. Wie sinnvoll ist es dann, einen Sacrifice Bunt anzuordnen? Bei 0 Aus und einem erfolgreichen Bunt ändert sich der Erwartungswert von 0,8427 zu 0,6487. Bei 1 Aus lauten die Werte 0,5004 und 0,3154. In beiden Fällen sinkt also die Chance, Runs zu erzielen.
Selbstverständlich ist hierbei nicht berücksichtigt, wer der Batter ist. Handelt es sich um einen schwachen Batter (z.B. den Pitcher in der NL) oder einen, der dafür berüchtigt ist, in ziemlich viele Double Plays zu schlagen, kann ein Sacrifice dennoch von Vorteil sein.