Kleine Stichproben. Spitzen- und Extremleistungen. Kein Bezug zu einer echten Grundgesamtheit. Die klassische Frequentistische Statistik stößt hier systematisch an ihre Grenzen – Bayesianische Methoden bieten einen prinzipiell sinnvollen Weg.
Zum Vergleich ↓Die Forschung in den Exercise Sciences steht vor einem grundlegenden methodologischen Problem: Sie untersucht häufig Spitzen- und Weltklasse-Athleten – eine Population, die per Definition keine Grundgesamtheit in statistischem Sinne bildet. Ein Läufer, der die 1500 m in unter 3:30 min absolviert, ist kein zufälliges Sample aus einer normalverteilten Grundgesamtheit. Er ist ein singuläres Phänomen mit ganz individuellen Voraussetzungen und Reaktionen auf Trainingsreize.
McLean et al. (2021) identifizieren in ihrer Systemanalyse der Exercise Sciences grundlegende Probleme: Überbetonung quantitativer Methoden, mangelnde ökologische Validität, einen tiefen Graben zwischen Forschung und Praxis. Methodologische Debatten wie jene um Magnitude-Based Inference (Lohse et al. 2020) zeigen, dass das Feld selbst nach besseren Wegen sucht. Bayesianische Statistik ist nicht nur eine technische Alternative – sie ist ein ergänzender, epistemologisch kohärenterer Rahmen für Exercise Sciences.
Das grundlegende Problem: Der p-Wert beantwortet die Frage „Wie wahrscheinlich ist das Ergebnis, wenn bei einer Intervention die Nullhypothese widerlegt werden kann?" – Wichtig sein kann aber auch die Frage: „Wie wahrscheinlich ist der Effekt meiner Intervention für ein Individuum?" Das ist eine fundamental andere Frage. Nur Bayesianische Statistik beantwortet sie direkt. Diaz-Quijano et al. (2020) zeigen, dass selbst Wissenschaftler, die statistischer Signifikanz abschwören wollen, diese in der Praxis kaum vermeiden können – ein deutliches Zeichen dafür, dass es auch andere Zugehensweisen braucht.
Zwei Paradigmen, zwei grundlegend verschiedene Fragen an die Daten – und unterschiedliche Antworten auf das Problem kleiner Stichproben.
Ein Sprinter absolviert 8 Testläufe: 6 mal unter Bedingung A, 2 mal unter Bedingung B. Beide Verfahren analysieren identische Daten – mit fundamental unterschiedlichen Schlussfolgerungen.
t-Test (abhängige Stichproben):
t(9) = 1.74, p = 0.116
Problem: Bei n = 11 ist die Power minimal. Ein echter Effekt von 0,18 s würde mit >80% Wahrscheinlichkeit übersehen. Das Ergebnis sagt buchstäblich nichts.
Prior: Normal(0.15, 0.10) s basierend auf Literatur
BF₁₀ = 3.8 · 95% HDI: [0.04, 0.32] s
Studien im Hochleistungsbereich sind meist strukturell inkompatibel mit den Grundannahmen frequentistischer Statistik. Argumente::
n = 3–12 ist die Realität im Hochleistungssport. Hypothesen-Testung liefert bei dieser Power systematisch unzuverlässige Ergebnisse. Bayes stabilisiert durch Priors.
Weltklasse-Athleten haben keine Grundgesamtheit. Es gibt kein valides Sampling-Modell. Bayesianische Schätzung arbeitet ohne diese Annahme.
Jahrzehnte physiologischer Forschung liegen vor. Bayesianische Priors erlauben explizite Nutzung dieses Wissens – statt es zu ignorieren.
Individuelle Trainingssteuerung erfordert individuelle Schätzung. Bayes erlaubt sequentielle Updates mit jeder neuen Messung.
Im Sport entscheiden Zehntel- oder Hundertstelsekunden. Bayes liefert vollständige Verteilungen über Effektgrößen – nicht nur binäre Entscheidungen.
vollständige Verteilungen über Effektgrößen – nicht nur binäre Entscheidungen.McLean et al. (2021) zeigen: Sportwissenschaft leidet am Transfer-Problem. Bayesianische Schätzung mit Priors macht Wissen kumulativ und transferierbar.
Seit 1950 wurden fast 3000 Studien publiziert. Die Ergebnisse hinsichtlich der Übereinstimmung von Zwillingen sind sehr stabil und damit ein Argument für Bayes.
Eine besonders umfassendste Meta-Analyse der Humangenetik – Polderman et al. (2015, Nature Genetics) – fasste 2.748 Zwillingsstudien mit über 14,5 Millionen Zwillingspaaren und 17.804 Merkmalen zusammen. Das Ergebnis ist eindeutig: Kein einziges menschliches Merkmal hat eine Heritabilität von null – alle Eigenschaften sind zu einem erheblichen Teil genetisch bedingt. Aber eben nur zu einem Teil.
Das entscheidende Ergebnis für die Trainingswissenschaft: Selbst bei genetisch identischen eineiigen Zwillingen beträgt die durchschnittliche Korrelation physiologischer Merkmale nur rMZ ≈ 0,64 – das bedeutet, 36% der Varianz ist selbst bei gleicher DNA individuell. Für motorische, kardiovaskuläre und metabolische Leistungsmerkmale gilt: Der Genotyp setzt Grenzen und Möglichkeiten, aber der individuelle Phänotyp ist stets einmalig. Zudem zeigt die Studie, dass 69% aller Merkmale einem rein additiv-genetischen Modell folgen – was die individuelle Vorhersage statistisch gut modellierbar macht.
„Not one trait had a weighted heritability estimate of zero. [...] Roughly two-thirds of traits show a pattern of twin correlations consistent with a simple model whereby trait resemblance is solely due to additive genetic variation." Polderman et al. (2015) – Nature Genetics
Wenn selbst genetisch identische Menschen physiologisch so verschieden sind – was bedeutet dann der Mittelwert einer Gruppe von 20 Athleten verschiedener Herkunft, Alters und Trainingshintergrundes? Gruppenstatistik ist nützlich für Populationsaussagen. Für die individuelle Trainingssteuerung eines konkreten Athleten ist sie oft irreführend.
Physiologische Beispiele aus der Leistungsdiagnostik: Laktatschwelle, VO₂max, Economy-Parameter und Wattleistung weisen alle ausgeprägte individuelle Kurvenverläufe auf – die aus Zwillingsdaten geschätzte Heritabilität für kardiorespiratorische Fitness liegt bei h² ≈ 0,47–0,60 (metabolisch-kardiovaskuläres Domänen-Cluster, Polderman et al., 2015). Die restlichen 40–53% sind individuell formbar – und genau deshalb braucht jeder Athlet seine eigene Bayes'sche Schätzung.
Der Bayes Factor (BF) ist das Herzstück bayesianischen Hypothesentestens. Er quantifiziert, wie stark die Daten eine Hypothese gegenüber einer anderen stützen – und kann, anders als der p-Wert, Hypothesen auch quantitativ bestätigen.
„Without Bayesian statistics, we couldn't say anything if a simple inferential analysis like a t-test yielded p > 0.05. With Bayesian statistics, it is now possible to state rigorously that the alternative is 100 times more likely than the null." Rosenfeld & Olson (2021) – Applied Psychophysiology and Biofeedback
Die Interpretation des Bayes Factors folgt einer etablierten Skala (Schönbrodt & Wagenmakers, 2018):
| Bayes Factor BF₁₀ | Evidenzkategorie | Praktische Bedeutung |
|---|---|---|
| > 100 | Extreme Evidenz für H₁ | Sehr starker Befund; Effekt praktisch sicher |
| 30 – 100 | Sehr starke Evidenz für H₁ | Hohe Konfidenz; gut replizierbar |
| 10 – 30 | Starke Evidenz für H₁ | Überzeugender Befund |
| 3 – 10 | Moderate Evidenz für H₁ | Substantieller Hinweis; weitere Daten sinnvoll |
| 1 – 3 | Anekdotische Evidenz für H₁ | Schwacher Hinweis; keine belastbare Schlussfolgerung |
| 1 | Keine Evidenz | Daten unterscheiden H₀ und H₁ nicht |
| 1/3 – 1 | Anekdotische Evidenz für H₀ | Schwacher Hinweis auf Nulleffekt |
| 1/10 – 1/3 | Moderate Evidenz für H₀ | Substantieller Hinweis auf Nulleffekt |
| < 1/10 | Starke – extreme Evidenz für H₀ | Überzeugender Beleg für Abwesenheit eines Effekts |
Kostenlose Software: JASP (jasp-stats.org) und BAYAS (Waterkamp & Hoffmann, 2025; bayas.zmb.uni-due.de) ermöglichen Bayesianische Analysen ohne Programmierkenntnisse.
Kernliteratur für den Bayesianischen Ansatz in den Exercise Sciences.
Wie wir Bayes in RAES umsetzen: Jede Forschungssäule auf dieser Website präsentiert – wo verfügbar – sowohl frequentistische als auch bayesianische Analysen im direkten Vergleich. Priors werden explizit begründet. Bayes Factors und Posteriori-Verteilungen werden visualisiert. Das Ziel: transparente, kumulative und praxisrelevante Wissenschaft.
Drei miteinander verbundene Seiten zeigen den vollständigen Weg vom physiologischen Grundlagenwissen bis zur bayesianischen Individualisierung – am konkreten Beispiel des 1500-m-Laufs.