RAES
Bayesianische Modellierung
Modellrahmen · Personalisierung · N=1 Validierung
Methodologischer Rahmen

Bayes-Statistik in Exercise Sciences

Kleine Stichproben. Spitzen- und Extremleistungen. Kein Bezug zu einer echten Grundgesamtheit. Die klassische Frequentistische Statistik stößt hier systematisch an ihre Grenzen – Bayesianische Methoden bieten einen prinzipiell sinnvollen Weg.

Zum Vergleich ↓

Die Forschung in den Exercise Sciences steht vor einem grundlegenden methodologischen Problem: Sie untersucht häufig Spitzen- und Weltklasse-Athleten – eine Population, die per Definition keine Grundgesamtheit in statistischem Sinne bildet. Ein Läufer, der die 1500 m in unter 3:30 min absolviert, ist kein zufälliges Sample aus einer normalverteilten Grundgesamtheit. Er ist ein singuläres Phänomen mit ganz individuellen Voraussetzungen und Reaktionen auf Trainingsreize.

McLean et al. (2021) identifizieren in ihrer Systemanalyse der Exercise Sciences grundlegende Probleme: Überbetonung quantitativer Methoden, mangelnde ökologische Validität, einen tiefen Graben zwischen Forschung und Praxis. Methodologische Debatten wie jene um Magnitude-Based Inference (Lohse et al. 2020) zeigen, dass das Feld selbst nach besseren Wegen sucht. Bayesianische Statistik ist nicht nur eine technische Alternative – sie ist ein ergänzender, epistemologisch kohärenterer Rahmen für Exercise Sciences.

⚠️

Das grundlegende Problem: Der p-Wert beantwortet die Frage „Wie wahrscheinlich ist das Ergebnis, wenn bei einer Intervention die Nullhypothese widerlegt werden kann?" – Wichtig sein kann aber auch die Frage: „Wie wahrscheinlich ist der Effekt meiner Intervention für ein Individuum?" Das ist eine fundamental andere Frage. Nur Bayesianische Statistik beantwortet sie direkt. Diaz-Quijano et al. (2020) zeigen, dass selbst Wissenschaftler, die statistischer Signifikanz abschwören wollen, diese in der Praxis kaum vermeiden können – ein deutliches Zeichen dafür, dass es auch andere Zugehensweisen braucht.

Frequentistisch vs. Bayesianisch

Zwei Paradigmen, zwei grundlegend verschiedene Fragen an die Daten – und unterschiedliche Antworten auf das Problem kleiner Stichproben.

Frequentistische Statistik
Fisher · Neyman–Pearson · NHST
Fisher (1925) Neyman & Pearson (1933) Cohen (1994) Wasserstein & Lazar (2016) Mayo & Hand (2022)
Kernfrage
Wie wahrscheinlich sind diese Daten, falls H₀ gilt?
📊
Ergebnis
p-Wert: Wahrscheinlichkeit der Daten unter H₀
🔁
Philosophie
Langfristige Fehlerrate über viele Wiederholungen (gedacht)
🚫
Vorwissen
Nicht formal einbeziehbar – jede Studie beginnt bei Null
⚠️
Problem kleiner N
Geringe Power → entweder False Negatives oder False Positives
📉
Nullhypothese
Kann nur abgelehnt, nicht bestätigt werden (p > 0,05 sagt nichts)
🔒
Konfidenzintervall
95%-CI bedeutet nicht „95% Wahrscheinlichkeit für den Parameter"
Bayesianische Statistik
Bayes · Jeffreys · MCMC · Stan · JASP
Jeffreys (1961) Kruschke (2021) Gelman et al. (2014) Dienes (2014) van Ravenzwaaij et al. (2018)
Kernfrage
Wie wahrscheinlich ist meine Hypothese, gegeben die Daten?
📈
Ergebnis
Posteriori-Verteilung: vollständige Wahrscheinlichkeit des Parameters
🔄
Philosophie
Evidenz-Akkumulation: Prior + Daten → Posterior (kontinuierliches Lernen)
🧠
Vorwissen
Explizit als Prior eingebaut – Expertenwissen und Literatur nutzbar
💪
Problem kleiner N
Prior stabilisiert Schätzung – Unsicherheit wird korrekt quantifiziert
✔️
Nullhypothese
Kann bestätigt und abgelehnt werden – Bayes Factor quantifiziert beides
🔓
Kredibilitätsintervall
95% HDI bedeutet wirklich „95% Wahrscheinlichkeit liegt in diesem Bereich"

Dasselbe Experiment – zwei Interpretationen

Ein Sprinter absolviert 8 Testläufe: 6 mal unter Bedingung A, 2 mal unter Bedingung B. Beide Verfahren analysieren identische Daten – mit fundamental unterschiedlichen Schlussfolgerungen.

Szenario: Sie testen ein neues Aufwärmprotokoll bei einem Weltklasse-Sprinter. n = 6 Läufe mit Protokoll A (neu), n = 6 Läufe mit Protokoll B (Standard). Mittlere Zeitdifferenz: 0,18 s zugunsten A. Aus der Literatur wissen Sie, dass solche Protokolle typischerweise 0,1–0,3 s bringen. Was können Sie schlussfolgern?

⚖️ Frequentistischer Befund

t-Test (abhängige Stichproben):
t(9) = 1.74,  p = 0.116

❌ Nicht signifikant (p > 0,05)
Das Ergebnis ist statistisch nicht signifikant. Es gibt keinen ausreichenden Beweis für einen Effekt des neuen Protokolls. Eine Aussage über die stat. Sicherbarkeit des Effekts ist nicht möglich.

Problem: Bei n = 11 ist die Power minimal. Ein echter Effekt von 0,18 s würde mit >80% Wahrscheinlichkeit übersehen. Das Ergebnis sagt buchstäblich nichts.

🎯 Bayesianischer Befund

Prior: Normal(0.15, 0.10) s basierend auf Literatur
BF₁₀ = 3.8  ·  95% HDI: [0.04, 0.32] s

✅ Moderate Evidenz für den Effekt
Das neue Protokoll ist 3,8× wahrscheinlicher als kein Effekt. Das Kredibilitätsintervall schließt 0 fast aus. Der Posterior gibt eine vollständige Wahrscheinlichkeitsverteilung über mögliche Effekte.

Effektgröße (Posterior-Verteilung):

kein Eff.
8%
< 0,1 s
18%
0,1–0,2 s
42%
0,2–0,3 s
25%
> 0,3 s
7%

Exercise Sciences: Bayes-Statistik

Studien im Hochleistungsbereich sind meist strukturell inkompatibel mit den Grundannahmen frequentistischer Statistik. Argumente::

🔬
Kleine Stichproben

n = 3–12 ist die Realität im Hochleistungssport. Hypothesen-Testung liefert bei dieser Power systematisch unzuverlässige Ergebnisse. Bayes stabilisiert durch Priors.

🏅
Extreme Populationen

Weltklasse-Athleten haben keine Grundgesamtheit. Es gibt kein valides Sampling-Modell. Bayesianische Schätzung arbeitet ohne diese Annahme.

📚
Reiches Vorwissen

Jahrzehnte physiologischer Forschung liegen vor. Bayesianische Priors erlauben explizite Nutzung dieses Wissens – statt es zu ignorieren.

🔄
N-of-1 Design

Individuelle Trainingssteuerung erfordert individuelle Schätzung. Bayes erlaubt sequentielle Updates mit jeder neuen Messung.

📏
Effektgröße zählt

Im Sport entscheiden Zehntel- oder Hundertstelsekunden. Bayes liefert vollständige Verteilungen über Effektgrößen – nicht nur binäre Entscheidungen.

vollständige Verteilungen über Effektgrößen – nicht nur binäre Entscheidungen.

🔗
Forschung–Praxis-Gap

McLean et al. (2021) zeigen: Sportwissenschaft leidet am Transfer-Problem. Bayesianische Schätzung mit Priors macht Wissen kumulativ und transferierbar.

Individualität: Zwillingsforschung

Seit 1950 wurden fast 3000 Studien publiziert. Die Ergebnisse hinsichtlich der Übereinstimmung von Zwillingen sind sehr stabil und damit ein Argument für Bayes.

Eine besonders umfassendste Meta-Analyse der Humangenetik – Polderman et al. (2015, Nature Genetics) – fasste 2.748 Zwillingsstudien mit über 14,5 Millionen Zwillingspaaren und 17.804 Merkmalen zusammen. Das Ergebnis ist eindeutig: Kein einziges menschliches Merkmal hat eine Heritabilität von null – alle Eigenschaften sind zu einem erheblichen Teil genetisch bedingt. Aber eben nur zu einem Teil.

49%
Durchschnittliche Heritabilität über alle menschlichen Merkmale – die andere Hälfte ist individuell-umweltbedingt
0,64
Mittlere Korrelation eineiiger Zwillinge (rMZ) – genetisch identisch, aber keineswegs physiologisch gleich
17.804
Analysierte Merkmale aus 2.748 Studien – kein Merkmal mit h² = 0; alle Eigenschaften sind partiell erblich
Varianzzerlegung über alle menschlichen Merkmale (Polderman et al., 2015)
49% Genetik
17% Umwelt (geteilt)
34% Umwelt (individuell)
Additive Genetik (h²): Vererbte Ausstattung
Geteilte Umwelt (c²): Familie, Training, Lebensumfeld
Nicht-geteilte Umwelt (e²): Einzigartige individuelle Erfahrungen

Das entscheidende Ergebnis für die Trainingswissenschaft: Selbst bei genetisch identischen eineiigen Zwillingen beträgt die durchschnittliche Korrelation physiologischer Merkmale nur rMZ ≈ 0,64 – das bedeutet, 36% der Varianz ist selbst bei gleicher DNA individuell. Für motorische, kardiovaskuläre und metabolische Leistungsmerkmale gilt: Der Genotyp setzt Grenzen und Möglichkeiten, aber der individuelle Phänotyp ist stets einmalig. Zudem zeigt die Studie, dass 69% aller Merkmale einem rein additiv-genetischen Modell folgen – was die individuelle Vorhersage statistisch gut modellierbar macht.

„Not one trait had a weighted heritability estimate of zero. [...] Roughly two-thirds of traits show a pattern of twin correlations consistent with a simple model whereby trait resemblance is solely due to additive genetic variation." Polderman et al. (2015) – Nature Genetics

Die Konsequenz: Warum Gruppenstatistik im Sport versagt

Wenn selbst genetisch identische Menschen physiologisch so verschieden sind – was bedeutet dann der Mittelwert einer Gruppe von 20 Athleten verschiedener Herkunft, Alters und Trainingshintergrundes? Gruppenstatistik ist nützlich für Populationsaussagen. Für die individuelle Trainingssteuerung eines konkreten Athleten ist sie oft irreführend.

❌ Das Problem der Gruppenstatistik
  • Mitttelwerte verbergen individuelle Reaktionsmuster
  • Sportler A reagiert auf HIT-Training mit +12% VO₂max, Sportler B mit −2%
  • Der Gruppenmittelwert (+5%) ist für keinen der beiden repräsentativ
  • p-Werte beschreiben Populationen – nicht den Athleten vor dir
  • Signifikante Gruppeneffekte können für das Individuum bedeutungslos sein
✅ Die Stärke des N=1-Bayes-Ansatzes
  • Jede Messung des Athleten aktualisiert seine individuelle Posteriori-Verteilung
  • Gruppenforschung fließt als informativer Prior ein – nicht als Norm
  • Individuelle Reaktionsvariabilität wird explizit quantifiziert
  • Unsicherheit bleibt sichtbar – keine falschen Sicherheiten
  • Sequentielles Design: Prognosen verbessern sich mit jeder Trainingseinheit

Physiologische Beispiele aus der Leistungsdiagnostik: Laktatschwelle, VO₂max, Economy-Parameter und Wattleistung weisen alle ausgeprägte individuelle Kurvenverläufe auf – die aus Zwillingsdaten geschätzte Heritabilität für kardiorespiratorische Fitness liegt bei h² ≈ 0,47–0,60 (metabolisch-kardiovaskuläres Domänen-Cluster, Polderman et al., 2015). Die restlichen 40–53% sind individuell formbar – und genau deshalb braucht jeder Athlet seine eigene Bayes'sche Schätzung.

Der Bayes Factor: Evidenz für und gegen Hypothesen

Der Bayes Factor (BF) ist das Herzstück bayesianischen Hypothesentestens. Er quantifiziert, wie stark die Daten eine Hypothese gegenüber einer anderen stützen – und kann, anders als der p-Wert, Hypothesen auch quantitativ bestätigen.

„Without Bayesian statistics, we couldn't say anything if a simple inferential analysis like a t-test yielded p > 0.05. With Bayesian statistics, it is now possible to state rigorously that the alternative is 100 times more likely than the null." Rosenfeld & Olson (2021) – Applied Psychophysiology and Biofeedback

Die Interpretation des Bayes Factors folgt einer etablierten Skala (Schönbrodt & Wagenmakers, 2018):

Bayes Factor BF₁₀ Evidenzkategorie Praktische Bedeutung
> 100 Extreme Evidenz für H₁ Sehr starker Befund; Effekt praktisch sicher
30 – 100 Sehr starke Evidenz für H₁ Hohe Konfidenz; gut replizierbar
10 – 30 Starke Evidenz für H₁ Überzeugender Befund
3 – 10 Moderate Evidenz für H₁ Substantieller Hinweis; weitere Daten sinnvoll
1 – 3 Anekdotische Evidenz für H₁ Schwacher Hinweis; keine belastbare Schlussfolgerung
1 Keine Evidenz Daten unterscheiden H₀ und H₁ nicht
1/3 – 1 Anekdotische Evidenz für H₀ Schwacher Hinweis auf Nulleffekt
1/10 – 1/3 Moderate Evidenz für H₀ Substantieller Hinweis auf Nulleffekt
< 1/10 Starke – extreme Evidenz für H₀ Überzeugender Beleg für Abwesenheit eines Effekts

Kostenlose Software: JASP (jasp-stats.org) und BAYAS (Waterkamp & Hoffmann, 2025; bayas.zmb.uni-due.de) ermöglichen Bayesianische Analysen ohne Programmierkenntnisse.

Literatur

Kernliteratur für den Bayesianischen Ansatz in den Exercise Sciences.

Bayesianische Methodik – Grundlagen
2021
Kruschke, J.K.
Bayesian Analysis Reporting Guidelines (BARG)
Nature Human Behaviour, 5, 1282–1291
📌 Verbindlicher Leitfaden für transparente Bayesianische Berichterstattung; sechs Schritte von Modellspezifikation bis Reproduzierbarkeit.
2021
Rosenfeld, J.P. & Olson, J.M.
Bayesian Data Analysis: A Fresh Approach to Power Issues and Null Hypothesis Interpretation
Applied Psychophysiology and Biofeedback, 46, 135–140
📌 Zugängliche Einführung; zeigt praktisch, wie JASP Bayes Factors für t-Tests und ANOVA berechnet – ideal bei kleinen Stichproben.
2025
Waterkamp, C. & Hoffmann, D.
BAYAS: Simplifying Access to Bayesian Analysis for Biologists
Bioinformatics, 41(6), btaf276
📌 Web-Tool für Bayesianische GLMs ohne Programmierkenntnisse. Besonders relevant für biologische Fragestellungen mit kleinen Stichproben – direkt auf Exercise Sciences übertragbar.
Debatte um statistische Signifikanz
2022
Mayo, D.G. & Hand, D.
Statistical Significance and Its Critics: Practicing Damaging Science, or Damaging Scientific Practice?
Synthese, 200, 220
📌 Ausgewogene Gegenperspektive: p-Werte haben ihre Berechtigung, wenn korrekt angewendet. Wichtig für ein differenziertes Bild – wir setzen Bayes additiv, nicht als Ersatz.
2020
Diaz-Quijano, F.A. et al.
How Feasible Is It to Abandon Statistical Significance? A Reflection Based on a Short Survey
BMC Medical Research Methodology, 20, 140
📌 Empirische Befragung: Selbst Kritiker der statistischen Signifikanz können nicht vollständig darauf verzichten. Zeigt die Realität des Wandels.
Sportwissenschaft, Individualität & Methodik
2021
McLean, S., Kerhervé, H.A., Stevens, N. & Salmon, P.M.
A Systems Analysis Critique of Sport-Science Research
International Journal of Sports Physiology and Performance, 16, 1385–1392
📌 Systemanalyse mit Kausalschleifendiagramm: identifiziert strukturelle Probleme der Sportwissenschaft – darunter überbetonte quantitative Methoden und mangelnde ökologische Validität.
2015
Polderman, T.J.C., Benyamin, B., de Leeuw, C.A., Sullivan, P.F., van Bochoven, A., Visscher, P.M. & Posthuma, D.
Meta-Analysis of the Heritability of Human Traits Based on Fifty Years of Twin Studies
Nature Genetics, 47, 702–709
📌 Umfassendste Heritabilitäts-Meta-Analyse: 2.748 Studien, >14 Mio. Zwillingspaare, 17.804 Merkmale. Mittlere Heritabilität 49% – empirische Grundlage für N=1-Bayes-Ansätze: Kein Merkmal h²=0, jeder Mensch ist physiologisch einzigartig.
🚀

Wie wir Bayes in RAES umsetzen: Jede Forschungssäule auf dieser Website präsentiert – wo verfügbar – sowohl frequentistische als auch bayesianische Analysen im direkten Vergleich. Priors werden explizit begründet. Bayes Factors und Posteriori-Verteilungen werden visualisiert. Das Ziel: transparente, kumulative und praxisrelevante Wissenschaft.

Von der Theorie zum Athleten

Drei miteinander verbundene Seiten zeigen den vollständigen Weg vom physiologischen Grundlagenwissen bis zur bayesianischen Individualisierung – am konkreten Beispiel des 1500-m-Laufs.

1 Physiologische Grundlagen

VO₂max, vVO₂max, Laktatschwelle, Laufökonomie – welche Körperfunktionen bestimmen die 1500m-Zeit? Mit Erläuterungen, interaktiven Grafiken und Referenzwerten für verschiedene Leistungsniveaus.

Zur Physiologie-Seite →
2 Leistungsmodell

Ein frequentistisches Regressionsmodell übersetzt Messwerte in eine Zeitprognose. Schieberegler machen den Einfluss jedes Parameters sofort sichtbar – Gruppenstatistik als Ausgangspunkt.

Zum Leistungsmodell →
3 Bayesianische Personalisierung

Das Gruppenmodell wird zum N=1-Modell. Mit jeder Wettkampfmessung aktualisiert sich der individuelle Posterior – Unsicherheit sinkt, Prognosequalität steigt. Bayes-Update-Protokoll und Monte-Carlo-Simulation machen den Lernprozess transparent.

Prior → Posterior N=1 Dashboard Monte Carlo
Zur Personalisierungs-Seite →
Der rote Faden: Physiologie liefert das Verständnis → das Leistungsmodell liefert die Gruppenprognose (Prior) → die Validierungsseite verfeinert sie zur individuellen Prognose (Posterior). Das ist Bayesianische Statistik in der Praxis: kumulatives Lernen aus Daten, verankert in physiologischem Vorwissen.