RAES – Bayesianische Statistik in den Exercise Sciences

Die Forschung in den Exercise Sciences steht vor einem grundlegenden methodologischen Problem: Sie untersucht häufig Spitzen- und Weltklasse-Athleten – eine Population, die per Definition keine Grundgesamtheit in statistischem Sinne bildet. Ein Läufer, der die 1500 m in unter 3:30 min absolviert, ist kein zufälliges Sample aus einer normalverteilten Grundgesamtheit. Er ist ein singuläres Phänomen mit ganz individuellen Voraussetzungen und Reaktionen auf Trainingsreize.

McLean et al. (2021) identifizieren in ihrer Systemanalyse der Exercise Sciences grundlegende Probleme: Überbetonung quantitativer Methoden, mangelnde ökologische Validität, einen tiefen Graben zwischen Forschung und Praxis. Methodologische Debatten wie jene um Magnitude-Based Inference (Lohse et al. 2020) zeigen, dass das Feld selbst nach besseren Wegen sucht. Bayesianische Statistik ist nicht nur eine technische Alternative – sie ist ein ergänzender, epistemologisch kohärenterer Rahmen für Exercise Sciences.

⚠️

Das grundlegende Problem: Der p-Wert beantwortet die Frage „Wie wahrscheinlich ist das Ergebnis, wenn bei einer Intervention die Nullhypothese widerlegt werden kann?" – Wichtig sein kann aber auch die Frage: „Wie wahrscheinlich ist der Effekt meiner Intervention für ein Individuum?" Das ist eine fundamental andere Frage. Nur Bayesianische Statistik beantwortet sie direkt. Diaz-Quijano et al. (2020) zeigen, dass selbst Wissenschaftler, die statistischer Signifikanz abschwören wollen, diese in der Praxis kaum vermeiden können – ein deutliches Zeichen dafür, dass es auch andere Zugehensweisen braucht.

Grundlagen

Frequentistisch vs. Bayesianisch

Zwei Paradigmen, zwei grundlegend verschiedene Fragen an die Daten – und unterschiedliche Antworten auf das Problem kleiner Stichproben.

Frequentistische Statistik

Fisher · Neyman–Pearson · NHST

Fisher (1925) Neyman & Pearson (1933) Cohen (1994) Wasserstein & Lazar (2016) Mayo & Hand (2022)

❓

Kernfrage

Wie wahrscheinlich sind diese Daten, falls H₀ gilt?

📊

Ergebnis

p-Wert: Wahrscheinlichkeit der Daten unter H₀

🔁

Philosophie

Langfristige Fehlerrate über viele Wiederholungen (gedacht)

🚫

Vorwissen

Nicht formal einbeziehbar – jede Studie beginnt bei Null

⚠️

Problem kleiner N

Geringe Power → entweder False Negatives oder False Positives

📉

Nullhypothese

Kann nur abgelehnt, nicht bestätigt werden (p > 0,05 sagt nichts)

🔒

Konfidenzintervall

95%-CI bedeutet nicht „95% Wahrscheinlichkeit für den Parameter"

Bayesianische Statistik

Bayes · Jeffreys · MCMC · Stan · JASP

Jeffreys (1961) Kruschke (2021) Gelman et al. (2014) Dienes (2014) van Ravenzwaaij et al. (2018)

✅

Kernfrage

Wie wahrscheinlich ist meine Hypothese, gegeben die Daten?

📈

Ergebnis

Posteriori-Verteilung: vollständige Wahrscheinlichkeit des Parameters

🔄

Philosophie

Evidenz-Akkumulation: Prior + Daten → Posterior (kontinuierliches Lernen)

🧠

Vorwissen

Explizit als Prior eingebaut – Expertenwissen und Literatur nutzbar

💪

Problem kleiner N

Prior stabilisiert Schätzung – Unsicherheit wird korrekt quantifiziert

✔️

Nullhypothese

Kann bestätigt und abgelehnt werden – Bayes Factor quantifiziert beides

🔓

Kredibilitätsintervall

95% HDI bedeutet wirklich „95% Wahrscheinlichkeit liegt in diesem Bereich"

Praxisbeispiel

Dasselbe Experiment – zwei Interpretationen

Ein Sprinter absolviert 8 Testläufe: 6 mal unter Bedingung A, 2 mal unter Bedingung B. Beide Verfahren analysieren identische Daten – mit fundamental unterschiedlichen Schlussfolgerungen.

Szenario: Sie testen ein neues Aufwärmprotokoll bei einem Weltklasse-Sprinter. n = 6 Läufe mit Protokoll A (neu), n = 6 Läufe mit Protokoll B (Standard). Mittlere Zeitdifferenz: 0,18 s zugunsten A. Aus der Literatur wissen Sie, dass solche Protokolle typischerweise 0,1–0,3 s bringen. Was können Sie schlussfolgern?

⚖️ Frequentistischer Befund

t-Test (abhängige Stichproben):
t(9) = 1.74, p = 0.116

❌ Nicht signifikant (p > 0,05)

Das Ergebnis ist statistisch nicht signifikant. Es gibt keinen ausreichenden Beweis für einen Effekt des neuen Protokolls. Eine Aussage über die stat. Sicherbarkeit des Effekts ist nicht möglich.

Problem: Bei n = 11 ist die Power minimal. Ein echter Effekt von 0,18 s würde mit >80% Wahrscheinlichkeit übersehen. Das Ergebnis sagt buchstäblich nichts.

🎯 Bayesianischer Befund

Prior: Normal(0.15, 0.10) s basierend auf Literatur
BF₁₀ = 3.8 · 95% HDI: [0.04, 0.32] s

✅ Moderate Evidenz für den Effekt

Das neue Protokoll ist 3,8× wahrscheinlicher als kein Effekt. Das Kredibilitätsintervall schließt 0 fast aus. Der Posterior gibt eine vollständige Wahrscheinlichkeitsverteilung über mögliche Effekte.

Effektgröße (Posterior-Verteilung):

kein Eff.

< 0,1 s

18%

0,1–0,2 s

42%

0,2–0,3 s

25%

> 0,3 s

Anwendungskontext

Exercise Sciences: Bayes-Statistik

Studien im Hochleistungsbereich sind meist strukturell inkompatibel mit den Grundannahmen frequentistischer Statistik. Argumente::

🔬

Kleine Stichproben

n = 3–12 ist die Realität im Hochleistungssport. Hypothesen-Testung liefert bei dieser Power systematisch unzuverlässige Ergebnisse. Bayes stabilisiert durch Priors.

🏅

Extreme Populationen

Weltklasse-Athleten haben keine Grundgesamtheit. Es gibt kein valides Sampling-Modell. Bayesianische Schätzung arbeitet ohne diese Annahme.

📚

Reiches Vorwissen

Jahrzehnte physiologischer Forschung liegen vor. Bayesianische Priors erlauben explizite Nutzung dieses Wissens – statt es zu ignorieren.

🔄

N-of-1 Design

Individuelle Trainingssteuerung erfordert individuelle Schätzung. Bayes erlaubt sequentielle Updates mit jeder neuen Messung.

📏

Effektgröße zählt

Im Sport entscheiden Zehntel- oder Hundertstelsekunden. Bayes liefert vollständige Verteilungen über Effektgrößen – nicht nur binäre Entscheidungen.

vollständige Verteilungen über Effektgrößen – nicht nur binäre Entscheidungen.

🔗

Forschung–Praxis-Gap

McLean et al. (2021) zeigen: Sportwissenschaft leidet am Transfer-Problem. Bayesianische Schätzung mit Priors macht Wissen kumulativ und transferierbar.

Biologische Grundlage

Individualität: Zwillingsforschung

Seit 1950 wurden fast 3000 Studien publiziert. Die Ergebnisse hinsichtlich der Übereinstimmung von Zwillingen sind sehr stabil und damit ein Argument für Bayes.

Eine besonders umfassendste Meta-Analyse der Humangenetik – Polderman et al. (2015, Nature Genetics) – fasste 2.748 Zwillingsstudien mit über 14,5 Millionen Zwillingspaaren und 17.804 Merkmalen zusammen. Das Ergebnis ist eindeutig: Kein einziges menschliches Merkmal hat eine Heritabilität von null – alle Eigenschaften sind zu einem erheblichen Teil genetisch bedingt. Aber eben nur zu einem Teil.

49%

Durchschnittliche Heritabilität über alle menschlichen Merkmale – die andere Hälfte ist individuell-umweltbedingt

0,64

Mittlere Korrelation eineiiger Zwillinge (rMZ) – genetisch identisch, aber keineswegs physiologisch gleich

17.804

Analysierte Merkmale aus 2.748 Studien – kein Merkmal mit h² = 0; alle Eigenschaften sind partiell erblich

Varianzzerlegung über alle menschlichen Merkmale (Polderman et al., 2015)

49% Genetik

17% Umwelt (geteilt)

34% Umwelt (individuell)

Additive Genetik (h²): Vererbte Ausstattung

Geteilte Umwelt (c²): Familie, Training, Lebensumfeld

Nicht-geteilte Umwelt (e²): Einzigartige individuelle Erfahrungen

Das entscheidende Ergebnis für die Trainingswissenschaft: Selbst bei genetisch identischen eineiigen Zwillingen beträgt die durchschnittliche Korrelation physiologischer Merkmale nur rMZ ≈ 0,64 – das bedeutet, 36% der Varianz ist selbst bei gleicher DNA individuell. Für motorische, kardiovaskuläre und metabolische Leistungsmerkmale gilt: Der Genotyp setzt Grenzen und Möglichkeiten, aber der individuelle Phänotyp ist stets einmalig. Zudem zeigt die Studie, dass 69% aller Merkmale einem rein additiv-genetischen Modell folgen – was die individuelle Vorhersage statistisch gut modellierbar macht.

„Not one trait had a weighted heritability estimate of zero. [...] Roughly two-thirds of traits show a pattern of twin correlations consistent with a simple model whereby trait resemblance is solely due to additive genetic variation." Polderman et al. (2015) – Nature Genetics

Die Konsequenz: Warum Gruppenstatistik im Sport versagt

Wenn selbst genetisch identische Menschen physiologisch so verschieden sind – was bedeutet dann der Mittelwert einer Gruppe von 20 Athleten verschiedener Herkunft, Alters und Trainingshintergrundes? Gruppenstatistik ist nützlich für Populationsaussagen. Für die individuelle Trainingssteuerung eines konkreten Athleten ist sie oft irreführend.

❌ Das Problem der Gruppenstatistik

Mitttelwerte verbergen individuelle Reaktionsmuster
Sportler A reagiert auf HIT-Training mit +12% VO₂max, Sportler B mit −2%
Der Gruppenmittelwert (+5%) ist für keinen der beiden repräsentativ
p-Werte beschreiben Populationen – nicht den Athleten vor dir
Signifikante Gruppeneffekte können für das Individuum bedeutungslos sein

✅ Die Stärke des N=1-Bayes-Ansatzes

Jede Messung des Athleten aktualisiert seine individuelle Posteriori-Verteilung
Gruppenforschung fließt als informativer Prior ein – nicht als Norm
Individuelle Reaktionsvariabilität wird explizit quantifiziert
Unsicherheit bleibt sichtbar – keine falschen Sicherheiten
Sequentielles Design: Prognosen verbessern sich mit jeder Trainingseinheit

Physiologische Beispiele aus der Leistungsdiagnostik: Laktatschwelle, VO₂max, Economy-Parameter und Wattleistung weisen alle ausgeprägte individuelle Kurvenverläufe auf – die aus Zwillingsdaten geschätzte Heritabilität für kardiorespiratorische Fitness liegt bei h² ≈ 0,47–0,60 (metabolisch-kardiovaskuläres Domänen-Cluster, Polderman et al., 2015). Die restlichen 40–53% sind individuell formbar – und genau deshalb braucht jeder Athlet seine eigene Bayes'sche Schätzung.

Werkzeug

Der Bayes Factor: Evidenz für und gegen Hypothesen

Der Bayes Factor (BF) ist das Herzstück bayesianischen Hypothesentestens. Er quantifiziert, wie stark die Daten eine Hypothese gegenüber einer anderen stützen – und kann, anders als der p-Wert, Hypothesen auch quantitativ bestätigen.

„Without Bayesian statistics, we couldn't say anything if a simple inferential analysis like a t-test yielded p > 0.05. With Bayesian statistics, it is now possible to state rigorously that the alternative is 100 times more likely than the null." Rosenfeld & Olson (2021) – Applied Psychophysiology and Biofeedback

Die Interpretation des Bayes Factors folgt einer etablierten Skala (Schönbrodt & Wagenmakers, 2018):

Bayes Factor BF₁₀	Evidenzkategorie	Praktische Bedeutung
> 100	Extreme Evidenz für H₁	Sehr starker Befund; Effekt praktisch sicher
30 – 100	Sehr starke Evidenz für H₁	Hohe Konfidenz; gut replizierbar
10 – 30	Starke Evidenz für H₁	Überzeugender Befund
3 – 10	Moderate Evidenz für H₁	Substantieller Hinweis; weitere Daten sinnvoll
1 – 3	Anekdotische Evidenz für H₁	Schwacher Hinweis; keine belastbare Schlussfolgerung
1	Keine Evidenz	Daten unterscheiden H₀ und H₁ nicht
1/3 – 1	Anekdotische Evidenz für H₀	Schwacher Hinweis auf Nulleffekt
1/10 – 1/3	Moderate Evidenz für H₀	Substantieller Hinweis auf Nulleffekt
< 1/10	Starke – extreme Evidenz für H₀	Überzeugender Beleg für Abwesenheit eines Effekts

Kostenlose Software: JASP (jasp-stats.org) und BAYAS (Waterkamp & Hoffmann, 2025; bayas.zmb.uni-due.de) ermöglichen Bayesianische Analysen ohne Programmierkenntnisse.

Wissenschaftliche Basis

Literatur

Kernliteratur für den Bayesianischen Ansatz in den Exercise Sciences.

Bayesianische Methodik – Grundlagen

2021

Kruschke, J.K.

Bayesian Analysis Reporting Guidelines (BARG)

Nature Human Behaviour, 5, 1282–1291

📌 Verbindlicher Leitfaden für transparente Bayesianische Berichterstattung; sechs Schritte von Modellspezifikation bis Reproduzierbarkeit.

2021

Rosenfeld, J.P. & Olson, J.M.

Bayesian Data Analysis: A Fresh Approach to Power Issues and Null Hypothesis Interpretation

Applied Psychophysiology and Biofeedback, 46, 135–140

📌 Zugängliche Einführung; zeigt praktisch, wie JASP Bayes Factors für t-Tests und ANOVA berechnet – ideal bei kleinen Stichproben.

2025

Waterkamp, C. & Hoffmann, D.

BAYAS: Simplifying Access to Bayesian Analysis for Biologists

Bioinformatics, 41(6), btaf276

📌 Web-Tool für Bayesianische GLMs ohne Programmierkenntnisse. Besonders relevant für biologische Fragestellungen mit kleinen Stichproben – direkt auf Exercise Sciences übertragbar.

Debatte um statistische Signifikanz

2022

Mayo, D.G. & Hand, D.

Statistical Significance and Its Critics: Practicing Damaging Science, or Damaging Scientific Practice?

Synthese, 200, 220

📌 Ausgewogene Gegenperspektive: p-Werte haben ihre Berechtigung, wenn korrekt angewendet. Wichtig für ein differenziertes Bild – wir setzen Bayes additiv, nicht als Ersatz.

2020

Diaz-Quijano, F.A. et al.

How Feasible Is It to Abandon Statistical Significance? A Reflection Based on a Short Survey

BMC Medical Research Methodology, 20, 140

📌 Empirische Befragung: Selbst Kritiker der statistischen Signifikanz können nicht vollständig darauf verzichten. Zeigt die Realität des Wandels.

Sportwissenschaft, Individualität & Methodik

2021

McLean, S., Kerhervé, H.A., Stevens, N. & Salmon, P.M.

A Systems Analysis Critique of Sport-Science Research

International Journal of Sports Physiology and Performance, 16, 1385–1392

📌 Systemanalyse mit Kausalschleifendiagramm: identifiziert strukturelle Probleme der Sportwissenschaft – darunter überbetonte quantitative Methoden und mangelnde ökologische Validität.

2015

Polderman, T.J.C., Benyamin, B., de Leeuw, C.A., Sullivan, P.F., van Bochoven, A., Visscher, P.M. & Posthuma, D.

Meta-Analysis of the Heritability of Human Traits Based on Fifty Years of Twin Studies

Nature Genetics, 47, 702–709

📌 Umfassendste Heritabilitäts-Meta-Analyse: 2.748 Studien, >14 Mio. Zwillingspaare, 17.804 Merkmale. Mittlere Heritabilität 49% – empirische Grundlage für N=1-Bayes-Ansätze: Kein Merkmal h²=0, jeder Mensch ist physiologisch einzigartig.

🚀

Wie wir Bayes in RAES umsetzen: Jede Forschungssäule auf dieser Website präsentiert – wo verfügbar – sowohl frequentistische als auch bayesianische Analysen im direkten Vergleich. Priors werden explizit begründet. Bayes Factors und Posteriori-Verteilungen werden visualisiert. Das Ziel: transparente, kumulative und praxisrelevante Wissenschaft.

Bayes in der Praxis – RAES-Beispiele

Von der Theorie zum Athleten

Drei miteinander verbundene Seiten zeigen den vollständigen Weg vom physiologischen Grundlagenwissen bis zur bayesianischen Individualisierung – am konkreten Beispiel des 1500-m-Laufs.

1 Physiologische Grundlagen

VO₂max, vVO₂max, Laktatschwelle, Laufökonomie – welche Körperfunktionen bestimmen die 1500m-Zeit? Mit Erläuterungen, interaktiven Grafiken und Referenzwerten für verschiedene Leistungsniveaus.

Zur Physiologie-Seite →

2 Leistungsmodell

Ein frequentistisches Regressionsmodell übersetzt Messwerte in eine Zeitprognose. Schieberegler machen den Einfluss jedes Parameters sofort sichtbar – Gruppenstatistik als Ausgangspunkt.

Zum Leistungsmodell →

3 Bayesianische Personalisierung

Das Gruppenmodell wird zum N=1-Modell. Mit jeder Wettkampfmessung aktualisiert sich der individuelle Posterior – Unsicherheit sinkt, Prognosequalität steigt. Bayes-Update-Protokoll und Monte-Carlo-Simulation machen den Lernprozess transparent.

Prior → Posterior N=1 Dashboard Monte Carlo

Zur Personalisierungs-Seite →

Der rote Faden: Physiologie liefert das Verständnis → das Leistungsmodell liefert die Gruppenprognose (Prior) → die Validierungsseite verfeinert sie zur individuellen Prognose (Posterior). Das ist Bayesianische Statistik in der Praxis: kumulatives Lernen aus Daten, verankert in physiologischem Vorwissen.