Psychologen lieben es, “marginal signifikante” Ergebnisse zu melden, so eine neue Analyse

Screenshot 2019-03-12 beim 09.07.56.png
Abbildung 3 von Olsson-Collentine et al, 2019: “Prozentsatz der p-Werte (.05 < p ≤ .10) berichtet als marginal signifikant (durchgezogene Linien) und Prozentsatz der Artikel, die mindestens einen solchen p-Wert enthalten (gestrichelte Linien) zwischen 1985 und 2016 in verschiedenen psychologischen Disziplinen”

Von Matthew Warren

Eine der größten Versuchungen für Psychologen ist es, “marginal signifikante” Forschungsergebnisse zu melden. Wenn statistische Tests Werte ausspucken, die verlockend nahe an der Signifikanz liegen, können sich viele einfach nicht helfen.

Nun hat eine Studie in Psychological Science gezeigt, wie weit verbreitet diese Praxis ist. Anton Olsson-Collentine und Kollegen von der Universität Tilburg analysierten drei Jahrzehnte psychologischer Arbeiten und fanden heraus, dass satte 40 Prozent der p-Werte zwischen 0,05 und 0,1 – also solche, die nach herkömmlichen Schwellenwerten nicht signifikant sind – von Experimentatoren als “marginal signifikant” beschrieben wurden.

Psychologen verwenden p-Werte, um zu beurteilen, ob ein Ergebnis statistisch signifikant ist. Der p-Wert liefert eine Schätzung der Wahrscheinlichkeit, dass die aktuellen Ergebnisse (und andere extremere) erhalten werden, wenn die “Nullhypothese” wahr wäre. (Die Nullhypothese ist, dass es keinen Effekt oder keinen Unterschied zwischen den untersuchten Gruppen gibt). Ab einem bestimmten Schwellenwert – normalerweise, wenn p kleiner als 0,05 ist – lehnen Psychologen die Nullhypothese ab und schließen daraus, dass ihr Ergebnis wahrscheinlich einen wahren Effekt darstellt.

Aber manchmal behandeln Forscher diese Schwelle ziemlich flexibel. Wenn ein p-Wert etwas größer als 0,05 ist, melden sie das Ergebnis oft als “marginal signifikant”, was bedeutet, dass es immer noch einen realen Effekt geben könnte.

Um zu bestimmen, wie oft p-Werte auf diese Weise gemeldet werden, untersuchte Olsson-Collentines Team die Art und Weise, wie Werte zwischen 0,05 und 0,1 in Zeitschriften beschrieben wurden, die von der American Psychological Association von 1985 bis 2016 veröffentlicht wurden.

Das Team programmierte einen Code, um 44.200 Papiere durchzugehen und 42.504 p-Werte zwischen 0,05 und 0,1 zu extrahieren. Anschließend durchsuchten sie den Text unmittelbar vor und nach den p-Werten nach Wörtern, die mit “margin” oder “approach” begannen, was darauf hindeuten könnte, dass die Ergebnisse als marginal signifikant (oder “annähernd” signifikant) gemeldet wurden.

Die Forscher fanden heraus, dass fast 40 Prozent der nicht signifikanten p-Werte, die sie identifizierten, als marginal signifikant gemeldet wurden. Von neun Hauptdisziplinen der Psychologie war die Praxis am häufigsten in der Organisationspsychologie, wo 45 Prozent der Werte als marginal signifikant angesehen wurden, und am wenigsten verbreitet in der klinischen Psychologie, wo diese Zahl auf 30 Prozent sank.

Diese Art der Berichterstattung ist ein Problem, da sie wahrscheinlich zu falsch positiven Ergebnissen (der falschen Zuordnung von Nullbefunden zu wahren Effekten) und weniger reproduzierbarer Forschung beiträgt, sagen Olsson-Collentine und seine Kollegen. Indem sie ein Ergebnis als “sort-of-signifikant” bezeichnen, ändern Psychologen im Wesentlichen die Regeln für das, was im Nachhinein als signifikant gilt, und heben daher Ergebnisse hervor, die weniger wahrscheinlich “wahre” Effekte darstellen.

Dennoch gab es eine gute Nachricht: Über den Zeitraum von 30 Jahren, der von der neuen Analyse abgedeckt wurde, scheint die “marginal signifikante” Gewohnheit in den meisten der neun psychologischen Teildisziplinen seltener geworden zu sein. “Der Abwärtstrend in der Psychologie insgesamt kann das zunehmende Bewusstsein der Forscher widerspiegeln, dass p-Werte im Bereich von .05 zu .10 stellen schwache Beweise gegen die Null dar “, schreiben die Forscher. Es kann auch das Ergebnis von Redakteuren sein, die strenger werden, fügen sie hinzu.

Entscheidend ist, dass die neue Studie nur p-Werte berücksichtigte, die als “marginal” oder “annähernd” signifikant beschrieben wurden. Aber Forscher können in der Sprache, die sie verwenden, viel erfinderischer sein. Im Jahr 2013 stellte der Statistiker Matthew Hankins eine Liste von Hunderten anderer Ausdrücke zusammen, mit denen psychologische Wissenschaftler niedrige, aber nicht signifikante p-Werte in der Literatur beschrieben haben, von “Flirten mit konventionellen Signifikanzniveaus” bis “sehr nahe an der Grenze der statistischen Signifikanz”. Durch das Fehlen einiger der kreativeren Möglichkeiten, die Wissenschaftler versuchen, positive Ergebnisse aus ihrer Arbeit herauszuholen, ist es möglich, dass diese neue Studie das Ausmaß des Problems unterschätzt.

– Die Prävalenz marginal signifikanter Ergebnisse in der Psychologie im Laufe der Zeit

Matthew Warren (@MattbWarren) ist Mitarbeiter bei BPS Research Digest

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.