Gütekriterien von Messinstrumenten

Aus PflegeWiki
Version vom 29. Oktober 2021, 12:53 Uhr von Admin (Diskussion | Beiträge) (Die Seite wurde neu angelegt: „{{Überarbeiten}} <!--das da ist ein Baustein--> Das Ziel einer Messung ist es korrekte Ergebnisse zu erhalten: * Messungen sind jedoch mit Fehlern behaftet…“)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

Vorlage:Überarbeiten


Das Ziel einer Messung ist es korrekte Ergebnisse zu erhalten:

  • Messungen sind jedoch mit Fehlern behaftet –
  • beobachteter Wert = wahrer Wert + Fehler

Messfehler[Bearbeiten | Quelltext bearbeiten]

  1. zufälliger Fehler (random error) z.B. Waage schwankt
  2. systematischer Fehler z.B. Waage zeigt immer 10g zu viel


Reliabilität = Reproduzierbarkeit/ Genauigkeit
Validität = Gültigkeit (messe ich das was ich messen will?)

Datei:Validereliabel01.jpg

Ein valides Messinstrument muss reliabel sein ! (umgekehrt nicht)


Reliabilität[Bearbeiten | Quelltext bearbeiten]

Die Reliabilität gibt Auskunft über die technische Genauigkeit eines Instruments, zuverlässige Ergebnisse zu produzieren (Reuschenbach, Mahler, 2011, S. 60; Polit et al., 2010, S. 295f; Bonita et al., 2008, S. 174; Fritz et al., 2007; LoBiondo-Wood, Haber, 2005, S. 513). Ist ein Testinstrument reliabel, dann führen mehrere Messungen unter identischen Rahmenbedingungen zum gleichen Ergebnis (Reuschenbach, Mahler, 2011, S. 60ff; Fritz et al., 2007; Reuschenbach, 2006; LoBiondo-Wood, Haber, 2005, S. 513), und zwar unabhängig vom Tester und dem Zeitpunkt des Ratings (Müller, 2011, S. 266; Halek, 2008; Reuschenbach, 2006; LoBiondo-Wood, Haber, 2005, S. 513). Ausgewiesen wird die Reliabilität eines Instruments mit dem Reliabilitätskoeffizienten (Polit et al., 2010, S. 296; Reuschenbach, 2006; LoBiondo-Wood, Haber, 2005, S. 514). Dieser liegt zwischen 0,00 und 1,00 (Polit et al., 2010, S. 296; LoBiondo-Wood, Haber, 2005, S. 514). Je höher dieser Wert ist, umso reliabler ist das Instrument (Polit et al., 2010, S. 296; LoBiondo-Wood, Haber, 2005, S. 514). „Gute Reliabilität bedeutet Reproduzierbarkeit, kleine zufällige Fehler“ (Müller, 2011, S. 266).

Ein reliables Instrument zeichnet sich durch interne Konsistenz (Homogenität), Test-Retest-Reliabilität (Stabilität) und Interrater-Reliabilität (Äquivalenz) aus (Reuschenbach, Mahler, 2011, S. 60f; Polit et al., 2010, S. 296; Reuschenbach, 2006; Burns, Grove, 2005, S. 314ff; LoBiondo-Wood, Haber, 2005, S. 513ff). Die Stabilität eines Instrumentes ist gegeben, wenn bei wiederholten Tests gleiche Ergebnisse erzielt werden (Polit et al., 2010, S. 296; Reuschenbach, 2006; Burns, Grove, 2005, S. 315; LoBiondo-Wood, Haber, 2005, S. 513). Von einem homogenen Instrument wird gesprochen, wenn alle Items z. B. gleiche Merkmale messen (LoBiondo-Wood, Haber, 2005, S. 513), und Äquivalenz ist vorhanden, wenn ein Instrument bei äquivalenten oder gleichgerichteten Instrumenten bzw. Methoden zu gleichen Ergebnissen führt (Burns, Grove, 2005, S. 316; LoBiondo-Wood, Haber, 2005, S. 513). Die Reliabilität kann hoch sein, auch wenn die Validität niedrig ist, d. h. hohe Reliabiliät sichert nicht hohe Validität, sie ist jedoch eine Voraussetzung für die Validität (Reuschenbach, Mahler, 2011, S. 60; Polit et al., 2010, S. 298f).

Test-Retest-Reliabilität[Bearbeiten | Quelltext bearbeiten]

Die Test-Retest-Reliabilität wird in der Literatur oft auch als Stabilität bezeichnet. Sie beschreibt das Ausmaß der Übereinstimmung der Rangfolge bei einer wiederholten Anwendung der Instrumente (Methoden) bei der Stichprobe.

  • Ausmaß der Übereinstimmung bei einer wiederholten Anwendung des Instruments bei der selben Stichprobe und ansonsten gleichen Bedingungen Test nach einiger Zeit wiederholen,
  • setzt stabiles Phänomen voraus

Die Größe dieser Übereinstimmung lässt sich durch die Berechnung eines Korrelationskoeffizienten quantifizieren.

  • Korrelation sagt nichts aus, wenn ein systematischer Fehler vorliegt

Interrater-Reliabilität[Bearbeiten | Quelltext bearbeiten]

Unter Interrater-Reliabilität wird die Höhe der Übereinstimmung der Ein-schätzungsergebnisse unterschiedlicher Testanwender (Rater) verstanden (Reuschenbach, Mahler, 2011, S. 62; Polit et al., 2010, S. 295f; LoBiondo-Wood, Haber, 2005, S. 521f). Kommen verschiedene Rater zum gleichen Ergebnis, ist die Interrater-Reliabilität hoch (Reuschenbach, Mahler, 2011, S. 62; Hussy et al., 2010, S. 23; Polit et al., 2010, S. 295f; Grouven et al., 2007; LoBiondo-Wood, Haber, 2005, S. 521f). Sie ist ein Maß für die Objektivität des Testverfahrens. Ein Test mit einer hohen Interrater-Reliabilität hat meistens eine gute Intra-Rater-Reliabilität, nicht aber umgekehrt. Die Überprüfung der Interrater-Reliabilität er-folgt, indem das Messinstrument von mindestens zwei gleich qualifizierten Ratern zur annähernd gleichen Zeit am selben Testobjekt getestet wird (Müller, 2011, S. 269; Polit et al., 2010, S. 297; Halek, 2008; LoBiondo-Wood, Haber, 2005, S. 521). Die Interrater-Reliabilität ist beim praktischen Einsatz eines pflegerischen Screeninginstrumentes von großer Bedeutung (Green, Watson, 2006; LoBiondo-Wood, Haber, 2005, S. 521). Häufig verwendete Maße zur Bestimmung der Interrater-Reliabilität sind der Cohens- und Fleiss-Kappa (Müller, 2011, S. 269ff; Fleiss und Cohen, 1973 zit. aus Reuschenbach, Mahler, 2011, S. 63; Steiner, Norman, 2008, S. 184f; Grouven et al., 2007; Mayer et al., 2004), der gewichtete Kappa (Reuschenbach, Mahler, 2011, S. 63; Steiner, Norman, 2008, S. 184f; Grouven et al., 2007; Mayer et al., 2004), die AC1 und AC2-Werte (Gwent, 2008, zit. aus Reuschenbach, Mahler, 2011, S. 63; Gwet, 2002a, b), der Intraclass- (Bortz, Döring, 2006, zit. aus Reuschenbach, Mahler, 2011, S. 63) und der Finn-Koeffizient (Finn, 1970, zit. aus Reuschenbach, Mahler, 2011, S. 63).

Handelt es sich um zwei unterschiedliche Beobachter, die gleichzeitig mehrere Probanden einschätzen, so lässt sich die Interrater-Reliabilität mittels Korrelationskoeffizienten errechnen. Dies gilt primär für ordinale und metrische Daten Bei mehr als zwei Beobachtern steht der Intra-Class-Korrelationskoeffizient zur Verfügung.

Bei nominalen Daten steht der sog. Kappa-Koeffizient zur Verfügung



Interne Konsistenz[Bearbeiten | Quelltext bearbeiten]

Bei der Internen Konsistenz bzw der Homogenität steht der Aspekt im Vordergrund, wie gleichmäßig und reproduzierbar die einzelnen Teile oder Items des Erhebungsinstruments zum Gesamtergebnis beitragen. Um die Interne Konsistenz eines Assessmentinstruments zu bestimmen, bieten sich unterschiedliche Maßzahlen an.

    • Interne Konsistenz nur bei eindimensionalen Tests! Werden gezielt mehrere Dimensionen erfasst, ohne dass diese jedoch zu einer Gesamtsumme addiert werden, muss die interne Konsistenz für jede Dimension berechnet werden.
    • Von einer hohen internen Konsistenz lässt sich nicht automatisch auch auf eine hohe Interrater- oder Test-Retest-Reliabilität schließen.
    • split-half-reliability = Fragebogen teilen, wenn Items homogen sind müssen die beiden geteilten eine hohe Korrelation aufweisen.
      • Je weniger Items desto schlechter ist die Korrelation;
      • Cronbachs Alpha rechnet alle Arten von split-half aus (SPSS), mittelt diese und liefert ein Gesamtergebnis

Reliabilitätsbestimmung ist einfacher als die Bestimmung der Validität. Ist ein Instrument nicht reliabel kann es auch nicht valide sein.

Validität[Bearbeiten | Quelltext bearbeiten]

Die Validität eines Tests gibt an, wie gut der Test in der Lage ist genau das zu messen, was er zu messen vorgibt (ähneln Indizienbeweis) Ein Instrument ist valide, wenn es das misst was es messen soll. Ein Geschwindigkeitsmesser der die Temperatur misst ist daher nicht valide.

Validität = Gültigkeit ("Wie sich vom Testscore auf das Zielmerkmal schliessen lässt")

Es gibt keine absolut gültigen Tests, jeder Validierungsversuch ist von theoretischen und methodischen Einschränkungen betroffen. Hängt in der Regel von der konkreten Anwendersituation ab. Auch ein besonders genaues und zuverlässiges Instrument wird nur in bestimmten Situationen verlässliche Ergebnisse liefern.


Inhaltsvalidität[Bearbeiten | Quelltext bearbeiten]

Validität bezeichnet die Gültigkeit, Brauchbarkeit oder Tauglichkeit einer Messung (Reuschenbach, Mahler, 2011, S. 64; Polit et al., 2010, S. 298; Reuschenbach, 2006; LoBiondo-Wood, Haber, 2005, S. 499f). Es geht um die Frage, ob ein Messverfahren das misst, was es messen soll oder ob es andere Dimensionen misst (Reuschenbach, Mahler, 2011, S. 64; Polit et al., 2010, S. 298; Hartig et al., 2007, 135ff; Reuschenbach, 2006). Misst ein Verfahren nicht das eigentliche Kriterium, sondern andere Aspekte, kann dies zu Lasten der Validität gehen (Reuschenbach, Mahler, 2011, S. 64; Reuschenbach, 2006; LoBiondo-Wood, Haber, 2005, S. 499). Ein Test gilt als valide, wenn er die Testpersonen korrekt in Gruppen von Gefährdeten und Nicht-Gefährdeten einteilt (Bonita et al., 2008, S. 174). Der Validitätskoeffizienz von eins wird nie erreicht, die Validität kann jedoch durch die Kombination mehrerer Assessmentverfahren erhöht werden (Reuschenbach, 2006). Da Pflegephänomene nicht völlig durchschaubar sind, gibt es keine völlige Sicherheit bei der Anwendung von Assessments (Reuschenbach, 2006). Für die Auswahl und den Einsatz von Assessmentverfahren spielt die Validierung eine wichtige Rolle (Reuschenbach, Mahler, S. 38, 2011). Richtwerte für die Validität eines Tests sind seine Sensitivität und Spezifität (Bonita et al., 2008, S. 174).

Kriteriumsvalidität[Bearbeiten | Quelltext bearbeiten]

Bei der Kriteriumsvalidität unterscheidet man Übereinstimmungsvalidität (concurrend validity)und Vorhersagevalidität (predictive validity).

  • das Instrument mit einem Außenkriterium testen


Übereinstimmungsvalidität[Bearbeiten | Quelltext bearbeiten]
  • concurrent-validity (Übereinstimmungsvalidität): gleichzeitige Messung (und Vergleich) z.B. mit Goldstandard,schon bewährten Verfahren, Tests...
    • (=über alle Zweifel erhabenes aber zu aufwendiges Instrument z.B. Leberbiopsie um Alkoholiker zu erkennen)


Vorhersagevalidität[Bearbeiten | Quelltext bearbeiten]
  • predictive-validity (Vorhersagevalidität): vorhersagend;
  • ist das Verhältnis von Risiko + krank zu allen Risiko bzw. von nicht Risiko + nicht krank zu allen nicht Risiko
    • testen und abwarten,
    • kaum durchführbar

Konstruktvalidität[Bearbeiten | Quelltext bearbeiten]

  • Konstruktvalidität: testet gleichzeitig das Theoriekonstrukt um das Instrument herum
  • inwieweit werden theoretische Konstrukte und Merkmale berücksichtigt ?
  • sind die Theorien veraltet/falsch ?!
    • Kontrastgruppeneinsatz: Gruppen bei denen man das Ergebnis kennt
    • Hypothesentesteinsatz: Hypothese überprüfen (Konstruktvalidität umso überzeugender, je mehr Hypothesen einer Überprüfung standhalten)

Sensitivität und Spezifität[Bearbeiten | Quelltext bearbeiten]

Sensitivität beschreibt die Fähigkeit der Skala Risikopatienten zu erkennen.
  • Unter Sensitivität eines diagnostischen Tests versteht man die Fähigkeit, tatsächlich Kranke als krank zu erkennen.
Spezifität beschreibt die Fähigkeit der Skala risikofreie Patienten zu erkennen.

Die Spezifität bezeichnet die Fähigkeit, tatsächlich Gesunde als gesund zu identifizieren.

  • Werden meist in % angegeben (100% ist perfekt)
  • Werden am „Goldstandard“ bemessen
    • es gibt keinen Goldstandard für Risiko!


Tabelle 1, Beispiel 1 Tatsächlicher Sachverhalt
positiv (krank) negativ (gesund) Gesamt
Testergebnis positiv (krank) richtig positiv
95
falsch positiv
30

125
negativ (gesund) falsch negativ
5
richtig negativ
270

275
100 300 400


  • Prädiktive Wert des positiven Tests: Wie viele Risikopatienten hatten tatsächlich eine Erkrankung?
  • Prädiktive Wert des negativen Tests: Wie viele ohne Risiko blieben tatsächlich gesund?
  • Hohe Sensitivität und niedrige Spezifität = Skala neigt zur Überschätzung
  • je niedriger die Prävalenz desto genauer muss das Instrument messen!
  • Es besteht ein Zusammenhang zwischen Prävalenz und prädiktiven Wert des positiven Tests:
    • je niedriger die Prävalenz desto niedriger der pWpT

Cutt-off-Punkt[Bearbeiten | Quelltext bearbeiten]

Der „Cut-Off-Punkt“ trennt zwischen (Gefährdungs-) Kategorien bzw. positiven und negativen Testergebnissen. Versucht man durch eine Veränderung des „Cut-Off-Punktes“ die Sensitivität zu erhöhen (d.h. noch weniger Kranke zu übersehen), so geht das nur auf Kosten der Spezifität (d.h. es werden mehr Gesunde fälschlich als krank eingestuft)

siehe auch[Bearbeiten | Quelltext bearbeiten]

PflegeWikiDe Hinweis: Alle Artikel dieser Kategorie basieren auf Texten, die aus der [[1]] PflegeWiki.de übernommen wurden. Eine Liste der ursprünglichen Autoren befinden sich auf den Versionsseiten der jeweiligen Artikel dort.