Z. Evid. Fortbild. Qual. Gesundh. wesen (ZEFQ) (2013) 107, 646—664

Online verfügbar unter www.sciencedirect.com

ScienceDirect journal homepage: http://journals.elsevier.de/zefq

GRADE

GRADE-Leitlinien: 12. Erstellen von ,,Summary-of-Findings‘‘-Tabellen — Dichotome Endpunkte夽 GRADE guidelines: 12. Developing Summary of Findings tables — dichotomous outcomes Gero Langer 1,∗, Joerg J. Meerpohl 2, Matthias Perleth 3, Gerald Gartlehner 4, Holger Schünemann 5 1

Institut für Gesundheits- und Pflegewissenschaft, Medizinische Fakultät der Martin-Luther-Universität Halle-Wittenberg, Halle (Saale) 2 Deutsches Cochrane Zentrum, Institut für Medizinische Biometrie und Medizinische Informatik, Universitätsklinikum Freiburg, Freiburg 3 Abteilung Fachberatung Medizin, Gemeinsamer Bundesausschuss, Berlin 4 Donau-Universität Krems, Department für Evidenzbasierte Medizin und Klinische Epidemiologie, Krems, Österreich 5 Department of Clinical Epidemiology & Biostatistics, McMaster University Health Sciences Centre, Hamilton, Kanada

SCHLÜSSELWÖRTER GRADE; Summary-of-FindingsTabellen; Evidenzprofil; Vertrauen in Effektschätzer; Qualität der Evidenz; Systematische Übersichtsarbeiten





Zusammenfassung In Summary-of-Findings-Tabellen wird für jeden der sieben (oder weniger) wichtigsten Endpunkte folgendes dargestellt: die Anzahl der Studien und die Anzahl der Teilnehmer, das Vertrauen in die Effektschätzer (Qualität der Evidenz) sowie die besten Schätzungen der absoluten und relativen Effekte. Möglicherweise schwierig gestaltet sich bei der Erstellung von Summary-of-Findings-Tabellen die Entscheidung, ob direkte Evidenz (mit ggfs. sehr wenigen Ereignissen) oder indirekte Evidenz (auf der Basis von Surrogat-Endpunkten) als beste Evidenz für einen Behandlungseffekt eingeschlossen werden soll. Sofern ein Surrogat-Endpunkt gewählt wird, muss dies als stellvertretend für den korrespondierenden patientenrelevanten Endpunkt gekennzeichnet werden. Eine andere schwierige Entscheidung ist die Wahl zwischen Evidenz aus randomisierten kontrollierten Studien niedriger Qualität oder Evidenz aus Beobachtungsstudien hoher Qualität. Im Zweifel ist es ggfs. vernünftig, beide Evidenz-Quellen zu zeigen; falls beide Evidenzkörper ähnliche Qualität, aber unterschiedliche Ergebnisse haben, würde man die Qualität aufgrund von Inkonsistenz ggfs. weiter herabstufen.

Übersetzt und adaptiert von: Guyatt, G. H., Oxman, A. D., Santesso, N., Helfand, M., Vist, G., Kunz, R., Brozek, J., Norris, S., Meerpohl, J., Djulbegovic, B., Alonso-Coello, P., Post, P. N., Busse, J. W., Glasziou, P., Christensen, R. & Schünemann, H. J. (2013). GRADE guidelines 12. Preparing Summary of Findings tables-binary outcomes. Journal of Clinical Epidemiology, 66(2), 158-72. Korrespondenzadresse: PD Dr. Gero Langer, Institut für Gesundheits- und Pflegewissenschaft, Medizinische Fakultät der Martin-LutherUniversität Halle-Wittenberg, Magdeburger Straße 8, 06112 Halle (Saale). Tel.: 0345 557 44 54; Fax: 0345 557 44 85. E-Mail: [email protected] (G. Langer).

1865-9217/$ – see front matter http://dx.doi.org/10.1016/j.zefq.2013.10.034

GRADE-Leitlinien: 12. Erstellen von ,,Summary-of-Findings‘‘-Tabellen — Dichotome Endpunkte

647

Bei dichotomen Endpunkten sind Relative Risiken (RR) das bevorzugte Maß für relative Effekte, die dann auf das Basisrisiko bzw. Risiko in der Kontrollgruppe bezogen werden, um absolute Risiken zu berechnen. Im Idealfall stammen die Basisrisiken von Beobachtungsstudien, die repräsentative Patienten einschließen und leicht messbare prognostische Faktoren identifizieren, und Gruppen mit verschiedenen Basis-Risiken definieren. Falls solche Studien fehlen, werden relevante randomisierte kontrollierte Studien für Schätzungen des Basisrisikos herangezogen. Falls Konfidenzintervalle um den relativen Effekt 1,0 als Maß für keinen Unterschied einschließen, kann man in der Spalte mit dem absoluten Risiko einfach angeben, dass die Ergebnisse keinen signifikanten Unterschied zeigen, den Effektschätzer weglassen und nur die Konfidenzintervalle aufführen, oder man fügt einen Kommentar hinzu, der auf die mit dem Effektschätzer verbundene Unsicherheit hinweist. Kernaussagen Summary-of-Findings-Tabellen bieten prägnante, leicht verstehbare Darstellungen des Vertrauens in Effektschätzer (Qualität der Evidenz) und der Größe der Effekte. Summary-of-Findings-Tabellen sollten die sieben (oder weniger) wichtigsten Endpunkte darstellen — diese Endpunkte sollten immer patientenrelevant und niemals Surrogat-Endpunkte sein, obwohl Surrogat-Endpunkte verwendet werden können, um Effekte auf patientenrelevante Endpunkte abzuschätzen. Summary-of-Findings-Tabellen sollten die Evidenz höchster Qualität darstellen. Wenn die Qualität von zwei Evidenzkörpern (z.B. randomisierte kontrollierte Studien und Beobachtungsstudien) vergleichbar ist, können Summary-of-Findings-Tabellen Zusammenfassungen von beiden beinhalten. Summary-of-Findings-Tabellen sollten sowohl relative als auch absolute Effektmaße enthalten sowie Schätzungen von absoluten Effekten für identifizierbare Patientengruppen mit wesentlich unterschiedlichen Basis- oder Kontrollgruppen-Risiken.

KEYWORDS GRADE; summary of findings; evidence profile; confidence in estimates; quality of evidence; systematic reviews

Summary Summary of Findings (SoF) tables present, for each of the seven (or fewer) most important outcomes, the following: the number of studies and number of participants; the confidence in effect estimates (quality of evidence); and the best estimates of relative and absolute effects. Potentially challenging choices in preparing SoF tables include using direct evidence (which may have very few events) or indirect evidence (from a surrogate) as the best evidence for a treatment effect. If a surrogate is chosen, it must be labeled as substituting for the corresponding patient-important outcome. Another such choice is presenting evidence from low-quality randomised trials or high-quality observational studies. When in doubt, a reasonable approach is to present both sets of evidence; if the two bodies of evidence have similar quality but discrepant results, one would rate down further for inconsistency. For binary outcomes, relative risks (RRs) are the preferred measure of relative effect and, in most instances, are applied to the baseline or control group risks to generate absolute risks. Ideally, the baseline risks come from observational studies including representative patients and identifying easily measured prognostic factors that define groups at differing risk. In the absence of such studies, relevant randomised trials provide estimates of baseline risk. When confidence intervals (CIs) around the relative effect include no difference, one may simply state in the absolute risk column that results fail to show a difference, omit the point estimate and report only the CIs, or add a comment emphasizing the uncertainty associated with the point estimate. Key Statements Summary of Findings (SoF) tables provide succinct; easily digestible presentations of confidence in effect estimates (quality of evidence) and magnitude of effects. SoF tables should present the seven (or fewer) most important outcomes. These outcomes must always be patient-important outcomes and never be surrogates, although surrogates can be used to estimate effects on patient-important outcomes. SoF tables should present the highest quality evidence. When the quality of two bodies of evidence (e.g., randomised trials and observational studies) is similar, SoF tables may include summaries from both. SoF tables should include both relative and absolute effect measures, and separate estimates of absolute effect for identifiable patient groups with substantially different baseline or control group risks.

648

Kasten 1: Die sieben Elemente einer Summary-ofFindings-Tabelle 1. Eine Liste aller wichtigen Endpunkte, sowohl erwünschte als auch unerwünschte. 2. Die typische Häufigkeit dieser Endpunkte (z.B. Risiko in der Kontrollgruppe oder Basisrisiko). 3. Das Risiko in der Interventionsgruppe oder — alternativ oder zusätzlich — der Unterschied zwischen den Risiken mit und ohne Intervention. 4. Die relative Größe des Effekts. 5. Anzahl der Teilnehmer und der Studien, die diese Endpunkte untersuchen. 6. Eine Einschätzung des Gesamt-Vertrauens in die Effektschätzer für jeden Endpunkt, die je nach Endpunkt variieren kann. 7. Ggfs. Kommentare.

Einführung In den ersten elf Artikeln dieser Serie wurde der GRADE-Ansatz für systematische Übersichtsarbeiten und die Leitlinienentwicklung vorgestellt [1], die Formulierung einer Fragestellung diskutiert [2] sowie das Konzept von GRADE für das Vertrauen in Effektschätzer [3] — und wie man es anwendet [4—9] — dargestellt. In diesem zwölften Artikel wird das finale Produkt einer mit dem GRADE-Ansatz erstellten systematischen Übersichtsarbeit, die Summaryof-Findings-Tabelle, beschrieben. Darin werden für jeden relevanten Vergleich alternativer Behandlungsmethoden die Bewertung der Qualität der Evidenz für jeden Endpunkt, die beste Schätzung der Größe eines Behandlungseffektes mit einem relativen Effektmaß sowie die absoluten Effekte, die ggfs. in Subgruppen von Patienten mit unterschiedlichem Basis- oder Kontrollgruppen-Risiko gesehen werden, dargestellt. Der Schwerpunkt des vorliegenden Artikels liegt auf dichotomen Endpunkten. In Kasten 1 sind die sieben für Summary-of-FindingsTabellen empfohlenen Elemente dargestellt. Die Tabellen 1, 2 und 3 zeigen Beispiele von Summary-of-Findings-Tabellen, wobei einige Probleme bei der Erstellung dieser Tabellen hervorgehoben werden; zusätzliche Informationen findet man zum Beispiel in Kapitel 11 des Cochrane-Handbuchs [10].

Die sieben Elemente einer Summary-of-Findings-Tabelle

G. Langer et al. fanden. Andererseits hat eine RCT mit verschiedenen Formaten gezeigt, dass einige Anwender abweichende Formate von Summary-of-Findings-Tabellen, beispielsweise wie in Tabelle 2 oder 3, vorziehen [14]. In Tabelle 2 wird das Relative Risiko (RR) vor dem absoluten Risiko dargestellt, da das RR verwendet wird, um das absolute Risiko zu berechnen, wobei sowohl in Tabelle 2 als auch in Tabelle 3 die absolute Differenz zwischen den Gruppen in einer Spalte dargestellt wird. GRADEpro wurde unter Berücksichtigung dieser Punkte programmiert und wird immer flexibler, was die Darstellung alternativer Formate anbelangt. Ebenso besteht Unsicherheit hinsichtlich der optimalen Terminologie. In Tabelle 1 werden die Begriffe ,,beispielhafte vergleichende Risiken‘‘ und die Benennung ,,vermutetes Risiko‘‘ verwendet, weil die Unsicherheit in der Schätzung des Ausgangsrisikos bei den Berechnungen ignoriert wird. Manche GRADE-Mitglieder finden allerdings, dass der Begriff ,,beispielhafte vergleichende Risiken‘‘ verwirrend sein könnte, und andere Tabellen verwenden stattdessen den Begriff ,,absolutes Risiko‘‘. In den anderen beiden Tabellen werden alternative Benennungen für die Risiken in der Kontrollgruppe und der Interventionsgruppe verwendet. Weitere Untersuchungen führen womöglich zu zusätzlichen Informationen über die optimalen Formulierungen. In Tabelle 4 ist das komplette Evidenzprofil der Daten aus Tabelle 1 dargestellt, die sich auf die erwünschten und unerwünschten Folgen des Tragens von Kompressionsstrümpfen auf Langstreckenflügen beziehen. Die Tabelle ist dabei bei einigen (hier schattiert dargestellten) Zellen atypisch, da sie zwei verschiedene Einschätzungen enthält, die auf der gleichen Evidenz beruhen — eine ist normal, die andere kursiv dargestellt. Die normal dargestellte erste Einschätzung ist die Beurteilung durch Autoren eines Cochrane Reviews [15], die kursiv dargestellte zweite Art die Beurteilung durch Thrombose-Experten in einer vom American College of Chest Physicians geförderten Leitlinie [16]. An diesem Beispiel kann man eindrucksvoll einen der großen Vorteile von GRADE erkennen: Es geht nicht darum, Einschätzungen — und folglich Unstimmigkeiten — zu beseitigen, sondern vielmehr darum, die Einschätzungen transparent zu machen. Bei den vielen nicht eindeutigen Entscheidungen, die bei der Beurteilung von Evidenz nötig sind, wird es zwischen Individuen immer wieder zu Unstimmigkeiten kommen. Mit GRADE können die Leser sogleich die Unstimmigkeit einschätzen, und Entscheidungsträger sind dann in der Lage, ihre eigenen Beurteilungen der relevanten Punkte vorzunehmen. In der Summary-of-Findings-Tabelle (Tabelle 1) wurde die Beurteilung der Cochrane-Reviewer verwendet.

Die Wahl der zu präsentierenden Endpunkte Summary-of-Findings-Tabellen beinhalten sieben Elemente (siehe Kasten 1). Durch die Einheitlichkeit der Darstellung wird der Anwender mit den Summary-of-Findings-Tabellen vertraut, weshalb auch GRADEpro diese Form der Darstellung unterstützt [11]. Unter Einbeziehung von Leitlinienanwendern (Kliniker und Forscher) wurde das in Tabelle 1 dargestellte Format entwickelt [12,13]. In Tabelle 1 wurden die Spalten nach Wichtigkeit abnehmend angeordnet; die Darstellung der absoluten Risiken beruht darauf, dass einige Anwender die Darstellung von Risikodifferenzen verwirrend

In Summary-of-Findings-Tabellen sollten im Idealfall alle patientenrelevanten Endpunkte — vielleicht mit Kennzeichnung der kritischen Endpunkte — dargestellt werden, ohne den Leser zu überfluten. GRADE schlägt vor, nicht mehr als sieben Endpunkte darzustellen, und zwar sowohl Endpunkte zum Nutzen wie auch zum Schaden. Falls mehr als sieben Endpunkte als wichtig eingestuft wurden, sollten die Reviewer die sieben wichtigsten auswählen. Diese Zahl basiert auf einer Einschätzung der Informationsmenge,

Summary-of-Findings-Tabelle: Kompressionsstrümpfe im Vergleich zu keinen Kompressionsstrümpfen bei Personen auf Langstreckenflügen.

Patient oder Population: Personen auf Langstreckenflügen (mehr als 6 h Flugzeit) Setting: Internationaler Flugverkehr Intervention: Kompressionsstrümpfea Vergleich: Keine Kompressionsstrümpfe Endpunkte

Vergleichende Risikenb (95% CI) Vermutetes Risiko ohne Kompressionsstrümpfe

Entsprechendes Risiko mit Kompressionsstrümpfen

Symptomatische tiefe Venenthrombose

0 von 1.000

0 von 1.000 (-1,5 bis 1,5)

Symptomatische tiefe Venenthrombose — abgeleitet von symptomloser tiefer Venenthrombose

Population mit niedrigem Risikod 5 von 10.000 0,5 von 10.000 (0 bis 1,25) Population mit hohem Risiko 18 von 10.000 1,8 von 10.000 (1 bis 8) 13 von 1.000 6 von 1.000 (2 bis 15)

Oberflächliche Venenthrombose

Ödeme (nach dem Fliegen erhoben, Skala von 0 = kein Ödem bis 10 = maximales Ödem)

Der durchschnittliche Ödem-Score bewegte sich in den Kontrollgruppen zwischen 6,4 und 8,9

Der durchschnittliche Ödem-Score war in den Interventionsgruppen 4,72 Punkte niedriger (4,91 bis 4,52)

Relativer Effekt (95% CI)

Anzahl Teilnehmer (Studien)

Qualität der Evidenz (GRADE)

Kommentare

Nicht bestimmbar

2.637 (9)

⊕⊕⊕ moderat wegen unzureichender Präzisionc

In diesen Studien entwickelte kein Teilnehmer eine symptomatische tiefe Venenthrombose

RR 0,10 (0,04 — 0,25)

2.637 (9)

⊕⊕⊕ moderat wegen Indirektheite

RR 0,45 (0,18 — 1,13)

1.804 (8)

⊕⊕⊕ moderat wegen Indirektheitf

1.246 (6)

⊕⊕ niedrig wegen Bias-Risiko (unverblindete, nicht validierte Messmethode)g

Konfidenzintervall beinhaltet sowohl Nutzen als auch Schaden Alle Studien wurden von den gleichen Forschern durchgeführt. Das Ausmaß der Ödeme scheint unglaubwürdig groß.

GRADE-Leitlinien: 12. Erstellen von ,,Summary-of-Findings‘‘-Tabellen — Dichotome Endpunkte

Tabelle 1

649

650

Tabelle 1 (Fortsetzung ) Patient oder Population: Personen auf Langstreckenflügen (mehr als 6 h Flugzeit) Setting: Internationaler Flugverkehr Intervention: Kompressionsstrümpfea Vergleich: Keine Kompressionsstrümpfe Endpunkte

Vergleichende Risikenb (95% CI) Vermutetes Risiko ohne Kompressionsstrümpfe

Entsprechendes Risiko mit Kompressionsstrümpfen

Lungenembolie

0 von 1.000

0 von 1.000 (-1,5 bis 1,5)

Lungenembolie — abgeleitet von symptomloser tiefer Venenthrombose

Population mit niedrigem Risikod 27 von 1.000.000 3 von 1.000.000 (1 bis 7) Population mit hohem Risiko 97 von 1.000.000 10 von 1.000.000 (4 bis 95) Keine Schätzungen verfügbar, das Risiko ist allerdings extrem gering

Tod

Relativer Effekt (95% CI)

Anzahl Teilnehmer (Studien)

Qualität der Evidenz (GRADE)

Kommentare

Nicht bestimmbar

2.637 (9)

In diesen Studien entwickelte kein Teilnehmer eine Lungenembolie

RR 0,10 (0,04 — 0,25)

2.637 (9)

⊕⊕⊕ moderat wegen unzureichender Präzisionc ⊕⊕⊕ moderat wegen Indirektheite

Nicht bestimmbar

2.637 (9)

Siehe Kommentar

Kein Teilnehmer verstarb in den Studien, nur geringer Anteil der Lungenembolien würde zum Tode führen

G. Langer et al.

Patient oder Population: Personen auf Langstreckenflügen (mehr als 6 h Flugzeit) Setting: Internationaler Flugverkehr Intervention: Kompressionsstrümpfea Vergleich: Keine Kompressionsstrümpfe Endpunkte

Vergleichende Risikenb (95% CI) Vermutetes Risiko ohne Kompressionsstrümpfe

Nebenwirkungen

Siehe Kommentar

Relativer Effekt (95% CI)

Anzahl Teilnehmer (Studien)

Qualität der Evidenz (GRADE)

Kommentare

Nicht bestimmbar

1.182 (4)

⊕⊕ niedrig wegen Bias-Risiko (unverblindete, nicht validierte Messmethode)

Die Akzeptanz der Kompressionsstrümpfe wurde als sehr gut beschrieben, es gab keine Beschwerden über Nebenwirkungen in den vier Studienh

Entsprechendes Risiko mit Kompressionsstrümpfen

Abkürzungen: CI — Konfidenzintervall; RR — Relatives Risiko a Alle Kompressionsstrümpfe in den neun Studien waren knielang. In vier Studien war die Kompressionsstärke 20-30 mmHg am Knöchel, in den anderen vier Studien 10-20 mmHg. Die Kompressionsstrümpfe wurden in verschiedenen Größen angeboten. Wenn ein Kompressionsstrumpf zu eng im Kniebereich ist, kann der venöse Rückfluss eingeschränkt und das Blut im Kniebereich gestaut werden. Kompressionsstrümpfe sollten angemessen angepasst werden. Ein zu enger Kompressionsstrumpf kann die Haut auf einem langen Flug einschnüren und möglicherweise Druckstellen hervorrufen; zudem ist das Risiko einer tiefen Venenthrombose erhöht. Manche Kompressionsstrümpfe sind geringfügig dicker als normale Strümpfe und können daher in Verbindung mit engen Schuhen einschnürend wirken. Es ist sinnvoll, die Kompressionsstrümpfe vor einer Reise zunächst zu Hause zu tragen, um ein angenehmes Tragegefühl sicherzustellen. In den meisten Studien wurden die Strümpfe 2-3 Stunden vor dem Flug angezogen. Verfügbarkeit und Kosten von Kompressionsstrümpfen können sich unterscheiden. b Die Basis des vermuteten Risikos ist in Fußnoten angegeben. Das entsprechende Risiko (und sein 95%-Konfidenzintervall) basiert auf dem vermuteten Risiko in der Interventionsgruppe und dem relativen Effekt der Intervention (und seinem 95%-Konfidenzintervall). c Die unzureichende Präzision bezieht sich auf absolute, nicht auf relative Effekte. Bei der Entscheidung zur Herabstufung wurde davon ausgegangen, dass bereits eine sehr geringe Reduktion von venösen Thrombosen oder Lungenembolien als wichtig angesehen wird. Es ist nicht möglich, einen relativen Effektschätzer zu berechnen. d Die Schätzungen der Ereignisrate in der Kontrollgruppe für Venenthrombose und Lungenembolie stammen von Philbrick JT, Shumate R, Siadaty MS, et al. Air travel and venous thromboembolism: a systematic review. J Gen Intern Med 2007;22:107e114. Die Definition eines hohen Risikos beinhaltet vorangegangene Episoden einer tiefen Venenthrombose, Gerinnungsstörungen, schweres Übergewicht, eingeschränkte Mobilität aufgrund von Knochen- oder Gelenkproblemen, Neoplasien in den letzten 2 Jahren und ausgeprägte Krampfadern. e Hier liegen zwei Gründe für Indirektheit vor: Zum einen stammen die Schätzungen der Relativen Risikoreduktion von einem Surrogat-Endpunkt, zum anderen ist das Ausgangsrisiko unklar. f Das Konfidenzintervall beinhaltet sowohl einen Anstieg als auch eine kleine, aber möglicherweise wichtige Senkung. g Die Messung der Ödeme war nicht validiert oder gegenüber der Intervention verblindet. Alle diese Studien wurden von den gleichen Forschern durchgeführt. h Keine der anderen Studien berichtete Nebenwirkungen, abgesehen von vier Fällen oberflächlicher Venenthrombose bei varikösen Venen im Kniebereich, die durch den oberen Rand des Kompressionsstrumpfs zusammengedrückt wurden (in einer Studie).

GRADE-Leitlinien: 12. Erstellen von ,,Summary-of-Findings‘‘-Tabellen — Dichotome Endpunkte

Tabelle 1 (Fortsetzung )

651

652 Tabelle 2 Summary-of-Findings-Tabelle: Sollte man niedermolekulares Heparin anstelle von Vitamin-K-Antagonisten zur Langzeitbehandlung von venöser Thromboembolie verwenden?a , * Literatur: Low molecular weight heparin compared with vitamin K antagonists for the long treatment of venous thromboembolism: a systematic review. Clive Kearon (unpublished)b Endpunkte

Erwartete absolute Effekte (Zeitraum 6 Monate für alle Endpunkte außer Postthrombotisches Syndrom, dort 2 Jahre) Risiko mit Vitamin-K-Antagonisten

Mortalität insgesamt

Rezidivierende venöse Thromboembolie Symptomatische tiefe Venenthrombose und Lungenembolie

Schwere Blutung

164 von 1.000 Personend

Relativer Effekt (95% CI)

Anzahl Teilnehmer (Studien) Follow-up

Qualität der Evidenz (GRADE)

RR 0,96 (0,81 bis 1,13)

2.496 (7) 6 Monate

RR 0,62 (0,46 bis 0,84)

2.727 (8) 6 Monate

⊕⊕⊕ moderat wegen unzureichender Präzisionc ⊕⊕⊕ moderat wegen Bias-Risiko

RR 0,81 (0,55 bis 1,2)

2.737 (8) 6 Monate

Risikodifferenz mit Niedermolekularem Heparin (95% CI)

⊕⊕⊕ moderat wegen unzureichender Präzisione

G. Langer et al.

Keine signifikante Differenz 7 Tode weniger pro 1.000 Personen (von 31 weniger bis 21 mehr) Niedriges Risiko (keine Krebserkrankunge ) 30 Venöse Thromboembolien bei 1.000 11 Venöse Thromboembolien Personend weniger bei 1.000 Personen (von 5 weniger bis 16 weniger) Moderates Risiko (nicht-metastasierte Krebserkrankunge ) 80 Venöse Thromboembolien bei 1.000 30 Venöse Thromboembolien Personend weniger bei 1.000 Personen (von 13 weniger bis 43 weniger) Hohes Risiko (metastasierte Krebserkrankunge ) 200 Venöse Thromboembolien bei 1.000 76 Venöse Thromboembolien Personend weniger bei 1.000 Personen (von 13 weniger bis 108 weniger) Niedriges bis moderates Risiko (ohne oder mit nicht-metastasierter Krebserkrankunge ) 20 Blutungen bei 1.000 Personenf Keine signifikanten Unterschiede 4 weniger Blutungen bei 1.000 Personen (von 9 weniger bis 4 mehr)

Literatur: Low molecular weight heparin compared with vitamin K antagonists for the long treatment of venous thromboembolism: a systematic review. Clive Kearon (unpublished)b Endpunkte

Erwartete absolute Effekte (Zeitraum 6 Monate für alle Endpunkte außer Postthrombotisches Syndrom, dort 2 Jahre) Risiko mit Vitamin-K-Antagonisten

Post-thrombotisches Syndrom Selbst berichtete Bein-Symptome

Relativer Effekt (95% CI)

Anzahl Teilnehmer (Studien) Follow-up

Qualität der Evidenz (GRADE)

RR 0,85 (0,77 bis 0,94)

100 (1 RCT) Median 3 Monate

⊕⊕ niedrig wegen Bias-Risiko und unzureichender Präzision

Risikodifferenz mit Niedermolekularem Heparin (95% CI)

Hohes Risiko (metastasierte Krebserkrankung) 80 Blutungen bei 1.000 Keine signifikanten Personenf Unterschiede 15 weniger Blutungen bei 1.000 Personen (von 36 weniger bis 16 mehr) 200 Post-thrombotische 30 weniger bei 1.000 Personen Syndrome bei 1.000 (von 12 weniger bis 46 weniger) Personeng

Abkürzungen: CI — Konfidenzintervall; RR — Relatives Risiko; RCT — Randomisierte kontrollierte Studie * Die Grundlage für das Basisrisiko (z.B. Median der Risiken in den Kontrollgruppen aller Studien) wird in den Fußnoten angegeben. Der erwartete absolute Effekt ist als Risikodifferenz (mit 95% CI) angegeben und basiert auf dem Basisrisiko in der Vergleichsgruppe und dem relativen Effekt der Intervention (mit 95% CI). a Beschränkung auf Studien mit Niedermolekularem Heparin, die mindestens 50% der Dosis der Akutbehandlung während der erweiterten Phase der Behandlung verwendeten. b Die Meta-Analyse basiert auf RCTs wie von Kearon et al. in Chest, 2012, Suppl. e419S-94 beschrieben. Die Schätzung des Mortalitätsrisikos in der Kontrollgruppe bezieht sich auf diese Meta-Analyse. c Es wurde nicht wegen eines Bias-Risikos herabgestuft: grenzwertig, da möglicherweise selektives Berichten von Endpunkte, da eine Studie keine Angaben zu Todesfällen macht. d Die Schätzungen der Ereignisrate in der Kontrollgruppe stammen aus der Kohortenstudie von Prandoni (2002) und wurden auf einen Zeitraum von 6 Monaten adjustiert. e Keine Herabstufung wegen eines Bias-Risikos, obwohl der Endpunkt schwere Blutung nicht verblindet erhoben wurde, da dieser Endpunkt wenig subjektiv scheint. f Die Schätzungen der Ereignisrate in der Kontrollgruppe stammen aus den Kohortenstudien von Prandoni (2002) und Beth (1995) und wurden auf einen Zeitraum von 6 Monaten adjustiert. g Die Schätzungen der Ereignisraten in der Kontrollgruppe stammen aus Beobachtungsstudien einer Übersichtsarbeit von Kahn (2004) und wurden auf einen Zeitraum von 2 Jahren adjustiert. Alle Patienten trugen Kompressionsstrümpfe.

GRADE-Leitlinien: 12. Erstellen von ,,Summary-of-Findings‘‘-Tabellen — Dichotome Endpunkte

Tabelle 2 (Fortsetzung )

653

654 Tabelle 3 Summary-of-Findings-Tabelle: RCTs zu niedrig-energetischem gepulsten Ultraschall (LIPUS) zur schnelleren Wiederherstellung der Funktion (gemessen durch direkte Endpunkte und einen Surrogat-Endpunkt: Frakturheilung im Röntgenbild). Endpunkte

Konservativ behandelte frische Frakturen: Funktionswiederherstellung Konservativ behandelte frische Frakturen: Funktionswiederherstellung, abgeleitet aus Surrogat-Endpunkt Heilung im Röntgenbild

Anzahl Studien/Patienten

1 RCT; 101 Patienten 3 RCTs; 158 Patienten

Absoluter Effekt Ausgangsrisiko

Mittelwertdifferenz (95% CI)

15,1 Tage

Clavicula: 1,95 Tage (-6,33 bis 2,42)

190 Tage

77 Tage

62 Tage Operativ behandelte frische Frakturen: Funktionswiederherstellung Operativ behandelte frische Frakturen: Funktionswiederherstellung, abgeleitet aus Surrogat-Endpunkt Heilung im Röntgenbild

2 RCTsa ; 61 Patienten

79,1 Tage

2 RCTs; 61 Patienten

132,5 Tage

Tibia -88 Tage (-50,4 bis -125,6) Radius -26 Tage (-6,4 bis -38,6) Kahnbein -18,8 Tage (-7,6 bis -30,0) Tibia: -24,0 Tage (+14,3 bis -62,3) Tibia: -17,7 Tage (+69,8 bis -105,2)

Relativer Effekt (95% CI)

Qualität der Evidenz (GRADE)

13% Anstieg der Zeit bis zur Rückkehr zur Arbeit (6,0% Abnahme bis 37,0% Anstieg) 36,9% Reduktion der Heilungszeit (25,6% bis 46,0%)

⊕⊕⊕ moderat wegen unzureichender Präzision ⊕⊕ niedrig wegen Bias-Risiko und Indirektheit durch Surrogat-Endpunkt

27,5% Reduktion der Zeit bis zur Vollbelastung (9,5% Anstieg bis 52,0% Abnahme) 16,6% Reduktion der Heilungszeit (76,8% Anstieg bis 60,7% Abnahme)

⊕⊕ niedrig wegen Bias-Risiko und unzureichender Präzision ⊕ sehr niedrig wegen Bias-Risiko und unzureichender Präzision und Indirektheit durch Surrogat-Endpunkt

Abkürzungen: CI — Konfidenzintervall; RCT — Randomisierte kontrollierte Studie a Eine dritte — negative — Studie von Handolin et al. (2005) berichtete zwar einen funktionalen Endpunkt, den mittleren Olerud-Molander-Score, machte aber keine Angaben zur entsprechenden Varianz, weshalb die Daten nicht gepoolt werden konnten.

G. Langer et al.

Evidence-Profil: Kompressionsstrümpfe vs. keine Kompressionsstrümpfe bei Personen auf Langstreckenflügena

Bewertung der Qualität

Übersicht der Ergebnisse Anzahl der Patienten

Anzahl Studien (Design)

Einschränkungen

Inkonsistenz

Indirektheit

Unzureichende Präzision

Publikations- Ohne Bias Kompressionsstrümpfe

Symptomatische tiefe Beinvenenthrombose (DVT) — direkte Evidenz 9 Keine Keine Keine Keine Unerkannt 0/1.323 (RCT) schwerwiegenden schwerwiegende schwerwiegende schwerwiegende Einschränkungen Inkonsistenz Indirektheit Ungenauigkeit Sehr schwerwiegende Einschränkungenb Symptomatische tiefe Beinvenenthrombose (DVT) — indirekte Evidenz (basierend auf symptomloser DVT als Surrogat-Endpunkt für 9 Keine Keine Keine Keine Unerkannt Surrogat (RCT) schwerwiegenden schwerwiegende schwerwiegende schwerwiegende symptomlose Einschränkungen Inkonsistenz Indirektheit Ungenauigkeit DVT Sehr schwerwiegende 47/1.323 Einschränkungenb

Oberflächliche Venenthrombose 8 Keine (RCT) schwerwiegenden Einschränkungen Schwerwiegende Einschränkungenc

Keine schwerwiegende Inkonsistenz

Keine schwerwiegende Indirektheit

Schwerwiegende Ungenauigkeit

Unerkannt

Ödeme (Werte wurden nach dem Flug auf einer Skala von 0 = kein Ödem bis 10 = maximales Ödem gemessen) 6 Sehr schwerwiegende Keine Keine Keine Unerkannt (RCT) Einschränkungend schwerwiegende schwerwiegende schwerwiegende Inkonsistenz Indirektheit Ungenauigkeit

12/901

Absolutes Risiko

Mit Relatives KompressiRisiko onsstrümpfen (95% CI)

Kontrollrate1

Risikodifferenz

Qualität

0/1.314

0/1.000

0/1.000 (-1,5 bis 1,5)

⊕⊕⊕ moderat ⊕ sehr niedrig

5/10.000

Niedriges Risiko 4,5/10.000 (4 - 5)

⊕⊕⊕ moderat ⊕ sehr niedrig

18/10.000

Hohes Risiko 16,2/10.000 (14 — 17,5)

RR 0,45 (0,18 — 1,13)

13/1.000

Ergebnisse konnten keine Unterschiede zwischen Kompressionsstrümpfen und keinen Kompressionsstrümpfen zeigen



Gewichtete Mittelwertdifferenz -4,72 (-4,91 bis -4,52) zugunsten Kompressionsstrümpfe

Nicht einschätzbar (keine Ereignisse)

symptomatische DVT) RR 0,10 Surrogat symptomlose (0,04 — 0,25) DVT 3/1.314

4/903

7- oder 8-Stunden-Flug Mittelwert Mittelwert 2,2 — 2,4; 6,4 — 6,9; 348 349 Teilnehmer Teilnehmer 12-Stunden-Flug Mittelwert Mittelwert 7,9 — 8,9; 2,6 — 3,3; 272 277 Teilnehmer Teilnehmer

⊕⊕⊕ moderat ⊕⊕ niedrig

⊕⊕ niedrig

GRADE-Leitlinien: 12. Erstellen von ,,Summary-of-Findings‘‘-Tabellen — Dichotome Endpunkte

Tabelle 4

655

656

Tabelle 4 (Fortsetzung ) Bewertung der Qualität

Übersicht der Ergebnisse Anzahl der Patienten

Anzahl Studien (Design)

Einschränkungen

Inkonsistenz

Indirektheit

Unzureichende Präzision

Publikations- Ohne Bias Kompressionsstrümpfe

Lungenembolie — direkte Evidenz 9 Keine Keine Keine Keine Unerkannt 0/1.323 (RCT) schwerwiegenden schwerwiegende schwerwiegende schwerwiegende Einschränkungen Inkonsistenz Indirektheit Ungenauigkeit Sehr schwerwiegende Einschränkungenb Lungenembolie — indirekte Evidenz (basierend auf symptomloser DVT als Surrogat-Endpunkt für symptomatische DVT) 9 Keine Keine Schwerwiegende Keine Unerkannt Surrogat (RCT) schwerwiegenden schwerwiegende Indirektheit schwerwiegende symptomlose Einschränkungen Inkonsistenz Ungenauigkeit DVT Sehr schwerwiegende 47/1.323 Einschränkungenb Nebenwirkungen 4 Sehr schwerwiegende (RCT) Einschränkungen

Keine schwerwiegende Inkonsistenz

Keine schwerwiegende Indirektheit

Keine schwerwiegende Ungenauigkeit

Unerkannt

0/1.182

Absolutes Risiko

Mit Relatives KompressiRisiko onsstrümpfen (95% CI)

Kontrollrate1

Risikodifferenz

Qualität

0/1.314

Nicht einschätzbar (keine Ereignisse)

0/1.000

0/1.000 (-1,5 — 1,5)

⊕⊕⊕⊕ hoch ⊕⊕ niedrig

Surrogat symptomlose DVT 3/1.314

RR 0,10 27/1.000.000 (0,04 — 0,25)

Niedriges Risiko 24/1.000.000 (20 - 26) Hohes Risiko 87/1.000.000 (76 — 94)

⊕⊕⊕ moderat

0/1.182

Nicht einschätzbar (keine Ereignisse)

97/1.000.000

Die Akzeptanz der Kompressionsstrümpfe wurde als sehr gut beschrieben mit keinerlei Beschwerden über Nebenwirkungen

⊕ sehr niedrig ⊕⊕ niedrig

Abkürzungen: DVT — Tiefe Beinvenenthrombose; CI — Konfidenzintervall; RCT — Randomisierte kontrollierte Studie; RR — Relatives Risiko a Die Fußnoten von Tabelle 1 treffen hier ebenfalls zu, wurden aber nicht nochmals wiederholt. b Thrombose-Experten waren der Meinung, dass eine offene Zuteilung, fehlende Verblindung und die Verwendung eines technisch überholten Verfahrens zur Bestätigung einer Thrombose sehr schwerwiegende Einschränkungen darstellen. Die Cochrane-Gruppe stufte dies nicht als schwerwiegende Einschränkung ein. c Schwerwiegende Einschränkungen beinhalteten eine offene Zuteilung und eine fehlende Verblindung. d Die Cochrane-Gruppe war der Meinung, dass eine offene Zuteilung und fehlende Verblindung sehr schwerwiegende Einschränkungen im Kontext eines nicht validierten Instruments zur Ödemeinschätzung und der Beschreibung der Akzeptanz der Kompressionsstrümpfe darstellen. Die Thrombose-Experten gingen auf diese Endpunkte nicht ein.

G. Langer et al.

GRADE-Leitlinien: 12. Erstellen von ,,Summary-of-Findings‘‘-Tabellen — Dichotome Endpunkte die Leser erfassen können, sowie auf einer informellen Befragung von Teilnehmern eines Cochrane Colloquiums und ist daher willkürlich. Die Begrenzung auf sieben kann es erforderlich machen, ähnliche aber doch unterschiedliche Endpunkte von annähernd gleicher Wichtigkeit zu kombinieren, zum Beispiel die Berechnung und Darstellung der Anzahl an Patienten, die entweder Erbrechen oder Durchfall hatten, wobei diese beiden Endpunkte als relativ gleichwertige, vorübergehende geringfügige gastrointestinale Effekte erachtet werden.

Darstellung von direkter versus indirekter Evidenz Manchmal sind direkte Ergebnisse zu patientenrelevanten Endpunkten nicht verfügbar oder es traten — wie im Beispiel in Tabelle 1 — keine Ereignisse auf (bei symptomatischer Venenthrombose und Lungenembolie). In diesem Falle sollte der Review, sofern verfügbar, seine Schlüsse bezüglich der Behandlungsoptionen im Hinblick auf patientenrelevante Endpunkte auf der Basis von Surrogat-Markern ziehen. Dass diese Schlussfolgerungen auf Surrogat-Endpunkten beruhen, sollte deutlich gekennzeichnet sein, und wird fast sicher zu einer Herabstufung des Vertrauens in die Effektschätzer wegen Indirektheit führen. Wie ist nun das Vorgehen, wenn Schlussfolgerungen hinsichtlich patienten-relevanter Endpunkte auf der Grundlage von Surrogat-Endpunkten gezogen werden? Der einfachste Ansatz ist, den besten Schätzer des Ausgangsrisikos für patientenrelevante Endpunkte zu finden, und den relativen Effekt des Surrogat-Endpunktes zu nehmen (siehe Kasten 2 als Beispiel zur Berechnung eines geschätzten Relativen Risikos auf Grundlage eines Ausgangsrisikos). So haben wir in Tabelle 1 zur Schätzung der absoluten Risikoreduktion mit Strümpfen eine Schätzung des Ausgangsrisikos von einer Meta-Analyse herangezogen und das Relative Risiko von dem Surrogat-Endpunkt asymptomatische Thrombose verwendet.

657

Wann immer die direkte Messung eines patientenrelevanten Endpunktes suboptimal ist (wie bei niedriger Qualität der Evidenz) und ein Surrogatendpunkt vorhanden ist, haben Reviewer die Möglichkeit, sich auf denjenigen Endpunkt (den direkten oder den Surrogatendpunkt) zu konzentrieren, von dem sie denken, dass sich eine höhere Qualität der Evidenz ergibt, oder aber — wie in Tabelle 1 — sie präsentieren beides. Auf jeden Fall müssen Reviewer, wie in Tabelle 1 dargestellt, den Surrogatendpunkt kennzeichnen (in diesem Fall asymptomatische Venenthrombose), wenn sie sich dazu entscheiden, teilweise oder komplett Surrogat-Ergebnisse zu wählen, und müssen in der Darstellung den patientenrelevanten Endpunkt darstellen, für den der Surrogatendpunkt steht (hier: symptomatische Venenthrombose). Ein weiterer Grund, sowohl direkte als auch indirekte Maße zu verwenden, ist, dass beide Maße für die Zielgruppe der Übersichtsarbeit oder Leitlinie wichtig sein können. In Tabelle 3 findet sich ein Beispiel für eine solche Situation: Hier befassen sich die Review-Autoren mit dem Effekt von niedrig-energetischem gepulsten Ultraschall (LIPUS) auf die Frakturheilung [17]. Obwohl man argumentieren könnte, dass die einzige Studie, die sich direkt auf die Funktion bezieht, die höhere Qualität der Evidenz aufweist, sehen die Anwender die klinische Relevanz — vielleicht irrtümlich — eher bei der radiologischen Frakturheilung (als SurrogatEndpunkt der Funktion). Daher stellten die Forscher für nicht-operativ versorgte Frakturen und für operativ versorgte Frakturen beides dar, nämlich die direkte Evidenz der funktionellen Verbesserung aus einer Studie und die indirekte Evidenz der radiologischen Heilung, trotz der Tatsache dass die direkte Evidenz von höherer Qualität war, weil sie nicht wegen Indirektheit abgestuft wurde (Tabelle 3).

Darstellung von randomisierten kontrollierten Studien (RCTs) oder Beobachtungsstudien RCTs bieten in der Regel eine höhere Qualität der Evidenz als Beobachtungsstudien und daher sollten sich Summary-

Kasten 2: Berechnungen in Summary-of-Findings-Tabellen und Evidenzprofilen Das RR einer symptomatischen tiefen Venenthrombose auf der Basis von 9 RCTs beträgt 0,10 (95% CI 0,04;0,26). Das Risiko in der Kontrollgruppe (geschätztes oder angenommenes Risiko) aus Beobachtungsstudien beträgt 5 pro 10.000 Patienten. Risiko mit Intervention(korrespondierendes Risiko)

Risikodifferenz

= Risiko in der Kontrollgruppe × RR = 5 ×0,10 = 0, 5 pro 10.000 = Risiko in Kontrollgruppe − Risiko in Interventionsgruppe = 5 −0,5 = 4,5 pro 10.000

Man geht genauso bei der Berechnung der Konfidenzintervalle um die Risikodifferenz vor, indem man die Extreme des Konfidenzintervalls (in diesem Fall 0,04 und 0,26) für den Punktschätzer (hier 0,10) ersetzt. Beispielsweise gilt für die Obergrenze des Konfidenzintervalls: Risiko mit Intervention Risiko in Kontrollgruppe — Risiko in Interventionsgruppe Risikodifferenz

= 5 ×0,26 = 1, 3 pro 10.000 = 5 −1,3 = 3,7 pro 10.000 0,74 × 5 3,7 = = 10.000 10.000

658

G. Langer et al.

of-Findings-Tabellen, sofern RCTs verfügbar sind, in der Regel auf die Ergebnisse von RCTs beschränken. Gelegentlich können jedoch Limitationen von RCTs oder besondere Stärken von Beobachtungsstudien zu Schlussfolgerungen führen, dass ähnliches Vertrauen in die Effektschätzer vorliegt, oder gar dass Beobachtungsstudien höhere Qualität der Evidenz liefern. Betrachten wir zum Beispiel die Verwendung von Octreotid, um bei Patienten mit Sulfonylharnstoff-Überdosierung einer wiederkehrenden Hypoglykämie vorzubeugen. Weder Beobachtungsstudien noch RCTs untersuchen die Mortalität oder Langzeitfolgen; daher müssen die Entscheidungen auf der Häufigkeit wiederkehrender Hypoglykämien unter intravenöser Glukosegabe beruhen. In dem einzigen RCT, in dem dieses Problem untersucht wurde, wurde eine Einzeldosis Octreotid verabreicht (dieses Medikament wird üblicherweise als kontinuierliche Tropfinfusion gegeben) [18]. Von den in die Octreotid-Gruppe randomisierten Patienten erlitten 10/22 (45%) wiederkehrende Hypoglykämien im Vergleich zu 6/18 (33%) der Patienten in der Kontrollgruppe (RR 1,36 mit 95% CI 0,61; 3,0). Drei Patienten in der Kontrollgruppe, aber keiner in der aktiv behandelten Gruppe erlitten mehr als eine wiederkehrende Hypoglykämie-Episode. Man könnte das Vertrauen in die Effektschätzer dieser Studie wegen Ungenauigkeit und wegen der Indirektheit der Intervention herabstufen, was auf eine Gesamtbewertung von geringem Vertrauen in die Effektschätzer hinauslaufen würde. Mindestens 27 Fallberichte haben einen deutlichen Rückgang der hypoglykämischen Episoden nach einer Octreotid-Behandlung dokumentiert [19,20]. Ohne unbehandelte Kontrollgruppe würden diese Berichte als sehr niedrige Evidenz eingestuft, aber mit scheinbar großen und schnell eintretenden Effekten (wiederholte Hypoglykämien, die nach der Verabreichung von Octreotid deutlich

Tabelle 5

verringert wurden oder gänzlich verschwanden). In Anbetracht der Größe und Schnelligkeit des Effektes könnte man diese Fallberichte daher in ihrer Gesamtheit als Evidenz von niedriger Qualität einstufen. Angesichts ähnlicher Qualität der Evidenz wäre es unangemessen, sich ausschließlich auf entweder den RCT oder die Fallberichte bei der Erstellung der Summary-of-FindingsTabelle zur Gabe von Octreotid bei Hypoglykämie, die mit einer Überdosis Sulfonylharnstoff verbunden ist, zu beschränken. Die Ergebnisse der Fallberichte und des RCT scheinen inkonsistent; das allgemeine Vertrauen in die Effektschätzer kann daher als niedrig oder sehr niedrig eingestuft werden. Es kann Fälle geben, in denen das Vertrauen in die Effektschätzer aus Beobachtungsstudien deutlich höher ist als aus RCTs; unter diesen Umständen würde man die Summary-of-Findings-Tabellen auf Beobachtungsstudien beschränken. Wenn RCTs eindeutig ein größeres Vertrauen in die Effektschätzer bieten, würde man die Summary-ofFindings-Tabellen auf RCTs beschränken. Im Allgemeinen ermutigen wir Autoren von Leitlinien und Übersichtsarbeiten, in Situationen, in denen beide Arten von Studien wichtige Erkenntnisse mit mehr oder weniger gleichem Vertrauen in die Effektschätzer liefern, beide Arten von Studien in separaten Zeilen in einer Summary-of-Findings-Tabelle zusammenzufassen (siehe Tabelle 5).

Der Umgang mit Auswertungen, die zu unterschiedlichen Ergebnissen führen In systematischen Übersichtsarbeiten wird auf der Suche nach den Ursachen von Heterogenität manchmal festgestellt, dass unterschiedliche Auswertungen (,,Sensitivitätsanalysen‘‘) zu deutlich unterschiedlichen

Summary-of-Findings-Tabelle: Anwendung von Octreotid bei Patienten mit Sulfonylharnstoff-Überdosierung.

Endpunkte

Anzahl Studien/Patienten

Erwartete absolute Effekte Risiko ohne Octreotid

Risikodifferenz mit Octreotid (95% CI)

Relativer Effekt (95% CI)

Qualität der Evidenz (GRADE)

Rezidivierende Hypoglykämie aus randomisierten kontrollierten Studien

1 RCT; 40 Patienten in der Notaufnahme

33%

Kein signifikanter Unterschied 7 Todesfälle weniger pro 1.000 (von 31 weniger bis 21 mehr)

RR 1,36 (0,61 bis 3,0)

⊕⊕ niedrig wegen unzureichender Präzision und Indirektheit

Persistierende Hypoglykämie aus Beobachtungsstudien

27 Fallberichte

Alle Patienten hatten eine persistierende Hypoglykämie

Alle Fallberichte beschrieben eine Verminderung der Hypoglykämie nach Gabe von Octreotid

Alle Fallberichte beschrieben eine Verminderung der Hypoglykämie nach Gabe von Octreotid

⊕⊕ niedrig wegen Beobachtungsstudien. Würde sehr niedrig ohne Kontrollgruppe, aber die Effekte sind groß und rasch in manchen Berichten

Abkürzungen: CI — Konfidenzintervall; RCT — Randomisierte kontrollierte Studie; RR — Relatives Risiko

Summary-of-Findings-Tabelle — Darstellung seltener Endpunkte: Ratenverhältnisse und Lebensqualitätsdaten.

Kombiniertes Corticosteroid und lang wirkender Beta-Agonist in einem Inhalator bei Chronisch-obstruktiver Lungenerkrankung (COPD) Patient oder Population: Patienten mit mittlerer und schwerer COPD Setting: Ambulante Versorgung Intervention: Corticosteroid und lang wirkender Beta-Agonist in einem Inhalatora Vergleichsintervention: keine Behandlung Endpunkte

Anzahl Patienten (Studien)

Absolute Risikenb (95% CI)

Relativer Effekt (95% CI)

Geschätztes Risiko in der Kontrollgruppe, keine Behandlung

Korrespondierendes Risiko; Kombi-Inhalator Die durchschnittliche Exazerbationsrate in der Interventionsgruppe betrug 2 Exazerbationen in 3 Jahrenc Siehe Kommentar

Exazerbationsrate (Follow-up: 3 Jahre)

4.226 (5)

Die durchschnittliche Exazerbationsrate in der Kontrollgruppe betrug 3 Exazerbationen in 3 Jahrenc

Krankenhausaufenthalte

0 (0)

Siehe Kommentar

Mortalität (Follow-up: 3 Jahre) Lebensqualität: St. George’s Respiratory Questionnaire Scale from 0 to 100 (Follow-up: 3 Jahre)

5.752 (7) 3.346 (4)

Pneumonie (Follow-up: 3 Jahre) Irgendwelche Nebenwirkungen (Follow-up: 3 Jahre)

5.739 (8) 5.493 (8)

Population mit mittlerem Risikoc 15/100 12/100 (10; 14) Die durchschnittliche Die durchschnittliche Lebensqualität in der Lebensqualität in der Kontrollgruppe betrug Interventionsgruppe 48 Punktec war 2,90 Punkte weniger (3,61 bis 2,18 niedriger) Population mit mittlerem Risikoc 12/100 20/100 (17; 23) Population mit mittlerem Risikoc 90/100 91/100 (90;92)

Qualität der Evidenz (GRADE)

Kommentare

⊕⊕⊕ moderatd

Ratenverhältnis 0,74 (0,69; 0,79)

Nicht einschätzbar

Siehe Kommentar

In den Studien wurden nur eingeschränkt Daten für Krankenhausaufenthalte berichtet.

OR 0,79 (0,65; 0,96)

⊕⊕⊕⊕ hoch ⊕⊕⊕⊕ hoch

OR 1,83 (1,51; 2,21) OR 1,10 (0,96; 1,27)

⊕⊕⊕⊕ hoch ⊕⊕⊕⊕ hoch

Mittelwertdifferenz erreichte eine für Patienten wichtige Verbesserung von 4 Punkten nicht

Daten aus Fluticason/Salmeterol-Studien

GRADE-Leitlinien: 12. Erstellen von ,,Summary-of-Findings‘‘-Tabellen — Dichotome Endpunkte

Tabelle 6

Abkürzungen: CI — Konfidenzintervall; OR — Odds Ratio; COPD — chonisch-obstruktive Lungenerkrankung a Sowohl lang wirkende Beta-Agonisten als auch inhalierte Corticosteroide können in Kombination zur Behandlung der chronisch-obstruktiven Lungenerkrankung angewendet werden. Von den 11 eingeschlossenen Studien untersuchten 2 Fluticason/Salmeterol mit 250 ␮g/50 ␮g zweimal täglich und 7 Studien mit 500 ␮g/50 ␮g zweimal täglich; 2 untersuchten Budesonid/Formoterol mit 320 ␮g/9 ␮g zweimal täglich. In allen Studien war die Einnahme eines inhalierten kurz wirkenden Beta-Agonisten bei Bedarf erlaubt. b Die Basis für das Risiko der unbehandelten Patienten (z.B. der Median des Risikos in den Kontrollgruppen über alle Studien) ist in Fußnoten angegeben. Das korrespondierende Risiko (mit seinem 95%-Konfidenzintervall) basiert auf dem Risiko der unbehandelten Patienten und dem relativen Effekt der Intervention (mit seinem 95%-Konfidenzintervall). c Das Risiko der unbehandelten Patienten beruht auf der TORCH-Studie. d Der Ausstieg von Patienten mit häufigen schweren Exazerbationen könnte die Ergebnisse verzerrt haben.

659

660 Ergebnissen führen. Beispielsweise fand man in einer systematischen Übersichtsarbeit über Glukosamin zur Behandlung von Osteoarthritis Unterschiede in der Schmerzreduktion, wenn man anstelle von allen Studien nur die Studien mit verdeckter Zuteilung auswertete [21]. Die Autoren konzentrierten sich entsprechend auf die Auswertung, in die sie mehr Vertrauen hatten (in diesem Fall nur die Studien mit verdeckter Zuteilung). Die Darstellung zweier Zeilen, die jeweils die unterschiedlichen Auswertungsansätze zusammenfassen, würde die zwangsläufig weniger informierten Leser bei der Entscheidung, welche Auswertung glaubwürdiger ist, alleine lassen. Daher haben sich die Autoren auf die Analyse, in die sie mehr Vertrauen haben — in diesem Fall nur die Studien mit verdeckter Zuteilung —, beschränkt. Die Autoren haben jedoch das alternative Ergebnis in der Kommentarspalte der Zeile, in der die Ergebnisse zu Schmerzen aufgeführt sind, ergänzt. Dies bedeutet, dass sie sich selbst etwas unsicher waren, welche Auswertung am glaubwürdigsten ist und die Leser daher auf die Alternative hinweisen wollten. Urteile über die Glaubwürdigkeit alternativer Auswertungen erfordern ähnliche Überlegungen wie die zu Subgruppenanalysen — ein Thema, das in einem früheren Artikel dieser Serie aufgegriffen wurde [6].

Relative Effektmaße Relative Effekte lassen sich zum Beispiel als Relatives Risiko (RR; Synonym: Risikoverhältnis, (Risk Ratio)), Chancenverhältnis (Odds Ratio (OR), Ratenverhältnis (Rate Ratio) und ,,Hazard‘‘-Verhältnis (Hazard Ratio (HR) beschreiben [22—24]. ORs haben vorteilhafte statische Eigenschaften [25]; RRs sind jedoch intuitiv verständlicher und einfacher zur Schätzung absoluter Effektmaße bei individuellen Patienten [22] — wir finden diese Vorteile der RRs überzeugend (für nähere Erläuterungen siehe Kasten 3). In Meta-Analysen kann man RRs oder ORs aus Vierfeldertafeln mit geeigneten statistischen Methoden berechnen [23,24]. Die Verwendung von Hazard Ratios erfordert Ereignisdaten und relativ komplexe Auswertungsmethoden [26,27]. Ereignisdaten werden — zumindest außerhalb von Studien zu Krebserkrankungen — selten für eine ganze Gruppe von Studien, die eine bestimmte klinische Fragestellung untersuchen, verfügbar sein. Darüber hinaus sind Klinikern (wieder mit Ausnahme der Kliniker, die sich auf Krebserkrankungen spezialisiert haben) Hazard Ratios weniger vertraut, und Hazard Ratios sind immer weiter entfernt von 1,0 als RRs. Somit könnten Kliniker, die mit RRs für eine Vielzahl von Interventionen vertraut sind, das Ausmaß des Effektes überschätzen, wenn der Effekt einer bestimmten Intervention als Hazard Ratio dargestellt wird. Ein besonderer Fall ist das Berichten von Daten, die — theoretisch — als kontinuierlich betrachtet werden können: das heißt die Anzahl der Ereignisse pro Patient (zum Beispiel die Zahl der Krankheitsverschlimmerungen pro Patient oder die Anzahl neuer Polypen pro Patient in einer Gruppe im Vergleich zu einer anderen Gruppe). Bei seltenen Ereignissen konzentriert sich die Auswertung meist auf Raten. Raten setzen die gezählten Ereignisse in Beziehung zu der Zeit, in der sie auftreten konnten. Zum Beispiel könnte das Ergebnis in einem Studienarm sein,

G. Langer et al.

Kasten 3: Sollten Autoren von Übersichtsarbeiten RRs oder ORs verwenden? RRs und ORs neigen — im Gegensatz zu Risikodifferenzen — dazu, in verschiedenen Risikogruppen ähnlich zu sein. ORs besitzen statistische Eigenschaften, die denen von RRs überlegen sind; dies wird besonders deutlich, wenn man diese relativen Effektmaße verwendet, um absolute Effekte zu berechnen (zur Risikodifferenz siehe Kasten 2). Ein Vorteil der OR ist, dass die Risikodifferenz sich nicht verändert, egal ob man die Ereignisse im positiven oder im negativen Sinne zählt — im Gegensatz zum RR. Zum Beispiel erhält man bei RRs bei der Umrechnung zu Risikodifferenzen verschiedene Ergebnisse, je nachdem, ob man die Mortalität (z.B. 20% sterben) oder das Überleben (z.B. 80% überleben) nimmt. Ein weiterer Vorteil der ORs ist, dass die Verwendung von RRs zu unmöglichen Werten für ein Risiko führen kann (das heißt außerhalb des Bereichs 0 bis 1,0). Beispielsweise führt die Anwendung eines RRs von 1,2 von einer Meta-Analyse auf ein Ausgangsrisiko von 90% zu einem unmöglichen Ergebnis, nämlich zu einem Risiko in der Interventionsgruppe von 1,08. ORs erzeugen immer Odds/Chancen zwischen 0 und 1,0. Andererseits, wenn sich das Ausgangsrisiko bei unerwünschten Endpunkten auf über 50% erhöht, erhöht sich bei Verwendung des RRs die Risikodifferenz (wie es intuitiv sein sollte), während die Risikodifferenz bei Verwendung von ORs sinkt (entgegen der Intuition). Das ist der Preis, den wir zahlen, um die gleiche Risikodifferenz ungeachtet der Verwendung von erwünschten (z.B. Überleben) oder unerwünschten (z.B. Tod) Ereignissen zu erhalten. Man kann die Wahl von OR oder RR leicht begründen. Oftmals wir das RR bevorzugt, weil es einfacher zu interpretieren und benutzerfreundlicher bei der Berechnung von Risikodifferenzen (siehe Kasten 2) ist. RRs können jedoch problematisch sein, wenn sie größer als 1 sind und hohe Ausgangsrisiken vorliegen (z.B. ein Ausgangsrisiko von 67% oder mehr mit einem RR ≥ 1,5), da dies zu Wahrscheinlichkeiten in der Interventionsgruppe über 1,0 führt. RRs können ebenfalls problematisch sein, wenn positive oder negative Formulierungen als sinnvoll erachtet werden (z.B. Tod oder Überleben bei einer Mortalität über 50%; verbesserte oder nicht verbesserte Symptome). Unter diesen Umständen sind ORs ggfs. zu bevorzugen.

dass die Forscher 20 Verschlimmerungen einer chronischobstruktiven Lungenerkrankung bei 100 Patienten während eines Zeitraums von 300 Personenjahren Nachbeobachtung erfasst haben. Daraus ergibt sich eine Rate von 0,067 pro Personenjahr bzw. 6,7 pro 100 Personenjahre. Um solche Ergebnisse zusammenzufassen, verwenden Forscher Ratenverhältnisse (Rate Ratio) in Meta-Analysen, wobei die Ereignisraten in zwei Gruppen verglichen werden, indem man sie dividiert. In Tabelle 6 ist ein Beispiel hierfür dargestellt. Wenn die Ereignisse häufiger waren, können die Forscher die Daten wie kontinuierliche Endpunkte behandeln.

GRADE-Leitlinien: 12. Erstellen von ,,Summary-of-Findings‘‘-Tabellen — Dichotome Endpunkte

661

Absolute Effektmaße Wie bereits erläutert neigen relative Effektmaße — im Gegensatz zu absoluten Effektmaßen — dazu, eher konsistent zwischen den Risikogruppen zu sein [24,28—30]. Für klinische Entscheidungen bezieht man sich aber meist auf die Auswirkungen absoluter Effekte auf patientenrelevante Endpunkte, weshalb sowohl relative als auch absolute Effekte in Summary-of-Findings-Tabellen berichtet werden sollten. Die eingeschränkte Repräsentativität der Patienten in RCTs und der Mangel an Konsistenz absoluter Maße über verschiedene Risikogruppen und über verschiedene einzelne Studien sprechen gegen die direkte Berechnung gepoolter Risikodifferenzen von Daten aus RCTs. Die Alternative besteht darin, zunächst ein Ausgangsrisiko (Risiko in der Kontrollgruppe) auszuwählen, das im Idealfall von gut konzipierten Beobachtungsstudien kommt. Beispielsweise stammen die Ausgangsrisiken für symptomatische tiefe Beinvenenthrombose und für Lungenembolie in Tabelle 1 und 4 von Beobachtungsstudien aus einer systematischen Übersichtsarbeit [31]. In Kasten 2 sind die Berechnungen der absoluten Differenzen aus Ausgangsrisiken und RRs am Beispiel des Endpunkts Venenthrombose aus Tabelle 1 dargestellt. ORs bieten eine Alternative, die allerdings Vor- und Nachteile hat (Kasten 3). Als Leitlinienentwickler hat man vielleicht nur die OR zur Verfügung; als Autor einer systematischen Übersichtsarbeit kann man jedoch entscheiden, ob man die OR als Effektschätzer wählt. In beiden Fällen bedeutet es, dass bei der Verwendung der OR zur Berechnung eines Schätzers der Risikodifferenz das Ausgangsrisiko in Chancen (Odds) umgerechnet wird, mit der OR multipliziert wird und die resultierenden Chancen zu Risiken zurückgerechnet werden. Alternativ kann man die folgende Formel verwenden (RC: Risiko in der Kontrollgruppe): Risikodifferenz pro 1.000



= 1.000 × RC −

OR × RC 1 − RC + (OR × RC)



Leider sind Beobachtungsstudien von hoher Qualität oft nicht verfügbar. Typische Einschränkungen sind die suboptimale Überwachung der Endpunkte sowie die möglicherweise voreingenommene Erhebung der Endpunkte. Sind keine qualitativ hochwertigen Beobachtungsstudien verfügbar, sollte das mediane Risiko (anstelle des gewichteten Durchschnitts) der Kontrollgruppen der eingeschlossenen Studien oder — sofern verfügbar — das Risiko in der Kontrollgruppe einer einzigen Studie (mit einem deutlich größerem Stichprobenumfang als die übrigen Studien) verwendet werden. Bei relevanten Unterschieden der Kontrollgruppenrisiken sollten die Autoren erwägen, einen Risikobereich aus den beobachteten Risiken in den eingeschlossenen Studien anzugeben, also die Spannweite der Ausgangsrisiken. Anschließend kann man das RR auf zwei oder mehr Ausgangsrisiken anwenden, um mögliche Risiken in den Interventionsgruppen zu erhalten. Absolute Effekte unterscheiden sich wahrscheinlich zwischen Patientengruppen. Daten aus Beobachtungsstudien (und gelegentlich aus RCTs) können die zuverlässige

Kasten 4: Unterschiedliche Risiken in verschiedenen Patientengruppen In Tabelle 1 haben die Reviewer beispielsweise Risikofaktoren für eine asymptomatische tiefe Beinvenenthrombose (DVT) benannt (vorherige DVT-Episoden, Gerinnungsstörungen, schwere Adipositas, eingeschränkte Mobilität aufgrund von Knochenoder Gelenksproblemen, Krebs, große Krampfadern), die — wenn sie zusammen betrachtet werden — das Risiko eine Thrombose mehr als verdreifachen [31]. Die Anwendung des RR von 0,10 ermöglicht die Berechnung von erwarteten Ereignisraten für Populationen mit hohem und niedrigem Risiko, die prophylaktisch Strümpfe tragen. In der Population mit niedrigem Risiko führt die Verwendung eines RR von 0,10 bei einem Risiko ohne Intervention von 5 pro 10.000 zu einem errechneten Risiko von 0,5 pro 10.000 mit der Intervention. In der Population mit hohem Risiko sind die entsprechenden Zahlen 18 und 1,8 pro 10.000. Tabelle 3 zeigt ein weiteres solches Beispiel für die Endpunkte Venenthrombose (3 Risikoschichten) und Blutungen (2 Risikoschichten).

Identifikation von Subgruppen mit Vorliegen wesentlich unterschiedlicher Risiken von unerwünschten Ereignissen erlauben. Wenn durch solche Daten Kliniker diese Subgruppen leichter durch klinische Merkmale identifizieren können, dann sollten Autoren von Übersichtsarbeiten absolute Risiken für Interventions- und Kontrollgruppen (und/oder Unterschiede im Risiko zwischen Interventions- und Kontrollgruppe) für jede dieser prognostisch relevanten Subgruppen darstellen. Deshalb sollten Autoren, wenn sie Evidenz mittlerer oder hoher Qualität für klinische Merkmale finden, die zuverlässig zwischen Patienten mit wesentlich unterschiedlichen Risiken für interessierende Endpunkte unterscheiden, das Ausgangsrisiko in diesen Gruppen zusammen mit dem RR verwenden, um erwartete Risiken der Intervention zu berechnen. In Kasten 4 sind Überlegungen dargestellt, sofern bei verschiedenen Patientengruppen unterschiedliche Risiken vorliegen.

Darstellung absoluter Effekte Am besten sollten absolute Effekte — sowohl Nutzen als auch Schaden — als natürliche Häufigkeiten (Ereignisse pro 10.000 Patienten in Tabelle 1, wobei häufigere Ereignisse auch als Ereignisse pro 1.000 oder sogar pro 100 Patienten dargestellt werden können) präsentiert werden, da dies die Entscheidungsfindung erleichtert [32—35]. Sofern Ereignisse ausreichend häufig vorkommen, können Prozentzahlen ebenso gut oder sogar geringfügig besser verstanden werden als natürliche Häufigkeiten [36]. Obwohl viele Kliniker NNTs bevorzugen, sind sie manchmal — wenn es nötig wird, mehrere Endpunkte zu betrachten — schwieriger zu interpretieren. Die Verwendung von NNTs kann in Abstracts oder in Übersichtstabellen mit nur 2-3 Endpunkten geeignet sein; natürliche Häufigkeiten oder Prozentangaben sind in anderen Zusammenhängen wahrscheinlich leichter zu interpretieren.

662

Kasten 5: Die Darstellung absoluter Effekte bei ungenauen Schätzungen der relativen Effekte Sind die Konfidenzintervalle um RRs breit (also von Nutzen bis zu großem Schaden) und unterscheidet sich der Punktschätzer für die Interventionsgruppe von dem Punktschätzer für die Vergleichsgruppe oder handelt es sich um ein Konfidenzintervall um eine Risikodifferenz, so kann der Eindruck eines Effektes entstehen, der in Wirklichkeit nicht vorhanden ist. Falls die Reviewer oder die Leitlinienentwickler diese Bedenken teilen, können sie in der Spalte für die absolute Risikodifferenz (oder der Spalte für das Risiko in der Interventionsgruppe, je nach gewähltem Format) entweder lediglich beschreiben, dass die Ergebnisse keinen Unterschied zwischen Intervention und Kontrollintervention zeigen, oder aber sie lassen den Punktschätzer weg und berichten nur die Konfidenzintervalle, oder aber sie fügen einen Kommentar hinzu, in dem sie die mit dem Punktschätzer verbundene Unsicherheit betonen — oder sie verwenden eine Kombination aus den drei genannten Möglichkeiten. Zu beachten ist, dass in Tabelle 1 für oberflächliche Venenthrombose Schätzungen absoluter Effekte sowie ein Kommentar, dass das Konfidenzintervall sowohl Nutzen als auch Schaden beinhaltet, dargestellt sind. In Tabelle 2, in der dieselben Daten verwendet wurden, werden keine absoluten Effektschätzer aufgeführt, und es wird lediglich angemerkt, dass das Ergebnis keinen Unterschied zeigte.

Autoren von Übersichtsarbeiten und Leitlinien möchten ihre Darstellungen manchmal auf eine bestimmte Zielgruppe abstimmen; unterschiedliche Formate können dabei optimal für unterschiedliche Zielgruppen sein. Egal, für welche Möglichkeit man sich entscheidet — die Darstellung sollte einheitlich über alle Endpunkte eine einzelne Summary-of-Findings-Tabelle sein. Diese Konsistenz gilt ebenfalls im Hinblick auf die Darstellung absoluter Effekte, wenn die relativen Effekte sehr ungenau sind (Kasten 5).

Konfidenzintervalle bei absoluten Effekten Die Konfidenzintervalle um das absolute Risiko in der Interventionsgruppe (wie in Tabelle 1 und 6) oder um die Differenz zwischen Interventions- und Kontrollgruppe (wie in Tabelle 2 und 5) sollten angegeben werden. So wie man das absolute Risiko in der Interventionsgruppe auf der Basis des absoluten Risikos in der Vergleichsgruppe und dem Punktschätzer des RRs berechnet, basiert die Berechnung des Konfidenzintervalls um die absoluten Risiken in der Interventionsgruppe auf dem absoluten Risiko in der Vergleichsgruppe und dem Konfidenzintervall um das RR. Wenn das Ausgangsrisiko sehr niedrig ist, können die auf Grundlage der RRs berechneten Konfidenzintervalle jedoch irreführend sein. Unter diesen Umständen sind direkte Berechnungen auf Basis der absoluten Risiken vorzuziehen [37]. Die Cochrane-Review-Manager-Software (RevMan) bietet Optionen zur Berechnung von RR oder OR (von denen man die

G. Langer et al.

Kasten 6: Die Auswirkungen der Wahl des Zeitrahmens auf die Wahrnehmung von Effekten Betrachtet man die primäre Prophylaxe mit Aspirin zur Vorbeugung eines Myokardinfarkts (MI) bei asymptomatischen Patienten mit Risikofaktoren für die Entwicklung einer Koronaren Herzkrankheit (als ,,hohes Risiko‘‘ bezeichnet), so fällt auf, dass die Schätzungen des Herzinfarktrisikos bei solchen Patienten — trotz der Einstufung als Hochrisikopatienten — sehr niedrig ist, schätzungsweise 6 pro 1.000 pro Jahr [40]. Die Vorteile der regelmäßigen Einnahme von Aspirin sind entsprechend gering — zwischen 1 und 2 verhinderten Herzinfarkten pro 1.000 Patienten, die Aspirin ein Jahr lang einnehmen [40]. Da Aspirin mit einem erhöhten Risiko gastrointestinaler Blutungen assoziiert ist, würden nur wenige Patienten von den Vorteilen der Behandlung zu überzeugen sein. Betrachtet man jedoch einen Zeitraum von 10 Jahren, würde die Einnahme von Aspirin schätzungsweise 14 Herzinfarkte pro 1.000 Patienten verhindern (ein absoluter Vorteil von 1,4%) — diese Formulierung lässt die Intervention attraktiver erscheinen.

Risikodifferenzen ableiten kann, siehe Kasten 2 und für ORs den Text unter »Absolute Effektmaße«) oder — für Situationen, wenn das Ausgangsrisiko sehr niedrig ist — zur direkten Berechnung der Risikodifferenzen.

Die Wahl des Zeitrahmens bei absoluten Effekten In Tabelle 1 ist der Zeitrahmen zur Messung der Endpunkte sowohl offensichtlich als auch kurz — eine symptomatische Thrombose wird, sofern vorhanden, innerhalb weniger Tage nach einem langen Flug auftreten. Für Fragestellungen wie die primäre und sekundäre Prävention kardiovaskulärer Ereignisse oder das Wiederauftreten von Krebs hat man oft die Wahl bei der Dauer der Nachbeobachtung. Reviewer sollten daher immer die Länge der Nachbeobachtung, auf die sich die Schätzungen der absoluten Effekte beziehen, mit angeben. Zu beachten ist, dass diese Länge der Nachbeobachtung nicht der Länge der Nachbeobachtung der RCTs, von denen die Schätzungen von relativen Effekten stammen, oder der Beobachtungsstudien bzw. RCTs, die zu Schätzungen des Ausgangsrisikos führten, entsprechen muss. Vielmehr wird man einen Zeitrahmen beurteilen, der geeignet scheint, die erwünschten und unerwünschten Folgen verschiedener Behandlungsmethoden gleichermaßen zu berücksichtigen. Längere Nachbeobachtungs-Zeiten sind mit höheren absoluten Risiken und höheren Risikodifferenzen zwischen Interventions- und Kontrollgruppe verbunden. Dies kann bei den Lesern zu möglicherweise wichtigen Unterschieden in der Wahrnehmung der scheinbaren Größe des Effekts führen (Kasten 6). Oftmals beinhaltet eine Verlängerung des Zeitrahmens die Annahme, dass Ereignishäufigkeiten über die Zeit konstant bleiben.

GRADE-Leitlinien: 12. Erstellen von ,,Summary-of-Findings‘‘-Tabellen — Dichotome Endpunkte

Umgang mit fehlenden Ereignissen in beiden Gruppen Wenn kein Teilnehmer in irgendeiner Studie den interessierenden Endpunkt erlitten hat, bieten die Studien keinerlei Informationen über relative Effekte (und man kann argumentieren, dass es sinnlos ist, die Qualität der Evidenz zu bewerten). Auf der anderen Seite können die Daten — insbesondere, wenn die Anzahl Patienten groß ist — qualitativ hochwertige Evidenz bieten, dass die absolute Differenz zwischen verschiedenen Behandlungen klein oder sehr klein ausfällt. Wenn die Reviewer glauben, dass dies die geeignete Schlussfolgerung für einen wichtigen oder entscheidenden Endpunkt ist, können Sie das Vertrauen in die Effektschätzer bewerten und die Schätzung der Genauigkeit aufgrund des Konfidenzintervalls um den absoluten Effekt vornehmen (wie in Tabelle 1 und 4). Ein Programm zur Berechnung auf Basis der verfügbaren statistischen Methoden [38] ist über die GRADE Working Group verfügbar.

Unsicherheit bei Schätzungen des Ausgangsrisikos Beachtenswert ist, dass Tabelle 1 Schätzungen des Risikos in der Interventionsgruppe auf Basis der Konfidenzintervalle um das RR liefert. Es wird jedoch keine Schätzung der Unsicherheit des Ausgangsrisikos in Kontrollgruppen mit hohem und niedrigem Risiko angegeben. Das Fehlen solcher Schätzungen spiegelt eine hohe Priorität in Bezug auf einfache Darstellungen, wie sie Kliniker und Patienten oftmals bevorzugen, wider. Eventuell können alle Probleme, die Unsicherheit über die Schätzungen absoluter Effekte bergen, ebenfalls zu Unsicherheit über die Schätzungen der Ausgangsrisiken führen: Bias-Risiko, Indirektheit bei der Verwendung von Surrogat-Endpunkten, unzureichende Präzision, Inkonsistenz und Publikationsbias. Bei GRADE wird die Unsicherheit der Schätzungen des Ausgangsrisikos bei der Bewertung des Vertrauens in die Effektschätzer mehr oder weniger ignoriert; dies ist eine pragmatische Entscheidung, durch die ausufernde Komplexität vermieden wird und die systematische Übersichtsarbeit überschaubar bleibt. Dennoch sollten sich Entwickler von Leitlinien dieser vernachlässigten Quelle der Unsicherheit bewusst sein, und unter bestimmten Umständen könnten sie dies in Überlegungen über das Vertrauen in die Effektschätzer für einzelne Ergebnisse einfließen lassen. Wenn sich solche Überlegungen ergeben, könnte man sie unter ,,Indirektheit‘‘ einordnen. Die Darstellung eines plausiblen Bereichs von Ausgangsrisiken kann bis zu einem gewissen Grad das Problem mildern.

Wie man damit umgeht, wenn zu einem wichtigen Endpunkt keine Evidenz publiziert wurde Autoren von systematischen Übersichtsarbeiten und Leitlinien sollten alle wichtigen Endpunkte vor Beginn der Übersichtsarbeiten genau festlegen. Wenn sie dies tun, kann es aber passieren, dass später keine veröffentlichte Evidenz zu einem oder mehreren Endpunkten gefunden wird (Lebensqualität und seltene Nebenwirkungen sind

663

Endpunkte, auf die dies zutreffen kann). Falls solch ein Endpunkt ausreichend wichtig ist, wäre damit eine Zeile in der Summary-of-Findings-Tabelle gerechtfertigt, wobei das Vertrauen in die Bewertung der Effektschätzer (und andere Zellen, abgesehen von den Kommentaren) entweder leer gelassen oder als sehr niedrige Qualität der Evidenz eingestuft wird.

Schlussfolgerung Die Summary-of-Findings-Tabelle bietet alle wichtigen Informationen, die für die Entscheidung zwischen konkurrierenden Behandlungsoptionen nötig sind [39]. Daher ist die Summary-of-Findings-Tabelle — obwohl keine absolute Voraussetzung für die Verwendung von GRADE — ein äußerst wertvolles Werkzeug für die Bereitstellung einer knappen, zugänglichen und transparenten Zusammenfassung der Evidenz für Patienten, Kliniker und Entscheidungsträger.

Literatur [1] Langer G, Meerpohl JJ, Perleth M, Gartlehner G, KaminskiHartenthaler A, Schunemann H. [GRADE guidelines: 1. Introduction - GRADE evidence profiles and summary of findings tables]. Zeitschrift fur Evidenz, Fortbildung und Qualitat im Gesundheitswesen 2012;106(5):357—68. [2] Langer G, Meerpohl JJ, Perleth M, Gartlehner G, KaminskiHartenthaler A, Schunemann H. [GRADE guidelines: 2. Framing the question and deciding on important outcomes]. Zeitschrift fur Evidenz, Fortbildung und Qualitat im Gesundheitswesen 2012;106(5):369—76. [3] Meerpohl JJ, Langer G, Perleth M, Gartlehner G, KaminskiHartenthaler A, Schunemann H. [GRADE guidelines: 3. Rating the quality of evidence (confidence in the estimates of effect)]. Z Evid Fortbild Qual Gesundhwes 2012;106(6):449—56. [4] Meerpohl JJ, Langer G, Perleth M, Gartlehner G, KaminskiHartenthaler A, Schunemann H. [GRADE guidelines: 4. Rating the quality of evidence - limitations of clinical trials (risk of bias)]. Z Evid Fortbild Qual Gesundhwes 2012;106(6):457—69. [5] Nolting A, Perleth M, Langer G, Meerpohl JJ, Gartlehner G, Kaminski-Hartenthaler A, et al. [GRADE guidelines: 5. Rating the quality of evidence: publication bias]. Zeitschrift fur Evidenz, Fortbildung und Qualitat im Gesundheitswesen 2012;106(9):670—6. [6] Kulig M, Perleth M, Langer G, Meerpohl JJ, Gartlehner G, Kaminski-Hartenthaler A, et al. [GRADE guidelines: 6. Rating the quality of evidence - imprecision]. Z Evid Fortbild Qual Gesundhwes 2012;106(9):677—88. [7] Perleth M, Langer G, Meerpohl JJ, Gartlehner G, KaminskiHartenthaler A, Schunemann HJ. [GRADE guidelines: 7. Rating the quality of evidence - inconsistency]. Z Evid Fortbild Qual Gesundhwes 2012;106(10):733—44. [8] Rasch A, Perleth M, Langer G, Meerpohl JJ, Gartlehner G, Kaminski-Hartenthaler A, et al. [GRADE guidelines: 8. Rating the quality of evidence - indirectness]. Z Evid Fortbild Qual Gesundhwes 2012;106(10):745—53. [9] Guyatt GH, Oxman AD, Sultan S, Glasziou P, Akl EA, AlonsoCoello P, et al. GRADE guidelines: 9. Rating up the quality of evidence. J Clin Epidemiol 2011;64(12):1311—6. [10] Schünemann H, Oxman A, Higgins J, Vist G, Glasziou P, Guyatt G. Presenting results and ‘Summary of findings’ tables. In: Higgins J, Green S, editors. Cochrane Handbook for Systematic Reviews of Interventions Version 500. edn. Chichester: Wiley; 2008.

664 [11] Brozek J, Oxman A, Schünemann H. GRADEpro. [Computer program]. Version 3.2 for Windows. available from http://www.cc-ims.net/gradepro. or http://mcmaster. flintbox.com/technology.asp?page=3993. In.; 2008. [12] Rosenbaum S, Glenton C, Nylund H, Oxman A. Development and evaluation of Summary of Findings tables for Cochrane reviews. J Clin Epidemiol 2010;63:620—6. [13] Rosenbaum S, Glenton C, Oxman A. Evaluation of Summary of Findings tables for Cochrane reviews. J Clin Epidemiol 2009;63:607—19. [14] Vandvik P, Santesso N, Akl E, You J, Mulla S, spencer F, et al. Formatting modifications in evidence tables improved guideline panellists comprehension and accessibility to information. A randomized trial. Journal of Clnical Epidemiology Submitted. [15] Clarke M, Hopewell S, Juszczak E, Eisinga A, Kjeldstrom M. Compression stockings for preventing deep vein thrombosis in airline passengers. Cochrane Database of Systematic Reviews 2007:3. [16] Geerts WH, Bergqvist D, Pineo GF, Heit JA, Samama CM, Lassen MR, et al. Prevention of venous thromboembolism: American College of Chest Physicians Evidence-Based Clinical Practice Guidelines (8th Edition). Chest 2008;133(6 Suppl):381S—453S. [17] Busse JW, Kaur J, Mollon B, Bhandari M, Tornetta 3rd P, Schunemann HJ, et al. Low intensity pulsed ultrasonography for fractures: systematic review of randomised controlled trials. BMJ 2009;338:b351. [18] Fasano CJ, O’Malley G, Dominici P, Aguilera E, Latta DR. Comparison of octreotide and standard therapy versus standard therapy alone for the treatment of sulfonylurea-induced hypoglycemia. Ann Emerg Med 2008;51(4):400—6. [19] Carr R, Zed PJ. Octreotide for sulfonylurea-induced hypoglycemia following overdose. Ann Pharmacother 2002;36(11):1727—32. [20] Crawford BA, Perera C. Octreotide treatment for sulfonylureainduced hypoglycaemia. Med J Aust 2004;180(10):540—1, author reply 541. [21] Towheed T, Maxwell I, Abastassuades T, Shea B, Houpt J, Welch V, et al. Glucosamine therapy for treating osteoarthritis. Cochrane Database of Systematic Reviews 2009;(4). [22] Walter SD. Choice of effect measure for epidemiological data. J Clin Epidemiol 2000;53(9):931—9. [23] Deeks J, Higgins J, Altman D. Analyzing data and undertaking meta-analyses. In: Higgins J, Green S, editors. Cochrane Handbook for Systematic Reviews of Interventions Version 500. edn. Chichester: Wiley; 2008. [24] Deeks JJ. Issues in the selection of a summary statistic for meta-analysis of clinical trials with binary outcomes. Stat Med 2002;21(11):1575—600. [25] Eckermann S, Coory M, Willan AR. Consistently estimating absolute risk difference when translating evidence to jurisdictions of interest. Pharmacoeconomics 2011;29(2):87—96.

G. Langer et al. [26] Parmar MK, Torri V, Stewart L. Extracting summary statistics to perform meta-analyses of the published literature for survival endpoints. Stat Med 1998;17(24):2815—34. [27] Tierney JF, Stewart LA, Ghersi D, Burdett S, Sydes MR. Practical methods for incorporating summary time-to-event data into meta-analysis. Trials 2007;8:16. [28] Schmid CH, Lau J, McIntosh MW, Cappelleri JC. An empirical study of the effect of the control rate as a predictor of treatment efficacy in meta-analysis of clinical trials. Stat Med 1998;17(17):1923—42. [29] Engels EA, Schmid CH, Terrin N, Olkin I, Lau J. Heterogeneity and statistical significance in meta-analysis: an empirical study of 125 meta-analyses. Stat Med 2000;19(13):1707—28. [30] Furukawa TA, Guyatt GH, Griffith LE. Can we individualize the ‘number needed to treat’? An empirical study of summary effect measures in meta-analyses. Int J Epidemiol 2002;31(1):72—6. [31] Philbrick JT, Shumate R, Siadaty MS, Becker DM. Air travel and venous thromboembolism: a systematic review. J Gen Intern Med 2007;22(1):107—14. [32] Gigerenzer G. The psychology of good judgment: frequency formats and simple algorithms. Med Decis Making 1996;16(3):273—80. [33] Gigerenzer G, Edwards A. Simple tools for understanding risks: from innumeracy to insight. BMJ 2003;327(7417): 741—4. [34] Galesic M, Gigerenzer G, Straubinger N. Natural frequencies help older adults and people with low numeracy to evaluate medical screening tests. Med Decis Making 2009;29(3): 368—71. [35] Hoffrage U, Gigerenzer G. Using natural frequencies to improve diagnostic inferences. Acad Med 1998;73(5):538—40. [36] Woloshin S, Schwartz LM. Communicating data about the benefits and harms of treatment: a randomized trial. Ann Intern Med 2011;155(2):87—96. [37] Murad MH, Montori VM, Walter SD, Guyatt GH. Estimating risk difference from relative association measures in meta-analysis can infrequently pose interpretational challenges. J Clin Epidemiol 2009;62(8):865—7. [38] Newcombe RG. Interval estimation for the difference between independent proportions: comparison of eleven methods. Stat Med 1998;17(8):873—90. [39] Djulbegovic B, Soares HP, Kumar A. What kind of evidence do patients and practitioners need: evidence profiles based on 5 key evidence-based principles to summarize data on benefits and harms. Cancer Treat Rev 2006;32(7):572—6. [40] Baigent C, Blackwell L, Collins R, Emberson J, Godwin J, Peto R, et al. Aspirin in the primary and secondary prevention of vascular disease: collaborative meta-analysis of individual participant data from randomised trials. Lancet 2009;373(9678):1849—60.

[GRADE guidelines: 12. Developing Summary of Findings tables - dichotomous outcomes].

Summary of Findings (SoF) tables present, for each of the seven (or fewer) most important outcomes, the following: the number of studies and number of...
313KB Sizes 0 Downloads 0 Views