PRAXIS

Mini-Review

Praxis 2014; 103 (20): 1197-1201

1197

H o r te n - Z e n tr u m f ü r p r a x is o r ie n t ie r te F o rs c h u n g u n d W is s e n s tra n s fe r, U n iv e rs itä ts s p ita l Z ü ric h

Ulrike Held

Die B edeutung von Fallzahl und Power in der klinischen Forschung On the Impact of Sample Size Calculation and Power in Clinical Research

Z u s a m m e n fa s s u n g

Zur Beurteilung der Wirksamkeit einer neuen Therapie ist es in der klinischen Forschung wichtig, vor Studienbeginn eine Fallzahlplanung durchzuführen. Basierend auf dem Studiendesign, der erwarteten Grösse des Therapieeffekts, seiner Variabilität, der angestrebten Power und dem Signifikanzniveau kann ausgerechnet werden, wie viele Patienten in die Studie eingeschlos­ sen werden müssen. Häufig ist es vor Beginn einer Studie schwierig, diese Grössen sinnvoll festzulegen, jedoch finden sich in der Fachliteratur meis­ tens hilfreiche Anhaltspunkte. Sowohl aus wissenschaftlichen wie auch aus ethischen Gesichtspunkten ist eine Fallzahlplanung notwendig, damit die Studienfrage überhaupt beantwortet werden kann. Schlüsselwörter: Fallzahlplanung Therapieeffekt - Konfidenzintervall statistische Signifikanz

der Power einer Studie zusammen? War­ um muss eine formale Planung der Fall­ zahl überhaupt durchgeführt werden? Diese häufig gestellten Fragen sollen im Folgenden beantwortet werden. Historisch gesehen war eine formale Planung der Fallzahl in der klinischen Forschung bis in die 1970er-Jahre eher selten. Wenn man exemplarisch die Sep­ temberausgaben der grossen Fachzeit­ schriften The Lancet und British Medi­ cal Journal von 1972 analysiert, findet man dort 31 bzw. 30 Artikel, basierend auf einer mittleren Patientenzahl von 33 bzw. 37 Patienten [1], Das Ergebnis solch kleiner Studien war dann auch häufig negativ in dem Sinne, dass kein signifikantes Ergebnis gefunden wer­ den konnte. Fälschlicherweise wurde dann geschlossen, es gäbe keinen Therapieeffekt. Die korrekte Interpretation ist jedoch, dass bei gegebener Fallzahl der Therapieeffekt nicht nachgewiesen werden kann. Erst in den 1980er-Jahren wurde der Ruf nach grossen Studien in sowohl der klinischen wie auch statisti­ schen Fachliteratur laut. B e is p ie l

E in le itu n g

Als Statistikerin in der klinischen For­ schung werde ich von Medizinern häu­ fig gefragt, wie viele Patienten sie in ihre Studie einschliessen sollten, wie hoch die sogenannte Fallzahl sein muss. Mei­ ne Antwort ist dann: «Es kommt darauf an ...». Aber was sind genau die Fak­ toren, die man für die Fallzahlplanung braucht? Und wie hängt die Fallzahl mit © 2014 Verlag Hans Huber, Hogrefe AG, Bern

In einer Studie soll die Wirksamkeit ei­ nes neuen Blutdrucksenkers beurteilt werden. Die Referenzbehandlung ist ein anderes auf dem Markt zugelassenes Präparat. An einer Klinik wird die Studie durchge­ führt, aufgrund von Machbarkeitsüber­ legungen werden insgesamt nur 40 Pa­ tienten eingeschlossen, davon 20 in jeder der beiden Behandlungsgruppen. Am

Ende der Studie wird mit einem statis­ tischen Test der Therapieeffekt beurteilt, der resultierende p-Wert ist 0,71 - also keinerlei Evidenz für eine Überlegenheit des neuen Medikaments. Jedoch ist der mittlere Blutdruck in der Behandlungs­ gruppe mit dem neuen Medikament tie­ fer als in der Referenzgruppe. Dies weist möglicherweise doch auf einen bedeut­ samen Therapieeffekt hin.

W a r u m m u s s d ie A n z a h l P a tie n te n e in e r S tu d ie v o r a b g e p la n t w e r d e n ?

An dem vorangegangenen Beispiel kann man sehen, dass bei einer zu tiefen Fall­ zahl die Wirksamkeit einer neuen Be­ handlung nicht beurteilt werden kann. Eine solche Studie kann im Nachhinein nie mehr «gerettet» werden: Die Patien­ ten wurden den potenziellen Risiken der Studie umsonst ausgesetzt, alle Ressour­ cen ergebnislos verbraucht, denn man kann auf diese Art auch nicht beweisen, dass kein Therapieeffekt vorliegt. Aber auch wenn mehr Patienten als nötig in die Studie eingeschlossen werden, gibt es negative Aspekte. Neben unnötig hohen Kosten und Risiken wird die Marktzu­ lassung einer potenziell wirksamen The­ rapie verzögert. Daher muss eine Fall­ zahlplanung sowohl aus ethischen wie auch aus wissenschaftlichen Gründen durchgeführt werden, um die Studien­ frage beantworten zu können. Im A rtike l ve rw en d ete A bkürzungen: Kl

K onfid e nzintervall DOI 10.1024/1661-8l57/a001791

PRAXIS

W e lc h e F a k to r e n b e e in ­ flu s s e n d ie F a llz a h l?

Für eine formale Planung der Fallzahl müssen festgelegt werden: Die Studi­ enfrage, das Studiendesign, die primäre Zielgrösse, der klinisch relevante The­ rapieeffekt und seine vermutliche Va­ riabilität, sowie das Signifikanzniveau und die Power. Weiterhin muss man sich Gedanken über den erwarteten Verlust von Patienten (Drop-out) im Verlauf der Studie machen. Es ist jedoch nicht immer leicht, den erwarteten Therapie­ effekt und die Variabilität in den Daten vorauszusehen. Aus der Fachliteratur kann man hierzu möglicherweise An­ haltspunkte erhalten.

M in i-R e v ie w

beschriebene Beispiel, in dem es um den Nachweis der Überlegenheit des neuen Blutdrucksenkers geht. Nimmt man an, dass ein Therapieeffekt von 8 mmHg ( p - p 0) in der Zielgrösse entdeckt wer­ den soll, und aus bereits publizierten Studien ist die Variabilität der Blut­ druckwerte bekannt, nämlich 14 mmHg (g). Das Signifikanzniveau wird bei 5% festgelegt und die Power soll 90% sein. Um Signifikanzniveau und Power für die Formel verwenden zu können, muss für diese beiden Grössen das entsprechen­ de Quantil der Standardnormalvertei­ lung ausgelesen werden, dies ist u=l,28 für eine 90%ige Power und v=l,96 als (l-a/2)-Quantil für ein zweiseitiges Sig­ nifikanzniveau von 5%. Die Formel für die Fallzahl pro Gruppe n sieht wie folgt aus:

S ta tis tis c h e P o w e r u n d ih r Z u s a m m e n h a n g m it d e r F a llz a h l

Unter der statistischen Power einer Stu­ die versteht man die Wahrscheinlichkeit, einen bestimmten Therapieeffekt (falls vorhanden) zu erkennen. Typischerweise wird eine Power von 80 oder 90% ange­ strebt. Kommen wir zurück auf das oben

_ (u+v)2x2(f 11

(HrHJ2

Setzt man nun alle Grössen in die For­ mel ein, resultiert eine Fallzahl von 65 Patienten pro Gruppe [2]. Zusätzlich muss man sich Gedanken über den erwarteten Verlust von Pati­ enten während der Studie machen, wir nehmen hier eine sog. Drop-out-Rate

Praxis 2014; 103 (2 0 ): 1 1 9 7 -1 2 0 1

1198

von 15% an und multiplizieren dann 65x(ü^h) und kommen auf 77 Patienten pro Behandlungsgruppe. Der Zusam­ menhang zwischen Fallzahl und Power kann jedoch auch allgemeiner darge­ stellt werden, wie in Abbildung 1 zu er­ kennen ist. Hier wurden die Grössen Therapieeffekt, dessen Variabilität und das Signifikanzniveau fixiert, die Power variiert zwischen 20 und 100%. Wie in Abbildung 1 zu erkennen ist, hängt die Power mit der Fallzahl m ono­ ton zusammen: Mit einer zunehmenden angestrebten Power der Studie steigt auch die Fallzahl pro Gruppe an. Möch­ te man eine Power von 80% oder mehr erreichen, steigt die Fallzahl deutlich erkennbar. Die gestrichelte Linie stellt die Fallzahl pro Gruppe dar, die man braucht, wenn man mit einem 15%igen Verlust von Patienten während der Stu­ die rechnet. Die Drop-out-Rate ist unter anderem abhängig von der Studien­ dauer, aber auch von weiteren studien­ spezifischen Faktoren. Anders herum er­ kennt man in der Abbildung auch, dass bei einer geringen Fallzahl pro Gruppe, z.B. von nur 20 Patienten, die Power, ei­ nen bestehenden Therapieeffekt zu er­ kennen, sehr gering ist.

P r ä s e n ta tio n v o n S tu d ie n e r g e b n is s e n

Power A b b . l : Z u s a m m e n h a n g zw ischen de r Pow er e in e r S tudie und deren Fallzahl pro B e h a n dlu ng s­ gruppe.

Typischerweise basiert das Ergebnis klinischer Studien auf dem Gruppen­ vergleich zwischen der neuen Therapie und der Referenztherapie oder Pla­ cebo. Dieser Gruppenvergleich wird mit einem statistischen Test beurteilt, der in einen p-Wert resultiert. Im Jah­ re 1996 wurde in der Publikation des sogenannten CONSORT-Statements [3] gefordert, dass Studienresultate in der klinischen Forschung nicht nur mehr als p-Werte, sondern zusätz­ lich als geschätzter Therapieeffekt mit Konfidenzintervall dargestellt werden. Daraufhin änderten viele Fachzeit­ schriften ihre Instruktionen für die Au­ toren in diese Richtung.

PRAXIS

M in i-R e v ie w

K o n fid e n zin terva ll und p -W e rt Für ein Outcome gemessen auf einer kontinuierlichen Skala (z.B. Blutdruck) kann der Zusammenhang zwischen dem p-Wert und dem Konfidenzintervall in zwei verschiedenen Studien unter­ schiedlich aussehen, wie in Abbildung 2 dargestellt. In Studie 1 ist der geschätzte Therapie­ effekt 5, und das 95%ige Konfidenzin­ tervall geht von 1 bis 9, in Studie 2 ist der geschätzte Therapieeffekt doppelt so gross, nämlich 10 und das 95%ige Konfidenzintervall geht von 2 bis 18. In beiden Studien ist der zugehörige pWert=0,01. Man erkennt also deutlich den Informationsverlust im Studienre­ sultat, wenn ausschliesslich der p-Wert präsentiert wird.

W ie sieht die U m s etzu n g der Fallzah lp lan u n g in der klinischen Forschung aus? In einer aktuellen Publikation [4] wur­ den 446 Studienprotokolle, die im Jahr 2009 bei britischen Ethikkommissionen zum Thema «Investigational Medicinal Products» eingereicht wurden, evalu­ iert. Die Fragestellung der publizierten Arbeit war, ob die Informationen zur Berechnung der Fallzahl vollständig und nachvollziehbar dargestellt wurden. Es stellte sich u. a. heraus, dass die Fallzahl

in nur 30% der Studienprotokolle repro­ duziert werden konnte. Tendenziell war die Fallzahl zu hoch angegeben worden, und die Angabe des erwarteten Thera­ pieeffekts war in nur 43% der Studien­ protokolle zu finden. Aus dieser Arbeit erkennt man, dass die Umsetzung einer formalen Fallzahlplanung in der klini­ schen Forschung noch nicht optimal ist. Vor allem die Festlegung eines realistisch zu erwartenden Therapieeffektes ist of­ fensichtlich nicht leicht.

A lte rn a tiv e P lanung der Fallzahl über die Präzision Alternativ zur Planung der Fallzahl über die Festlegung eines bestimmten Thera­ pieeffekts gibt es einen Ansatz, der nur auf der angestrebten Genauigkeit der Schätzung des Therapieeffekts beruht, d.h. konkret auf der Breite des Konfi­ denzintervalls (KI). Wie gross der ver­ mutete Therapieeffekt sein wird, muss vor Studienbeginn nicht mehr definiert werden. Kommen wir zurück zum eingangs beschriebenen Beispiel der zwei Blut­ drucksenker. In die alternative Formel für die Fallzahlplanung geht nur die Va­

P r a x is 2 0 1 4 ; 1 0 3 ( 2 0 ) : 1 1 9 7 - 1 2 0 1

1199

riabilität im Outcome ein, diese war in dem Beispiel 14 mmHg (a). Die Formel für die Fallzahl pro Gruppe sieht nun so aus:

2a2 Strebt man z.B. ein Konfidenzintervall mit einer Breite von 10 mmHg an, benö­ tigt man 63 Patienten pro Behandlungs­ gruppe. Auch dieser Zusammenhang kann wieder allgemein dargestellt wer­ den (Abb. 3). Der Zusammenhang zwischen der Breite des Konfidenzintervalls auf der x-Achse und der Fallzahl auf der y-Achse ist nun monoton fallend: Mit zunehmender Breite braucht man weniger Patienten in jeder Behandlungsgruppe. Auch in dieser Formel kann wieder der erwartete Verlust von Patienten im Lauf der Studie mit einberechnet werden. Die gestrichel­ te Linie in Abbildung 3 beschreibt die Fallzahl mit der erwarteten Drop-outRate von 15%.

Diskussion und Ausblick Im Vergleich zu den 1970er-Jahren haben sich die Fallzahlen in Fachzeit­ schriften in heute publizierten Studien

Studie 1

Studie 2

---------------- ■ ----------------

p=0.01

I

I

I

I

I

I

-5

0

5

10

15

20

Therapieeffekt

Breite des 95% Kl [mmHg]

A b b . 2: T h e ra p ie e ffe k t un d K o n fid e n z in te rv a ll im Z u sa m m e n h a n g m it dem p -W e rt f ü r zw ei

A b b . 3: Z u s a m m e n h a n g zw ischen Breite des K o n fid e n zin te rva lls und de r Fallzahl pro B ehand­

S tud ien m it s te tig e r Z ielgrösse.

lu n g sgrup pe .

PRAXIS

M in i-R eview

Key messages • Eine Fallzahlplanung vor Beginn der Studie ist aus ethischen wie auch aus wissenschaftlichen Gründen erforderlich, um die Studienfrage überhaupt be­ antworten zu können und um so viele Patienten wie nötig, aber auch so weni­ ge Patienten wie möglich den Risiken einer Studienteilnahme auszusetzen. • Wichtige Grössen für die Planung der Fallzahl sind das Studienziel, der The­ rapieeffekt und seine Variabilität, das Studiendesign, der erwartete Verlust von Patienten während der Studie (Drop-out Rate), Signifikanzniveau und Power. • Es gibt eine alternative Formel zur Fallzahlplanung, die auf der Breite des Konfidenzintervalls beruht und bei der vorab kein Therapieeffekt festgelegt werden muss.

Lernfragen 1. Welche Aussage über den Zusammenhang zwischen p-Wert und Therapieef­ fekt ist richtig? (Einfachauswahl, 1 richtige Antwort) a) Der p-Wert hängt von der Grösse des Therapieeffekts ab. Sobald der The­ rapieeffekt gross genug ist, ist auch der zugehörige p-Wert signifikant. b) Der p-Wert hängt von der Grösse des Therapieeffekts und der Breite des Konfidenzintervalls ab. Der Therapieeffekt kann klein sein, und der p-Wert ist trotzdem signifikant. 2. Aus welchen Gründen muss vor Studienbeginn eine formale Planung der Fall­ zahl erfolgen? (Mehrfachauswahl, mehrere richtige Antworten) a) Aus wissenschaftlichen wie aus ethischen Gründen ist eine Fallzahlplanung erforderlich. b) Ohne Fallzahlplanung kann die Wirksamkeit einer neuen Therapie mögli­ cherweise nicht beurteilt werden. c) Ohne Fallzahlplanung kann die Power einer Studie zu tief sein. 3. Über welche Parameter muss man sich unter anderem Gedanken machen, um die Fallzahl planen zu können? (Mehrfachauswahl, mehrere richtige Antworten) a) Therapieeffekt und seine Variabilität b) Studiendesign und primäres Outcome c) Randomisierung und Verbündung

deutlich erhöht. Jedoch zeigen mehre­ re aktuelle Publikationen zum Thema Fallzahlplanung in der klinischen For­ schung, dass es immer noch Probleme mit der formalen Fallzahlplanung und deren Umsetzung gibt. In der Arbeit von Clark et al. [4] stellte sich heraus, dass die relevanten Grössen für die Fall­ zahlplanung im Studienprotokoll häufig nicht ausreichend beschrieben und be­ gründet werden. In den Beispielen dieses Artikels wurde eine kontinuierliche Zielgrösse, der sys­ tolische Blutdruck, betrachtet. Darüber

hinausgehend gibt es auch für binäre Zielgrössen oder Raten entsprechende Formeln, die nötige Fallzahl zu berech­ nen. Das Studiendesign der BlutdruckStudie war eine randomisierte Über­ legenheitsstudie. Jedoch gibt es auch die Möglichkeit, eine Nicht-Unterle­ genheitsstudie durchzuführen, bei der nachgewiesen werden muss, dass das neue Medikament nicht schlechter wirkt als die Referenzbehandlung, aber dafür vielleicht weniger Nebenwirkungen hat. Solche Studien erfordern eine sehr hohe Fallzahl und sind daher häufiger in der

Praxis 2014; 103 (20): 1197-1201

1200

pharmazeutischen Forschung zu finden. Auch für dieses Studiendesign gibt es Formeln, die Fallzahl zu planen. Aus meiner Erfahrung beim Verfassen von Studienprotokollen zusammen mit Klinikern kann ich bestätigen, dass die Festlegung des Therapieeffekts und seiner Variabilität häufig ein Problem darstellt. Meistens gibt es verschiede­ ne klinische Parameter, die potenzielle primäre Zielgrössen sein können, doch nur eine einzige muss ausgewählt wer­ den und ist dann für die Planung der Fallzahl der Studie zu verwenden. Dies erfordert manchmal längere Diskussio­ nen, die aber schlussendlich immer zur Verbesserung der Studienqualität bei­ tragen. Häufig hilft es, ähnliche Studien aus der Fachliteratur zuhilfe zu nehmen und aus diesen die Variabilität und einen realistisch scheinenden Therapieeffekt herzuleiten. Nimmt man die Literatur als Grundlage, kann man sein eigenes Vorgehen auch besser rechtfertigen und belegen. Als letzte Kontrollinstanz kommt den Ethikkommissionen eine grosse Bedeu­ tung zu, denn sie können eine nachvoll­ ziehbare Fallzahlplanung einfordern, und zwar vor Studienbeginn zu einem Zeitpunkt, an dem noch Änderungen am Studiendesign und an der Fallzahl durchgeführt werden können.

A bstract The aim of a clinical trial is to judge the efficacy of a new therapy or drug. In the planning phase of the study, the calculation of the necessary sample size is crucial in order to obtain a meaning­ ful result. The study design, the expect­ ed treatment effect in outcome and its variability, power and level of signifi­ cance are factors which determine the sample size. It is often difficult to fix these parameters prior to the start of the study, but related papers from the literature can be helpful sources for the unknown quantities. For scientific as well as ethical reasons it is necessary

I PRAXIS

M in i-R e v ie w

Praxis 2014; 103 (2 0 ): 1 1 9 7 -1 2 0 1

1201

i i i

i i i i i

to calculate the sample size in advance in order to be able to answer the study question. Key words: sample size calculation treatment effect - confidence interval - statistical significance

B ib lio g ra p h ie

1.

Bland JM:The tyrann y o f power: is th e re a better way to calculate sample size? BMJ 2009:339:

b39852.

3.

Held U: Wie viele Patienten brauche ich in m einer Studie. Schweiz Med Forum 2 0 io ;io : 685-686. Begg C, Cho M, Eastwood S, et al.: Im proving th e q u a lity o f reporting o f randomized con­ trolled trials. The CONSORT statem ent. JAMA 1996; 276:637-639.

4. ClarkT, Berger U, Mansm ann U: Sample size determ inations in original research protocols fo r

R esum e

randomised clinical tria ls subm itted to UK research ethics com m ittees: review. BMJ 2013; 346: f i i 35-

Le but d u n essai clinique est de juger de l'efficacite d'une nouvelle therapie ou d'un nouveau medicament. Dans la phase de planification de l'etude, le calcul de la taille de l'echantillon est crucial afin d’obtenir des resultats credibles. Le schema de l'etude, l'effet attendu du traitement sur le(s) parametre(s) etudie(s) et sa variabilite, le pouvoir de l'etude et le niveau de signification sont des facteurs sont des facteurs ä prendre en compte pour de­ terminer la taille de l'echantillon. II est souvent difficile de fixer ces parametres avant le debut de l'etude, mais les resultats d etudes publies ayant trait ä une problematique apparentee peut aider ä estimer les valeurs inconnues. Pour des raisons ä la fois scientifiques et ethiques il est necessaire de calculer la taille de l'echantillon ä l'avance afin de pouvoir repondre ä la question de l'etude. Mots-cles: calcul de la taille de l'un echantillon - effet d'un traitement intervalle de confiance - signification statistique K o rresp o n den zad resse

PD Dr. rer. nat. Ulrike Held Horten Zentrum fü r praxisorientierte Forschung und Wissenstransfer Universitätsspital Zürich Pestalozzistrasse 24 8032 Zürich ulrike. held@usz. ch

Interessenskonflikt: Die Autorin erklärt, dass kein Interessenskonflikt besteht.

'Sqqau puis (q puu (b uajjOMquy •£ •Sijqatj puis uoyoMiuy aqy p •U3JBQ uap ui Sunnajjg aip osp ‘qBAjajuizuapijuoyj uios jne qonB luapuos ‘UB 9UI3[[E ppjjaaideiaqq usp jnB .mu jipiu yuiuoq sg arias lUBqijiuSrs qoou yipyyd aSuoqaSnz jap uub>[ qsr uxapj pjajjaaidBjaqy jap uuaM qany -gqqoij jsr (q uoM juy •j

M anuskript eingereicht: 6.3.2014, revidierte Fassung angenomm en: 6.5.2014.

u a S e jju ja n u ap nz u a ^ jo M ju y

Copyright of Praxis (16618157) is the property of Verlag Hans Huber Hogrefe AG and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use.

[On the impact of sample size calculation and power in clinical research].

Le but d'un essai clinique est de juger de l'efficacité d'une nouvelle thérapie ou d'un nouveau médicament. Dans la phase de planification de l'étude,...
3MB Sizes 0 Downloads 5 Views