Kooperation | In Kooperation mit: AbbVie Deutschland, DAK Gesundheit, MSD Sharp & Dohme, Novo Nordisk, Roche Pharma, vfa und Cencora Global Consulting Services

EU-Pharma-Regulierung: Impulse für Deutschland

IQWiG-Methoden-Papier und EU-Guidances: Ein Vergleich

Die ersten gemeinsamen klinischen Bewertungen sind im Frühjahr 2025 gestartet. Die Entwicklung der zuvor erstellten EU-Guidances spiegeln das derzeitige gemeinsame Verständnis von EU-HTA der 27 Mitgliedstaaten. Auch werden ihre unterschiedlichen Bedürfnisse für die nationalen Bewertungen sichtbar.

Von Dr. Barbara Spix und Dr. Daniela Preukschat | Ressort Arzneimittelbewertung im IQWiG Veröffentlicht: 29.08.2025, 05:00 Uhr

Roter Pfeil zeigt nach rechts und wird von Geschäftsmann gehalten — © Robert Kneschke / stock.adobe.com

Der europäische Gesetzgeber hat 2021 mit einer Verordnung die Einführung einer gemeinsamen Nutzenbewertung von Gesundheitstechnologien (Health Technology Assessment, HTA) auf europäischer Ebene beschlossen (EU-Regulation 2021/2282).¹ Die Bewertungen sind bereits ab dem 12. Januar 2025 für Arzneimittel mit neuen Wirkstoffen zur Behandlung von onkologischen Erkrankungen und für neuartige Therapien (ATMPs) gestartet.

Grundlage der gemeinsamen klinischen Bewertungen (Joint Clinical Assessment, JCA) ist ein für jedes Verfahren spezifisch festgelegter Bewertungsumfang (Assessment Scope), der die Fragestellungen der verschiedenen Mitgliedsstaaten in Form von PICO(s) umfasst. Das PICO soll die Fragestellung in den jeweiligen Mitgliedstaaten widerspiegeln. In die PICO-Bestimmung spielen der rechtliche Kontext, die jeweilige Versorgungspraxis und die Verfügbarkeit von Vergleichstherapien hinein.

Auch wenn das Ziel der Verordnung die Vereinheitlichung der wissenschaftlichen Grundlage der HTA-Bewertung ist, muss festgehalten werden, dass derzeit innerhalb der EU in der klinischen Praxis keine einheitliche Versorgung besteht. Die Fragestellungen der Mitgliedstaaten werden so weit wie möglich konsolidiert und sind maßgebend dafür, welche Daten vom Hersteller mit dem europäischen Dossier vorzulegen sind.

Der auf dieser Grundlage erstellte europäische Bewertungsbericht beinhaltet die Beschreibung der relativen Effekte eines neuen Arzneimittels und deren Aussagesicherheit innerhalb der Fragestellungen. Damit dient er als Evidenzköper, der allen Mitgliedstaaten zur Verfügung steht und der eine Basis für die nationale Bewertung und Entscheidungsfindung darstellen soll. Die Beurteilung des Ausmaßes und der Wahrscheinlichkeit des Zusatznutzens, in Deutschland zu dem vom G-BA geforderten PICO und gemäß Paragraf 35a SGB V, sowie die Preisgestaltung verbleiben jedoch in der nationalen Zuständigkeit (siehe Abb. 1).

Dabei müssen die Mitgliedstaaten den JCA-Report bei ihren nationalen Erstattungsentscheidungen „in angemessener Weise berücksichtigen“. Um dies gewährleisten zu können, bedarf es auch einer optimalen Verzahnung des europäischen Verfahrens mit dem deutschen System der Nutzenbewertung (AMNOG-Prozess).

Entwicklung europäischer Guidances

Im Rahmen der Vorbereitung auf die europäischen Bewertungen wurden in den Subgruppen verschiedene methodische und prozedurale Guidances erarbeitet und von der HTA Koordinierungsgruppe verabschiedet. Sie betreffen unter anderem den Prozess zur Bestimmung der Assessoren für ein JCA-Verfahren, den Scoping-Prozess, den Umgang mit Endpunkten, die Methodik für Vergleiche und Evidenzsynthese, Anforderungen an das europäische Dossier sowie Anforderungen an den JCA-Report. Die Entwicklung dieser Guidances ist vor dem Hintergrund der Unterschiede zwischen den Bewertungsverfahren innerhalb der nationalen Gesundheitssysteme der Mitgliedstaaten zu betrachten (siehe Abb. 2).

So gibt es Mitgliedstaaten, bei denen die Entscheidungsfindung und Preisgestaltung auf Basis eines klinischen Zusatznutzens getroffen wird (z. B. Deutschland), währenddessen in anderen Mitgliedstaaten, wie z. B. den Niederlanden oder Irland, Entscheidungen auf der Grundlage von Kosten-Effektivitäts-Analysen getroffen werden. Dies hat Implikationen auf die im PICO geforderten Endpunkte sowie auf die Bewertung der Relevanz von Endpunkten im Rahmen der nationalen Bewertungen.

Ein weiterer Aspekt, in dem sich die nationalen Entscheidungsprozesse zwischen den Mitgliedstaaten unterscheiden, betrifft die zu bewertende(n) Population(en) im Anwendungsgebiet. Anders als beispielsweise in Deutschland, wo die Erstattung und Bewertung eines Arzneimittels grundsätzlich an das gesamte zugelassene Anwendungsgebiet geknüpft ist, besteht in anderen Ländern die Möglichkeit einer eingeschränkten Erstattung für spezielle Patientengruppen.

Abbildung 1: Der europäische Bewertungsbericht beinhaltet die Beschreibung der relativen Effekte eines neuen Arzneimittels und deren Aussagesicherheit innerhalb der Fragestellungen. Die Beurteilung des Ausmaßes des Zusatznutzens und die Preisgestaltung verbleiben in nationaler Zuständigkeit.

© IQWiG

Dies führt voraussichtlich zu unterschiedlichen Definitionen in Bezug auf die Patientenpopulation(en) im Rahmen der PICO-Bestimmung der einzelnen Mitgliedstaaten. Des Weiteren bestehen Unterschiede in der Verfügbarkeit insbesondere von neuen oder hochpreisigen Arzneimitteln innerhalb der Mitgliedstaaten. Abhängig davon könnten einzelne Mitgliedstaaten bestimmte Arzneimittel als Komparator eines PICOs erachten, wenngleich dieser Komparator möglicherweise von anderen Mitgliedstaaten nicht im PICO berücksichtigt wird.

Diese unterschiedlichen Anforderungen in Bezug auf Endpunkte, Population und Komparator müssen im europäischen Bewertungsverfahren berücksichtigt werden. Dies geschieht über den Assessment- Scope, der gemäß HTA-Verordnung inklusiv sein muss und den Bedürfnissen der Mitgliedstaaten entsprechen muss. Bei der Entwicklung der entsprechenden Guidances, z. B. zum Scoping-Prozess und zu den Endpunkten, wurden die unterschiedlichen Anforderungen berücksichtigt. In der Scoping-Guidance²werden demnach verschiedene mögliche Szenarien zur Benennung von Komparatoren für ein PICO definiert; die Outcome-Guidance³ beschreibt Definitionen verschiedenster Endpunkte, die für Mitgliedstaaten relevant sein könnten, sowie mögliche Unsicherheiten bezüglich deren Aussagesicherheit oder Erhebung.

Evidenzsuche und Selektion

Für die Erstellung des Dossiers im Rahmen einer europäischen Nutzenbewertung muss der Hersteller eine systematische Informationsrecherche für jedes PICO des Assessment-Scope durchführen.⁴ Aus den Ergebnissen der Informationsrecherche bzw. der vollständigen Liste der verfügbaren Studien selektiert der Hersteller anschließend die für das jeweilige PICO relevante(n) Studie(n). Diese Auswahl erfolgt in einem mehrschrittigen Prozess und in Abhängigkeit vom Komparator-Szenario des jeweiligen PICOs.

Ein grundlegender Unterschied zum AMNOG-Verfahren besteht darin, dass der Hersteller zur Beantwortung jedes PICOs im europäischen Dossier im Falle von nicht vorhandenen, direkt vergleichenden RCTs weitere Evidenz, auch mit geringerer Aussagekraft z. B. aus indirekten Vergleichen oder nicht randomisierten vergleichenden Studien, berücksichtigen muss.

Gemäß AMNOG-Verfahren werden für die Nutzenbewertung primär RCTs (Evidenzstufen Ia/Ib) herangezogen.⁵ Falls keine direkt vergleichenden RCTs mit der zweckmäßigen Vergleichstherapie (zVT) vorhanden sind oder diese keine hinreichenden Aussagen zum Zusatznutzen zulassen, kann der Hersteller optional auch RCTs für einen indirekten Vergleich mit der zVT vorlegen oder nicht randomisierte vergleichende Studien. Letztere werden für die Nutzenbewertung gemäß IQWiG-Methodenpapier⁶ jedoch nur bei Vorliegen hinreichender Ergebnissicherheit aufgrund adäquater Adjustierung herangezogen oder bei Vorliegen eines dramatischen Effekts.

Falls der Assessment Scope für eine Patientenpopulation beispielsweise nur ein einzelnes PICO mit einem Komparator (sog. unique comparator scenario) vorgibt, soll der Hersteller auf erster Ebene nach direkt vergleichenden RCTs suchen. Wenn eine oder mehrere direkt vergleichende RCT(s) gegenüber dem geforderten Komparator vorliegen, ist die Studienselektion damit abgeschlossen und es muss keine weitere Evidenz berücksichtigt werden.

Vorausgesetzt, es gäbe keine Evidenz aus direkt vergleichenden RCTs, so ist der Hersteller aufgefordert, auf zweiter Ebene RCTs für einen adjustierten indirekten Vergleich (Vergleich mit Brückenkomparator) mit dem Komparator einzubeziehen. Falls diese ebenfalls nicht vorhanden sind, wird auf dritter Ebene nach nicht randomisierten direkt vergleichenden Studien oder indirekten Vergleichen ohne Brückenkomparator selektiert.

Demgegenüber wären die Anforderungen gemäß AMNOG bereits nach der ersten Ebene, also mit der Selektion von direkt vergleichenden RCTs, erfüllt. Eine Vorlage von weiterer Evidenz, beispielsweise mangels Verfügbarkeit von direkt vergleichenden RCTs, ist nicht zwingend erforderlich.

Abbildung 2: In Deutschland wird die Entscheidungsfindung und Preisgestaltung auf Basis eines klinischen Zusatznutzens getroffen, andere Mitgliedstaaten treffen Entscheidungen auf der Grundlage von Kosten-Effektivitäts-Analysen.

© IQWiG

In Situationen mit ≥ 2 Behandlungsoptionen als Komparator für dieselbe Population (resultierend in mehreren PICOs mit insgesamt ≥ 2 Komparatoren) sollen auf EU-Ebene alle verfügbaren RCTs mit direkten Vergleichen gegenüber den entsprechenden Komparatoren berücksichtigt werden, als auch weitere RCTs, um die zu bewertende Intervention mit den Komparatoren in einem Netzwerk zu verknüpfen.⁴ Diese Vorgaben greifen die Bedürfnisse insbesondere der Mitgliedstaaten auf, die für ihre nationalen Verfahren Netzwerkmetaanalysen (NMA) heranziehen.

Im AMNOG-Verfahren hingegen wird im Rahmen der Evidenzsuche und -selektion keine Darstellung von verbundenen Netzwerken für NMA gefordert. Der Hersteller kann sich im Fall mehrerer Komparatoren immer einen aus seiner Sicht bewertungsrelevanten Komparator auswählen und die Evidenzaufarbeitung im AMNOG-Dossier auf diesen beschränken.⁷ Das Vorgehen zur Studienselektion im Rahmen von EU-HTA in einer Situation mit mehreren „oder“-verknüpften Behandlungsoptionen als Komparator ist in Abbildung 4 der Dossier Template Guidance⁴dargestellt.

Methodik für Vergleiche

Die Guidelines zur Evidenzsynthese^8,9 beschreiben die verfügbaren Methoden für direkte und indirekte Vergleiche von Behandlungen inklusive der zugrunde liegenden Annahmen, Stärken und Schwächen. Demnach werden qualitativ gut konzipierte und durchgeführte RCTs als Goldstandard für die Schätzung eines Behandlungseffekts angesehen und sollten bevorzugt für die Evidenzsynthese berücksichtigt werden.

Falls keine Evidenz aus direkt vergleichenden Studien verfügbar ist oder mehrere Behandlungen gleichzeitig verglichen werden sollen, können alternativ indirekte Vergleiche herangezogen werden. Hierbei werden adjustierte indirekte Vergleiche unter Berücksichtigung einer Randomisierung als geeignet erachtet, beispielsweise nach Bucher-Methode bzw. gemäß frequentistischer und Bayes’scher Methoden für NMA.

Als weitere Gruppe werden in den Guidelines zur Evidenzsynthese nicht randomisierte Studien erwähnt, z. B. einarmige Studien, Kohortenstudien, Fall-Kontroll-Studien, die Verwendung von historischen Kontrollen sowie nicht adjustierte indirekte Vergleiche. Die Kalkulation von relativen Behandlungseffekten auf der Grundlage solcher Studien beinhaltet jedoch aufgrund der fehlenden Randomisierung eine sehr hohe Wahrscheinlichkeit für fundamentale Verzerrungen. Die zuvor beschriebenen Evidenzgrade der Vergleiche entsprechen grundsätzlich der IQWiGMethodik.⁶

Für indirekte Vergleiche (als auch direkte Vergleiche) sollten drei zentrale Annahmen gelten. Erstens, die zugrunde liegenden Studien sollten in Bezug auf potenzielle Effektmodifikationen (z. B. Patientencharakteristika) ähnlich sein (Ähnlichkeitsannahme). Zweitens, zwischen den Studienergebnissen sollten keine bedeutenden Unterschiede vorhanden sein (Homogenitätsannahme) und drittens, zwischen der Evidenz aus direkten und indirekten Vergleichen sollten keine Inkonsistenzen bestehen (Konsistenzannahme).

Diese Aspekte sind bei der Beurteilung von Evidenz aus indirekten Vergleichen zu prüfen. Für den Fall, dass die Ähnlichkeitsannahme zwischen den Studien eines indirekten Vergleiches nicht haltbar ist, können weitere Methoden zur Adjustierung dieser Faktoren in Betracht gezogen werden. Sowohl das IQWiG-Methodenpapier⁶ als auch die EU-Guidelines^8,9 erwähnen in diesem Zusammenhang die Möglichkeit der Anwendung von matching-adjusted indirect comparisons (MAIC) oder von Propensity Scores.

Das IQWiG führt in seinem Methodenpapier aus, dass MAIC-Analysen ohne Brückenkomparator grundsätzlich keine adäquate Möglichkeit der Confounderadjustierung darstellen. Bei nicht randomisierten Vergleichen ohne Brückenkomparator sind für die Confounderadjustierung regelhaft nur solche Vergleiche sinnvoll, die im Gegensatz zur MAIC-Analyse ohne Brückenkomparator unter Verwendung von individuellen Patientendaten durchgeführt werden. Übereinstimmend damit werden auch in den EUGuidelines diese Einschränkungen und Unsicherheiten in der Anwendung von MAIC-Analysen ohne Brückenkomparator adressiert.

Für eine adäquate Adjustierung ist es erforderlich, dass alle relevanten Confounder und Effektmodifikatoren im statistischen Modell berücksichtigt werden. Die Propensity-Score-Methode kann für solche bekannten und tatsächlich gemessene Störgrößen in nicht randomisierten Vergleichen adjustieren. Eine relevante Unsicherheit ergibt sich jedoch in Bezug auf potenziell vorhandene, aber unbekannte Störgrößen, die nur durch Randomisierung gleichmäßig auf die Behandlungsarme verteilt werden können.

Die Unsicherheiten, die mit nicht randomisierten Daten assoziiert sind, erfordern einen ausreichend großen Behandlungseffekt, von dem angenommen werden kann, dass er nicht allein durch Verzerrungen aufgrund unbekannter Störgrößen hervorgerufen wird. Um dies zu überprüfen, kann ein statistischer Test gegen eine „verschobene Nullhypothese“ (Hypothesenshift) durchgeführt werden, bei der die statistische Signifikanz des Behandlungseffekts anhand eines Schwellenwerts geprüft wird, der von der ursprünglichen Nullhypothese („kein Effekt“) abweicht.

Insgesamt zeigt sich bezüglich der Methodik der Vergleiche und der Beschreibung der Unsicherheiten beispielsweise in der Anwendung von MAIC und Propensity Scores, eine wesentliche Übereinstimmung zwischen den EU-uidelines zur Evidenzsynthese und den IQWiG-Methoden.

Im Rahmen einer europäischen Bewertung mit denkbar zahlreichen PICOs, zu denen aber nicht immer Evidenz aus direkt vergleichenden Studien vorhanden sein wird, sowie auf Grundlage unterschiedlicher Bedürfnisse der Mitgliedstaaten, für die der JCA-Report nutzbar sein muss, ist davon auszugehen, dass vermehrt indirekte Vergleiche vorgelegt und bewertet werden. Im JCA-Report soll die Aussagekraft der vom Hersteller vorgelegten Daten bezüglich des Behandlungseffekts beschrieben werden.

Dabei sollen Stärken und Schwächen der Daten dargestellt werden. Dies bildet schließlich die Grundlage für die Entscheidungen der Mitgliedstaaten über Erstattung und Preisfindung auf nationaler Ebene. Die Mitgliedstaaten entscheiden auf nationaler Ebene, welche Unsicherheiten sie in ihrem jeweiligen Entscheidungskontext akzeptieren und welche nicht.

Endpunkte

Endpunkte haben eine zentrale Bedeutung für die Bewertung von neuen Gesundheitstechnologien. Im europäischen Nutzenbewertungsverfahren werden Endpunkte im Scoping-Prozess im Rahmen der Festlegung und Rückmeldung der nationalen PICOs von den Mitgliedstaaten definiert. Im JCA-Report werden die Ergebnisse in Bezug auf die geforderten Endpunkte sowie potenzielle Ergebnisunsicherheiten dargestellt (siehe Abb. 1). Die Outcome-Guidance³ unterstützt nun zum einen die Mitgliedstaaten bei der Definition von relevanten Endpunkten während des Scoping-Prozesses, und zum anderen die Assessoren bei der Berichterstattung der Endpunkte im JCA-Report.

Ein zentraler Unterschied zwischen dem AMNOG-Verfahren und dem EU-HTA Verfahren ergibt sich daraus, dass gemäß AM-NutzenV⁷ und IQWiG-Methodenpapier⁶ der therapeutische Nutzen auf der Grundlage von patientenrelevanten Endpunkten, insbesondere Morbidität, Mortalität und Lebensqualität, bewertet wird. Dies beinhaltet beispielsweise ganz konkret die Verbesserung des Gesundheitszustands oder der Lebensqualität von Patientinnen und Patienten, die Verkürzung der Krankheitsdauer, die Verlängerung des Überlebens oder Verringerung von Nebenwirkungen.

Im Rahmen des AMNOG-Verfahrens legt der Hersteller in Modul 4 des Dossiers⁵die Ergebnisse zu allen patientenrelevanten Endpunkten vor und begründet, warum der Endpunkt als patientenrelevant eingestuft wurde. Die Patientenrelevanz der Endpunkte wird vom IQWiG eingeschätzt. Das Ausmaß des Zusatznutzens der Intervention wird dann auf der Ebene jedes patientenrelevanten Endpunkts sowie in der Gesamtschau beurteilt. Im JCA-Report hingegen erfolgt eine Darstellung der Ergebnisse all derer Endpunkte, die von den Mitgliedstaaten über die nationalen PICOs gefordert wurden und im Assessment Scope abgebildet sind.

Eine Auswahl von Endpunkten, beispielsweise in Abhängigkeit von der Patientenrelevanz, erfolgt auf EU-Ebene nicht. Die HTA-Verordnung weist explizit darauf hin, dass die Bewertung keine Rangfolge von Endpunkten enthalten soll. Die Einschätzung über die Relevanz eines Endpunkts und die Berücksichtigung der entsprechenden Ergebnisse im nationalen Entscheidungsprozess obliegt den Mitgliedstaaten.

In der HTA-Verordnung¹ bzw. in der Outcome-Guidance³ werden Endpunkte als „gesundheitsbezogen“ bzw. als „patientenzentriert“ beschrieben. Patientenzentrierte Endpunkte umfassen Endpunkte zur Mortalität, Morbidität und Endpunkte, die im Zusammenhang mit den Gefühlen, Überzeugungen, Präferenzen, Bedürfnissen und Funktionen der Patientinnen und Patienten stehen (z. B. die Fähigkeit, an Aktivitäten des täglichen Lebens teilzunehmen).

Idealerweise sollten bei der Entscheidung darüber, was ein patientenzentrierter Endpunkt für ein PICO darstellt, Patientinnen und Patienten eingebunden werden, die von der Krankheit selbst betroffen sind bzw. Betroffene mit Kenntnissen darüber (z. B. Patientenvertreterinnen / Patientenvertreter), sowie in dem Krankheitsbereich erfahrene klinische Experten. Dies ist sowohl im AMNOG-Verfahren als auch im EU-HTA-Verfahren sichergestellt, da an verschiedenen Stellen in den jeweiligen Verfahren eine Einbindung von solchen externen Experten stattfindet bzw. vorgesehen ist.

Ein weiteres Thema, das die Outcome-Guidance aufgreift und das Gegenstand intensiver Diskussionen seit einigen Jahren ist, betrifft Surrogatendpunkte. Ein Surrogat wird als Ersatz-Endpunkt für das eigentlich interessierende patientenzentrierte bzw. patientenrelevante Ereignis angesehen und wird in Studien oftmals eingesetzt, wenn das patientenrelevante Ereignis erst mit zeitlicher Verzögerung auftritt (z. B. progressionsfreies Überleben als Surrogat für das Gesamtüberleben). Die Aussagekraft von Surrogatendpunkten ist jedoch oftmals reduziert.

Sowohl im IQWiG-Methodenpapier⁶ als auch in der Outcome-Guidance³ wird daher eine Validierung durch geeignete statistische Methoden gefordert. In der Outcome-Guidance werden korrelationsbasierte Verfahren zur Surrogatvalidierung beschrieben, bei denen die Stärke der Assoziation zwischen dem Surrogat und dem interessierenden Endpunkt (Korrelationsmaß auf Patientenebene) als auch zwischen den Behandlungseffekten auf das Surrogat und den interessierenden Endpunkt (Korrelationsmaß auf Studienebene) nachgewiesen werden sollen, Letzteres auf Basis von Metaanalysen von mehreren RCTs.

Darüber hinaus beschreibt die Guidance auf Basis vorhandener Literatur¹⁰ einen Schwellenwert von mindestens 0,85 für das Korrelationsmaß als hoch, welches somit als Kriterium für die Surrogatvalidierung herangezogen werden kann. Auch das IQWiG beschreibt in seinem Methodenpapier primär korrelationsbasierte Verfahren zur Surrogatvalidierung, idealerweise basierend auf einer Metaanalyse mehrerer RCTs.

Alternativ wird auch die Anwendung des Konzepts eines Surrogate-Threshold-Effekts (STE) aufgeführt, bei denen die Größe des Effekts auf das Surrogat in den Studien zur Nutzenbewertung dem STE gegenübergestellt wird. Aufgrund der erhöhten Unsicherheiten bei der Verwendung von Surrogatendpunkten innerhalb eines Bewertungsverfahrens betont die Outcome-Guidance, dass bevorzugt patientenzentrierte Endpunkte (z. B. Mortalität, Morbidität, Lebensqualität) von den Mitgliedstaaten im Rahmen des Scoping-Prozesses gefordert werden sollten. Validierte Surrogatendpunkte können ergänzend zu patientenzentrierten Endpunkten gefordert werden, falls dies von einem Mitgliedstaat als relevant erachtet wird.

Nur wenn unbedingt notwendig, sollte ein Mitgliedstaat einen validierten Surrogatendpunkt ersetzend für einen patientenzentrierten Endpunkt fordern. Falls der Hersteller einen Surrogatendpunkt inklusive dessen Nachweis zur Validierung im europäischen Dossier vorlegt, wird die Validierung des Surrogats von den Assessoren geprüft und im JCA-Report adressiert. Dies umfasst eine Beschreibung der Stärke der Assoziation zwischen Surrogat und patientenzentriertem Endpunkt sowie zwischen dem Behandlungseffekt auf das Surrogat und patientenzentriertem Endpunkt, eine Beschreibung des Evidenzlevels sowie von Unsicherheiten und Limitationen bezüglich Verwendung dieses Surrogats.

Die finale Bewertung der Validität eines Surrogats und Entscheidung über die Berücksichtigung eines solchen Endpunkts im nationalen Bewertungsverfahren obliegt den Mitgliedstaaten.

Endpunkte zur gesundheitsbezogenen Lebensqualität sowie andere patientenberichtete Endpunkte werden häufig mithilfe von validierten Fragebögen und darin enthaltenen Skalen erfasst. Von Interesse ist dabei die Bewertung der Relevanz der beobachteten Wirkungen durch das zu untersuchende Arzneimittel, also ob der Unterschied zwischen der Interventions- und Kontrollgruppe einer Studie für Patientinnen und Patienten spürbar ist. Gemäß IQWiG-Methodenpapier⁶ kann die Relevanzbewertung grundsätzlich auf Basis von Mittelwertdifferenzen und Responderanalysen erfolgen.

Als plausibler Schwellenwert für eine spürbare Veränderung wird dabei ein Responsekriterium von mindestens 15 Prozent der Skalenspannweite (wenn präspezifiziert) oder genau 15 Prozent der Skalenspannweite (falls post hoc festgelegt) herangezogen. Falls keine Responderanalysen vorliegen oder diese nicht geeignet sind, können Analysen der kontinuierlichen Daten herangezogen werden mit standardisierter Mittelwertdifferenz (SMD, in Form von Hedges‘ g) und einer Irrelevanzschwelle von 0,2 für die Relevanzbewertung.

Auf europäischer Ebene sollten stets Analysen kontinuierlicher Daten dargestellt werden (z. B. Veränderung der Werte im Laufe der Zeit).³ Diese können allerdings durch Analysen auf der kategoriellen Skala, d. h. unter Verwendung einer Responder-Definition, ergänzt werden. Aus dem JCA-Report soll dabei außerdem hervorgehen, welche der beiden Effektmaße als primäre Analyse im Studienprotokoll prädefiniert waren. Weiterhin sollte im Falle der Vorlage von Responderanalysen durch den Hersteller die Methodik und Rationale für die Definition des Responsekriteriums dargestellt werden.

Anders als im IQWiG-Methodenpapier wird in der Outcome-Guidance derzeit kein konkreter Wert zur Festlegung eines Responsekriteriums erwähnt. Vielmehr werden unterschiedliche Methoden zur Schätzung der minimal (clinically) important difference (MID, MICD) beschrieben (ankerbasierte oder verteilungsbasierte Verfahren), welches als Kriterium für eine bedeutsame Veränderung beim Patienten und somit als Responsekriterium herangezogen werden kann. Die Berücksichtigung der Ergebnisse nach kontinuierlicher Skala und / oder auf Basis einer Responder-Definition obliegt den einzelnen Mitgliedstaaten im Rahmen des nationalen Entscheidungsprozesses.

Umgang mit Datenschnitten

Das Thema Datenschnitte wird von zwei verschiedenen EU-Guidances aufgegriffen, der Reporting-Guidance¹¹ und der Dossier Template Guidance.⁴ Grundsätzlich sind bei Vorliegen von mehreren Datenschnitten die Ergebnisse zum letzten präspezifizierten Datenschnitt im EU-Dossier vom Hersteller vorzulegen und im JCA-Report von den Assessoren darzustellen, und zwar jeweils für alle Endpunkte. In solchen Fällen, in denen die Datenqualität des letzten präspezifizierten Datenschnitts beispielsweise aufgrund von einem hohen Anteil an fehlenden Werten nicht ausreichend ist, können auch die Ergebnisse von früheren Datenschnitten berichtet werden.

Um die Bedürfnisse aller Mitgliedstaaten an notwendige Datenschnitte zu erfüllen, werden darüber hinaus noch zwei zusätzliche Anforderungen formuliert. Für Multiplizität-kontrollierte Endpunkte, häufig der primäre Endpunkt einer Studie, sollten zusätzlich zum letzten präspezifizierten Datenschnitt die Ergebnisse des Datenschnitts berichtet werden, zu dem die Nullhypothese verworfen wurde.

Für Mitgliedstaaten, in denen die nationale Bewertung erst mehrere Jahre nach der europäischen Nutzenbewertung erfolgt, ist insbesondere der letzte verfügbare Datenschnitt für den Endpunkt Gesamtüberleben relevant. Die Ergebnisse zum Gesamtüberleben für diesen Datenschnitt sind demnach ebenfalls im EU-Dossier vorzulegen und im JCA-Report darzustellen.

Im Dossier für das AMNOG-Verfahren muss der Hersteller angeben, welche Datenschnitte durchgeführt wurden, ob diese a priori geplant waren, und ob ggf. noch weitere Datenschnitte geplant sind.⁵ Regelhaft sind hier analog dem EU-HTA Verfahren grundsätzlich die Ergebnisse des letzten präspezifizierten Datenschnitts relevant, eventuell auch von der EMA geforderte Datenschnitte.

Fazit

Die Guidances für EU-HTA enthalten umfassende Informationen zum Scoping-Prozess, zur Evidenzsynthese, zu Endpunkten und geben detaillierte analytische Empfehlungen für Hersteller und Assessoren.

Zwischen den methodischen Guidances für EU-HTA und der IQWiG-Methodik gibt es wesentliche Übereinstimmungen (z. B. systematische Evidenzsuche, qualitativ hochwertige RCTs als Goldstandard, Unsicherheiten bezüglich nicht randomisierter Vergleiche und Surrogatendpunkte).

Im JCA-Report wird vorhandene Evidenz unterschiedlicher Qualität dargestellt inkl. deren Unsicherheiten. Die Entscheidung über die Berücksichtigung der Evidenz z. B. bei Erstattungsentscheidung oder Preisverhandlung wird von den Mitgliedstaaten auf nationaler Ebene getroffen.

IQWiG-Methoden-Papier und EU-Guidances: Ein Vergleich — © Privat

Dr. Barbara Spix, seit 2022 wissenschaftliche Mitarbeiterin im Ressort Arzneimittelbewertung im IQWiG. Sie ist beteiligt an den ersten europäischen Nutzenbewertungen. Nach dem Studium der Pharmazie an der HHU Düsseldorf und Approbation zur Apothekerin, schloss sie 2022 Ihre Promotion im Fachbereich Pharmakologie und Toxikologie an der LMU München ab.

Dr. Daniela Preukschat, seit 2021 Bereichsleiterin im Ressort Arzneimittelbewertung (Bereich chronische Erkrankungen) im IQWiG. Nach dem Studium der Biologie sowie der Sportwissenschaften promovierte sie 2013 am Institut für Genetik der Universität zu Köln. Anschließend arbeitete sie zunächst im Bereich Evidenzbasierte Medizin des MDS (Medizinischer Dienst des Spitzenverbandes Bund der Krankenkassen e.V., Essen) und kam 2016 zum IQWiG.

Literatur

¹ European Parliament, Council of the European Union (2021) Regulation (EU) 2021/2282 of the European Parliament and of the Council of 15 December 2021 on health technology assessment and amending Directive 2011/24/EU (Text with EEA relevance). https://go.sn.pub/stkv8c. Accessed 01.04.2025.

² Member State Coordination Group on Health Technology Assessment (2024) Guidance on the scoping process. https://go.sn.pub/hvc3st. Accessed 31.03.2025.

³ Member State Coordination Group on Health Technology Assessment (2024) Guidance on outcomes for joint clinical assessments. https://go.sn.pub/1pvyzz. Accessed 01.04.2025.

⁴ Member State Coordination Group on Health Technology Assessment (2024) Guidance on filling in the joint clinical assessment (JCA) dossier template – Medicinal products. https://go.sn.pub/gwser4. Accessed 08.04.2025.

⁵Gemeinsamer Bundesausschuss Verfahrensordnung des Gemeinsamen Bundesausschusses; Anlage II zum 5. Kapitel – Format und Gliederung des Dossiers, einzureichende Unterlagen, Vorgaben für technische Standards. https://go.sn.pub/oa6g17. Accessed 09.04.2025.

⁶ Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (2023) Allgemeine Methoden; Version 7.0. https://go.sn.pub/mkwigq. Accessed 09.04.2025.

⁷ Bundesministerium für Gesundheit (2023) Verordnung über die Nutzenbewertung von Arzneimitteln nach § 35a Absatz 1 SGB V für Erstattungsvereinbarungen nach § 130b SGB V (Arzneimittel-Nutzenbewertungsverordnung - AM-NutzenV). https://go.sn.pub/f5cp5w. Accessed 08.04.2025.

⁸ Member State Coordination Group on Health Technology Assessment (2024) Methodological Guideline for Quantitative Evidence Synthesis: Direct and Indirect Comparisons. https://go.sn.pub/a8rm55. Accessed 04.04.2025.

⁹ Member State Coordination Group on Health Technology Assessment (2024) Practical Guideline for Quantitative Evidence Synthesis: Direct and Indirect Comparisons. https://go.sn.pub/ev3abu. Accessed 08.04.2025.

¹⁰ Prasad V, Kim C, Burotto M (2015) The Strength of Association Between Surrogate End Points and Survival in Oncology: A Systematic Review of Trial-Level Meta-analyses. JAMA Intern Med 175(8):1389-1398. doi:10.1001/jamainternmed.2015.2829.

¹¹ Member State Coordination Group on Health Technology Assessment (2024) Guidance on reporting requirements for multiplicity issues and subgroup, sensitivity and post hoc analyses in joint clinical assessments. https://go.sn.pub/b6izbi. Accessed 01.04.2025.

Schlagworte:

Top-Meldungen

Das Unfallrisiko von Menschen mit Diabetes ist mit 12 bis 19 Prozent im Vergleich zu ADHS (300 Prozent) und OSAS/Schlafapnoe (140 Prozent) nur geringfügig erhöht. Es wird häufig überschätzt. — © Song_about_summer / stock.adobe.com

S2e-Leitlinie aktualisiert

Auto fahren mit Diabetes: Auf diese Punkte sollten Ärzte hinweisen

Das Update der S2e-Leitlinie „Diabetes und Straßenverkehr“ hebt hervor, dass moderne Diabetestechnik und Medikamente die Sicherheit von Menschen mit Diabetes im Straßenverkehr deutlich erhöhen. Ein Überblick über die aktuellen Empfehlungen.

04:05 Uhr

Ein mann hält seine Hand offen. Aus der Hand kommen die Flaggen verschiedener Länder geflogen. — © vegefox.com / stock.adobe.com

Krebskongress

Darmkrebsvorsorge: So werden Menschen mit Migrationshintergrund erreicht

Dass es in Deutschland ein flächendeckendes Darmkrebs-Screening gibt, ist richtig und wichtig. Doch der Zugang für Menschen mit Migrationshintergrund ist erschwert. Was dagegen unternommen werden kann, wurde beim DKK-Kongress erörtert.

18.02.2026

Porträt

Aufklärung mit KI: Darum setzt Dermatologin und Miss Germany Valentina Busik auf Arzt-Avatare

Dr. Valentina Busik wurde 2025 zur Miss Germany gekürt. Seitdem hat sich in ihrem Alltag viel getan: Neben ihrer Weiterbildung in einer dermatologischen Praxis bringt sie mit einem Start-up Arzt-Avatare auf den Bildschirm.

04:15 Uhr