Rigorose Wirkungsevaluierungen – mehr als nur l’art pour l‘art

    Zwei Jahrzehnte rigorose Wirkungsevaluierung in der Entwicklungszusammenarbeit

    In der Wissenschaft sind rigorose Wirkungsevaluierungen (RIE) seit knapp 20 Jahren ein wichtiges Tool zur Analyse von Wirkungen. Auch in internationalen Organisationen und Entwicklungsbanken setzen sich diese Ansätze immer mehr durch. Doch, was ist das eigentlich genau? Was sind die Vorteile, was die Nachteile und welche Rolle spielen RIE innerhalb der KfW Entwicklungsbank?

    Seit der Jahrhundertwende sind rigorose Wirkungsevaluierungen (Rigoros Impact Evaluation - RIEs) in der internationalen Entwicklungszusammenarbeit (EZ) auf dem Vormarsch. Inspiriert von der Wissenschaft sind sie heute integraler Bestandteil von vielen Vorhaben in der internationalen Zusammenarbeit.

    So gibt es in der Weltbank beispielsweise eine Einheit für Wirkungsevaluierungen (Development Impact Evaluation - DIME). Das World Food Programme – Friedensnobelpreisträger 2020 – verfolgt seit 2019 die WFP Impact Evaluation Strategy, während die International Initiative for Impact Evaluation (3ie) seit 2008 die rigorose Evidenz von Entwicklungsvorhaben fördert und synthetisiert.

    Im Ergebnis führte dies zu einem massiven Anstieg in der absoluten Anzahl durchgeführter RIEs in der EZ. Während bis zum Jahr 2000 weltweit nur insgesamt etwa 50 RIEs von Vorhaben oder Politiken in Ländern des Globalen Südens veröffentlicht wurden, erlebten die 15 Folgejahre einen Boom mit über 4.000 RIEs (Sabet and Brown 2018).

    Abbildung 1
    Abbildung 1: Eigene Darstellung basierend auf dem 3ie RIE Repositorium von 1990-2016.

    Der Zuwachs an RIEs wurde gefördert durch das Zusammentreffen zweier Strömungen. Auf der einen Seite verfolgten politisch Agierende seit der Jahrhundertwende aktiv eine stärkere Wirkungsorientierung in der EZ. Dies manifestierte sich in den Millennium Development Goals (MDG) und der vom BMZ stark mitgestalteten Aid-Effectiveness-Agenda.

    Auf der anderen Seite stieg das Interesse der Wissenschaftsgemeinde an der Analyse der Ursachen von Armut und insbesondere an möglichen Mechanismen zu ihrer Überwindung. Sie nutzte vermehrt verbesserte statistische und ökonometrische Methoden zur Evaluierung von Vorhaben. Die Wissenschaft begann, experimentelle Methoden – wie sie bereits aus der naturwissenschaftlichen und medizinischen Forschung bekannt waren – auf entwicklungsökonomische Fragestellungen anzuwenden.

    Die Königlich Schwedische Akademie der Wissenschaften würdigte dies 2019 mit der Vergabe des wirtschaftswissenschaftlichen Nobelpreises an die Entwicklungsökonominnen und -ökonomen Abhijit Banerjee, Esther Duflo und Michael Kremer. Das Preiskomitee kommentiere die Auszeichnung mit folgenden Worten: „Millionen von Menschen profitieren heute von wirksamen Maßnahmen, die mit dem neuen experimentellen Ansatz entwickelt und getestet wurden, für den sie [die Preisträgerinnen und Preisträger] den Grundstein gelegt haben“.

    Warum evaluieren?

    Gute Gründe für die Durchführung von belastbaren Evaluierungen gibt es viele. Unter den wichtigsten ist die Rechenschaftspflicht gegenüber der Öffentlichkeit und Zivilgesellschaft in Partnerländern sowie in Deutschland. Evaluierungen ermöglichen es, besonders wirksame Ansätze zu identifizieren, diese – wenn nötig – frühzeitig zu modifizieren sowie die Kosteneffizienz eines Vorhabens zu quantifizieren. Eine möglichst stichhaltige Messung der Wirkungen befähigt uns dementsprechend auch institutionell zu lernen. Außerdem tragen die Erkenntnisse zum Ausbau externen Lernens und der globalen Evidenzbasis bei.

    Evaluierung ist insbesondere im Kontext der globalen EZ wichtig: Zum einen müssen sich Projekte in der EZ keinem Wettbewerb stellen wie private Unternehmen. Klassische marktwirtschaftliche Mechanismen, wie Konkurs bei schlechter Firmenführung oder Verdrängung durch bessere Produkte, gibt es nicht. Zum anderen stehen begrenzte Finanzmittel einer Vielzahl an dringend erforderlichen Investitionen gegenüber. Ein solides Wirksamkeitsverständnis ist also von höchster Bedeutung.

    RIEs sind nur eine von mehreren Methoden des Evaluierens oder Monitorings. So nutzt die KfW Entwicklungsbank beispielsweise seit 1990 erfolgreich Ex-post-Evaluierungen, um Vorhaben in der Breite und über die Zeit hinweg systematisch zu betrachten und zu bewerten. Wer jedoch insbesondere Effekte auf der Impact-Ebene messen möchte, ermittelt diese - wie der Name vermuten lässt - anhand von RIEs am rigorosesten.

    Was genau sind rigorose Wirkungsevaluierungen?

    RIEs beschreiben eine Toolbox an experimentellen und quasi-experimentellen Methoden. Ihre Gemeinsamkeit ist die kausale Identifikation und Messung von Wirkungen in einem Vorhaben. Die Betonung liegt auf Kausalität: Also darauf, jene Effekte zu ermitteln, die ausschließlich dem Vorhaben zugeschrieben werden können - und diese von zeitgleichen Entwicklungen oder anderweitigen Zusammenhängen zwischen Vorhaben und Zielindikatoren zu isolieren, und so die Zuordnungslücke zu schließen. Neben der Messung konkreter Wirkungen auf die Zielgruppen von Vorhaben, analysieren RIEs auch Effekte auf Teilgruppen oder unterliegende Wirkungsmechanismen. So kann es zum Beispiel sein, dass ein Gesundheitsvorhaben für Frauen deutlich größere Effekte aufweist als für Männer, oder dass produktive Effekte neuer Stromanschlüsse sich nur in Gegenden materialisieren, die Zugang zu Märkten haben.

    Die rigoroseste Methode der IE Toolbox, der sogenannte „Gold Standard“, sind experimentelle Methoden wie „Randomized Controlled Trials“ (RCTs). Bei RCTs wird ein Vorhaben - oder auch Teilmaßnahmen des Vorhabens - per Zufallsprinzip einer Gruppe von Individuen, Schulen, Gemeinden oder Anderem zugeordnet („Interventionsgruppe“). Die zweite Gruppe erhält das Vorhaben später oder – wie bei einem Placebo – gar nicht (Kontrollgruppe). Das Zufallsprinzip stellt, ähnlich wie in der medizinischen Forschung, die Vergleichbarkeit der zwei Gruppen sicher: Je nach Maßnahme sind sie zum Beispiel im Durchschnitt gleich alt, gesund, ambitioniert, vulnerabel oder wohlhabend. Dementsprechend sind – bei gelungener Umsetzung des Vorhabens – alle Unterschiede zwischen den Gruppen dem Vorhaben selbst zuschreibbar. Ein bekanntes Beispiel sind Cash Transfers, die dann an die Haushalte der Zielgruppe ausgezahlt werden, wenn ihre Kinder die Schule besuchen.

    In Fällen, in denen eine rein experimentelle (zufällige) Zuordnung nicht vertretbar oder realisierbar ist, stellen quasi-experimentelle Methoden häufig eine sinnvolle Alternative dar. Vergleichsgruppen können beispielsweise entlang von Grenzwerten bestimmter Auswahlkriterien definiert werden (Regression Discontinuity Design, RDD). Richtet sich ein Vorhaben zu einem festen Zeitpunkt an Kinder unter zwei Jahren, können fast zweijährige Teilnehmenden mit knapp über zwei Jahre alten Teilnehmenden verglichen werden. Das zeigt ein Beispiel in Burkina Faso.

    RCTs und RDDs sind nur zwei Beispiele aus der IE Toolbox. Je nach Art des Vorhabens, Stand der Umsetzung und Kriterien zur Auswahl von Begünstigten, bietet die Toolbox eine Bandbreite an methodischen Möglichkeiten. Fest steht jedoch: Je früher eine Wirkungsevaluierung in die Umsetzung eines Vorhabens integriert wird, desto höher ist die Wahrscheinlichkeit, belastbare Aussagen über Wirkungen treffen zu können. In ähnlichen Vorhaben können Maßnahmen angepasst und damit die Wirksamkeit erhöht werden. Die Durchführung einer Datenerhebung vor Beginn des Vorhabens (Baseline) kann Evaluierungen beispielsweise immens stärken.

    Ein Wasserprojekt in Pristina, Kosovo, zeigt, dass sich neben den klassischen Impact-Evaluierungsfragen auch die Evaluierung verhaltensökonomischer Fragestellungen lohnen kann.

    Das Projekt diente dem Aufbau leistungsfähiger Strukturen für die Wasser- und Abwasserversorgung. Ziel war es, die Trinkwasserversorgung und damit die Lebensbedingungen zu verbessern.

    Zur Untersuchung des Zahlungsverhaltens der Kunden wurden sogenannte „Nudges“, also Impulse zur Verhaltensänderung, angewandt und auf ihre Wirkung überprüft. Solche Impulse sind zum Beispiel das Anbringen der Rechnung an der Haustür (anstelle der Ablage im Briefkasten) oder schriftliche Appelle an das Verantwortungsbewusstsein der Kundinnen und Kunden.

    Die verschiedenen Impulse wurden randomisiert zugeteilt. Je nach Art des Impulses und der Formulierung der Botschaft, konnte die Zahlungsmoral um bis zu 62 % erhöht werden. Die Ansätze werden nach Aussage des zuständigen Wasserversorgers auch über den ursprünglich geplanten, zweimonatigen Zeitraum hinaus fortgeführt.

    Dieses Projektbeispiel zeigt, wie sich auch ohne große Kosten- und Zeitaufwände gute Ergebnisse erzielen lassen und sich das Testen neuer und kreativer Ansätze mithilfe randomisierter Methoden lohnen kann.

    Wie können Wasserrechnungen besser bezahlt werden? Eine Wirkungs

    Sehen Sie hier die Einschätzungen des Wissenschaftlers Sebastian Tonke sowie des Wasserversorgers in Pristina.

    RIEs ziehen auch Kritik auf sich - und die Debatte über die Vor- und Nachteile wird seit Jahren leidenschaftlich geführt. Zu den wichtigsten Kritikpunkten zählen:

    • Ethische Vorbehalte: Die Teilnahme an Vorhaben ist zufällig und nicht bedarfsorientiert. Dieser Kritikpunkt ist valide und wichtig. Eine Teilnahme am Vorhaben muss immer sinnvollen und fairen Vergabekriterien folgen. Dies ist jedoch auch in RCTs unter klarer Beachtung ethischer Maßstäbe möglich, zum Beispiel, wenn räumliche, budgetäre oder zeitliche Grenzen clever genutzt werden.
    • Ergebnisse von RIEs sind schwer für andere Kontexte, Bevölkerungsgruppen oder Zeitfenster generalisierbar: Diese Kritik trifft zu, wie auch bei anderen Evaluierungsmethoden von Einzelmaßnahmen. Bestehende Möglichkeiten zur Erhöhung von Generalisierbarkeit müssen dementsprechend in der Umsetzung von RIEs ausgeschöpft werden und die Übertragbarkeit auf andere Vorhaben muss im Einzelfall hinterfragt werden. Übrigens: Eine steigende Anzahl an Meta-Evaluierungen und Systematic Reviews von RIEs versucht diese Hürde zu verringern.
    • RIEs eignen sich nicht für alle Vorhaben: Auch, wenn prinzipiell bei jedem Vorhaben eine RIE durchgeführt werden kann, ist sie nicht immer die zielführendste Methode. Es ist deshalb wichtig, die Vor- und Nachteile verschiedener Evaluierungsmethoden im Einzelfall abzuwägen.

    RIE in der KfW Entwicklungsbank

    Die Evaluierungsabteilung der KfW Entwicklungsbank unterstützt mit institutionellem und methodischem Wissen auch zunehmend bei der Umsetzung von RIEs. Eindrücke von Evaluierungsdesigns der KfW Entwicklungsbank finden Sie in den Vorhaben zu Jemen, Burkina Faso und Tansania. Die Nutzung von RIEs passt die Evaluierungsabteilung – unter Berücksichtigung methodischer Möglichkeiten und Grenzen im Sinne von form follows function – ganz an die relevante inhaltliche Frage, den Kontext, sowie die Bedürfnisse und Kapazitäten seiner Projektpartner an. Je nach Bedarf können sowohl Haushalte befragt oder Analysen mithilfe von Satelliten- oder anderer Sekundärdaten durchgeführt werden. Im Idealfall werden RIEs in Zusammenarbeit mit anderen Entwicklungsbanken wie der Weltbank oder der französischen Entwicklungsbank Agence Française de Développement sowie lokalen oder akademischen Partnerinnen und Partnern umgesetzt. So können Synergieeffekte im Lernen, sowohl zwischen den Entwicklungsbanken, als auch zwischen den Partnern, gestärkt werden.

    RIEs sind schon längst in der EZ etabliert. Sie sind ein wichtiger Beitrag auf dem Weg zu mehr Wirksamkeit und Lernen in der Entwicklungszusammenarbeit. Innerhalb der Evaluierungsabteilung der KfW Entwicklungsbank werden sie deshalb - neben den Ex-post-Evaluierungen - als weiteres Instrument zur Evidenzgewinnung auch im neuen Jahrzehnt weiter an Bedeutung gewinnen.

    Erfahrungen mit experimenteller Evaluierung in der KfW Entwicklungsbank

    Seit 2005 soll das multisektorale „Reintegrations- und Wiederaufbauprogramm“ der KfW die Lebensbedingungen in Liberia verbessern und einen Beitrag zur Konsolidierung des laufenden Friedensprozesses leisten. Das Programm findet in Zusammenarbeit mit der Deutschen Welthungerhilfe und weiteren Nichtregierungsorganisationen (NRO) in Liberia statt.

    Während der Vorbereitungen der fünften Programmphase nutzte unser Team die Chance, eine rigorose Wirkungsevaluierung in Form eines Randomized Controlled Trials (RCT) anzustoßen. Unser Ziel war es, angenommene Wirkungslogiken zu untersuchen, kausale Zusammenhänge zu verstehen und den tatsächlichen Impact des Vorhabens zu messen. Zusätzlich wollten wir besser verstehen, welche Rolle konkrete Aspekte der Implementierung spielen, um dies in der Konzeption von Folgevorhaben zu beachten und letztendlich eine höhere Wirksamkeit zu erreichen.

    Das RCT wird momentan von erfahrenen Forschenden in Kooperation mit den implementierenden NRO durchgeführt. Die ersten Zwischenergebnisse des RCT bieten bereits spannende Ansatzpunkte für die effektive Fortgestaltung des Vorhabens. Zum Beispiel ist dank des RCTs deutlich geworden, dass trotz einer starken Rolle von NRO in der Implementierung des Vorhabens, das Vertrauen in den Staat gestärkt werden kann. Wir lernen zudem schon jetzt viel über die Wirkungen unseres Vorhabens auf die soziale, gesundheitliche und wirtschaftliche Situation der Programmteilnehmenden. Unsere bisherigen Erfahrungen ermutigen mich also, auch in Zukunft - wenn möglich - Wirkungsevaluierungen durchzuführen.

    Alina Sennewald, Portfoliomanagerin "Governance" in der Region Westafrika

    Mehr zum Thema

    Cash for Work: Eine rigorose Analyse der Wirkungen im Jemen

    Burkina Faso – Die ersten 1.000 Tage zählen ein Leben lang

    Simiyu Climate Resilience Project in Tansania – eine Begleitevaluierung

    Begleitevaluierungen

    Evaluierungen weltweit