Direct naar (in deze pagina): inhoud of menu.

Het meten van doeltreffendheid

RPE artikel 1

 d. Doeltreffendheid van het beleid: de mate waarin de beleidsdoelstelling dankzij de inzet van de onderzochte beleidsinstrumenten wordt gerealiseerd;

Wat is doeltreffendheid?

Doeltreffendheid  en effectiviteit zijn synoniemen voor hetzelfde begrip. Waar we in dit stuk spreken over doeltreffendheid kan dus ook effectiviteit worden gelezen.

In figuur 1 wordt het begrip doeltreffendheid geïllustreerd aan de hand van de resultatenketen zoals deze ook bij het uitwerken van de beleidstheorie kan worden gebruikt.

  • Input: mensen en middelen die worden ingezet
  • Activiteiten: de interventies, instrumenten die met deze middelen worden uitgevoerd
  • Output: de prestaties die met deze activiteiten worden geleverd
  • Outcome: de directe effecten van deze prestaties
  • Impact: de uiteindelijk bereikte veranderingen in de maatschappij

Zowel de outcome als de impact kunnen behalve door beleid ook door andere factoren worden beïnvloed. Een voorbeeld van een resultatenketen over het verminderen van het aantal verkeersdoden wordt uitgewerkt op de webpagina  de beleidstheorie.

Het woord “dankzij” in de definitie van doeltreffendheid vereist dat voor het aantonen van doeltreffendheid de causaliteit tussen beleid en effecten, oftewel tussen de prestaties (output) en de effecten (outcome) aangetoond moet worden. Als we uitgaan van het hiervoor beschreven voorbeeld van de verkeersveiligheid: Wordt het verhoogde gebruik van de fietshelm inderdaad veroorzaakt door de landelijke voorlichtingscampagne? Deze outcome kan namelijk ook door andere externe factoren worden veroorzaakt zoals een verlaging van de prijs, of een verbetering van het imago van fietshelmen. Wanneer alleen wordt gemeten of er meer fieltshelmen worden gebruikt, zonder dat de relatie met het beleid wordt gelegd spreken we van doelrealisatie.

Afb 1. Doeltreffendheid

Een ander voorbeeld: het re-integratiebeleid voor werklozen. De input van het re-integratiebeleid zijn de middelen/ ambtenaren. De activiteit is het opzettenen aanbieden van werkhervattingstrajecten. De prestatie (output) is het aantal door werklozen gevolgde werkhervattingstrajecten. De doelrealisatie is het percentage werkhervattingen bij cliënten die zo’n traject hebben gevolgd. Onbekend is dan nog, in hoeverre dit percentage werkhervatting het resultaat is van het beleid. Er zijn immers ook een hoop andere factoren op van invloed, zoals de economische conjunctuur en de beschikbaarheid van (goede) kinderopvang.

Door te corrigeren voor de kans op werkhervatting zonder de inzet van de werkhervattingstrajecten, kan de doeltreffendheid van de re-integratie-instrumenten worden afgeleid. Stel bijvoorbeeld dat een re-integratiebedrijf 100 klanten krijgt voor re-integratie en er na verloop van tijd 40 uitstromen naar werk. Wanneer het re-integratiebedrijf alle klanten ‘met rust gelaten’ zou hebben (de situatie zonder beleid) en er zouden er toch 30 uitstromen naar werk, is het effect van de ingezette trajecten en dus de doeltreffendheid (40-30=) 10 klanten.

 

Het meten van doeltreffendheid

Vaak zijn de prestaties (output) en doelrealisatie nog wel te meten, hoewel ook daar haken en ogen aan kunnen zitten. Bij het re-integratiebeleid is bijvoorbeeld te meten hoeveel werkhervattingstrajecten zijn uitgevoerd (prestatie) en hoeveel mensen daarvan het werk hebben hervat (outcome). De effecten van beleid (ten opzichte van een situatie zonder beleid) zijn veel lastiger in beeld te brengen.

Experimenten en quasi-experimenten: de Maryland Scientific Methods scale

Een bekende graadmeter om vast te stellen tot op welke hoogte een studie inzicht geeft in deze causale relatie tussen prestatie (output) en effect is de Maryland Scientific methods Scale.

Vijf niveaus van interne onderzoeksvaliditeit: de Maryland Scientific methods scale.

Niveau 1: Samenhang tussen een beleidsmaatregel en uitkomstvariabele na invoering van de beleidsmaatregel;

Niveau 2: Score op de uitkomstvariabele voor en na invoering van de beleidsmaatregel, zonder (vergelijkbare) controlegroep;

Niveau 3: Score op de uitkomstvariabele voor en na invoering van de beleidsmaatregel, gemeten in een experimentele en vergelijkbare controlegroep;

Niveau 4: Score op de uitkomstvariabele voor en na invoering van de beleidsmaatregel gemeten in een experimentele settingen een vergelijkbare controlegroep, waarbij zoveel mogelijk geconroleerd wordt voor de invloed van andere factoren;

Niveau 5: Score op de uitkomstvariabele voor en na invoering van de beleidsmaatregel, waarbij de beleidsmaatregel ‘at random’ is toebedeeld aan een experimentele en een controlegroep (experimenteel design).

Wanneer een studie op deze schaal 3 of hoger scoort, is dat voldoende voor het trekken van conclusies over de doeltreffendheid.  Er is dan sprake van een experiment of quasi-experiment.

De meest robuuste manier om effectiviteit te meten is het doen van een experiment, niveau 5. Hierbij worden twee (sterk) vergelijkbare groepen bestudeerd, waarbij de ene het beleid ondergaat en de andere niet. Hierdoor is het enige verschil tussen de groepen de input van het door te lichten beleid. Het verschil in uitkomst van de twee groepen is dan ook het effect van het beleid.  Een experiment bij beleid stuit in de praktijk vaak op ethische bezwaren (zoals ongelijkheid door uitsluiting), maar deze zijn meestal niet onoverkomelijk, zeker gelet op de opbrengsten ervan: weten of beleid werkt of kan werken.

Bij niveaus 3 en 4 is sprake van een quasi-experiment. Een quasi-experiment lijkt op een experiment, maar wordt tot stand gebracht door groepen met elkaar te vergelijken die niet ‘at random’ door de onderzoekers worden samengesteld, maar bijvoorbeeld uit de praktijk resulteren. Zo is er bijvoorbeeld een subsidie voor jonge landbouwers om te investeren in hun bedrijf. Hiervoor komen alleen landbouwers jonger dan 40 jaar in aanmerking. die minder dan drie jaar geleden een bedrijf hebben overgenomen of gestart jonger dan 40 jaar. De tamelijk willekeurige grens van 40 jaar biedt hier een mogelijkheid tot het maken van twee vergelijkbare groepen: gesubsidieerde landbouwers van 39 jaar zullen grotendeels overeenkomen met 40 jarige landbouwers die ook onlangs gestart zijn maar niet in aanmerking komen voor de subsidie.

Voor verschillende typen (experimentele) opzetten voor effectiviteitsonderzoek kan het overzicht door Mulder, Daalder en Leeuw (WODC 2013) – op basis van de justitiële praktijk – een inspiratiebron zijn.

Een aantal treffende voorbeelden van verwarring over het begrip doeltreffendheid en het gebruik van controlegroepen en mogelijke methoden om dit op een goede manier te meten, zijn door Webbink (jaartal) beschreven in zijn inaugurele rede (link) bij zijn aantreden als bijzonder hoogleraar beleidsevaluatie aan de EUR.

Wat als het niet mogelijk is om doeltreffendheid experimenteel te toetsen?

In de praktijk is het vaak niet goed mogelijk om de causaliteit tussen beleid en uitkomsten keihard vast te stellen. Dat kan bijvoorbeeld het geval zijn wanneer vele actoren ieder met eigen interventies actief zijn op een bepaald beleidsterrein. Bovendien wordt bij Rijk vaak de hele bevolking tegelijk aan nieuw beleid “blootgesteld”; van een controlegroep is dan geen sprake waardoor je de doeltreffendheid niet op de experimentele wijze kunt toetsen.

Dit zijn echter geen redenen om af te zien van verdere analyse en het trekken van conclusies. Ten eerste is het in dit geval zinvol om als opmaat naar verbetering een conclusie op te nemen, waarin wordt aangegeven dat het niet mogelijk is om op basis van de huidige gegevens een onderbouwde uitspraak te doen over de doeltreffendheid van beleid. In artikel 2 van de RPE wordt ook aangegeven dat het rapport inzicht moet geven in “de mogelijkheden en onmogelijkheden om de doeltreffendheid en/of de doelmatigheid van het betreffende beleid vast te stellen”. Om het leren van de beleidsevaluatie te bevorderen, is het goed om in dit geval ook aan te geven op welke manier in de toekomst meer inzicht verkregen kan worden in doeltreffendheid of doelmatigheid.

Bovendien kun je wanneer doeltreffendheid niet hard kan worden aangetoond, de relatie tussen beleid en effect soms wel plausibel maken. Hieronder beschrijven we kort een aantal mogelijkheden.

Tijdreeksen

Vaak zijn er uit monitoringprogramma’s tijdreeksen beschikbaar van gegevens m.b.t. de doelindicator (bijvoorbeeld dodelijke verkeersongevallen). Trends en trendbreuken in zo’n tijdreeks hierin kunnen vervolgens in verband worden gebracht met het moment waarop beleidsinterventies (bijv. snelheidsbeperkende en andere verkeersveiligheidsmaatregelen) hebben plaatsgevonden. Is een trendbreuk mogelijk het gevolg van interventie(s), dan  kan vervolgens worden gecontroleerd voor invloeden van buitenaf (bijvoorbeeld mobiliteitscijfers: ligt de aanhoudende daling in het aantal dodelijke slachtoffers aan afgenomen drukte op de weg of niet?). In feite is dit een analyse op niveau 2 van de Maryland Scientific Methods scale.

De plausibiliteit van onderdelen va de beleidstheorie

Je kunt ook benodigde ‘schakels’ of noodzakelijke voorwaarden voor de werkzaamheid van beleid na lopen. De beleidstheorie is daarbij essentieel. Nieuw onderzoek naar iedere schakel in de beleidstheorie is daarbij niet altijd nodig, bijvoorbeeld als via de literatuur al voldoende inzicht bestaat in de effecten van een interventie. Zo is het niet nodig om de effecten van elk geïntroduceerd vaccinatieprogramma te onderzoeken als voldoende bekend is wat het effect van het vaccin is. Een optie kan dan zijn om via onderzoek naar het uitvoeringsproces na te gaan of is voldaan aan de voorwaarden voor het toedienen van het vaccin. Wordt bijvoorbeeld de doelgroep van het vaccinatieprogramma bereikt? Door deze kennis te combineren met kennis over de werkzaamheid van het vaccin uit de literatuur kun je de doeltreffendheid van de programma’s plausibel maken.

Het is in bij gebruik van bewijs op basis van meer algemene literatuur wel goed om transparant aan te geven hoe verschillende typen bewijs voor doeltreffendheid worden gecombineerd en gewogen bij het onderbouwen van de conclusies. Zie bijvoorbeeld de beleidsdoorlichting Seksuele en reproductieve gezondheid en rechten.

Voorbeeld  transparant rapporteren over onderbouwing conclusies

IOB (2013) Balancing ideals with practice, Policy evaluation of Dutch involvement in sexual and reproductive health and rights 2007-2012

“Strong evidence means that a link could be established by comparing a ‘Dutch support’ situation with a ‘no Dutch support’ situation. Moderate evidence means that a link may be assumed on the basis of secondary studies. The term ‘modest evidence’ is used when the findings rely on self-reporting by the implementing organisation. The level of evidence will be referred to in the chapters about the results at outcome level.”

Ook wanneer het effect van een interventie op de doelgroep niet goed bekend is, is het presenteren van bevindingen over de mate waarin de interventies de doelgroep bereiken, wel degelijk nuttig. Het bereiken van de doelgroep is namelijk een belangrijke voorwaarde voor doeltreffendheid van beleid. Dit vergt over het algemeen dat de implementatie is volbracht (prestatie, output). Voorbeeld: als kinderen of aspirant-reizigers niet worden ingeënt, is een vaccinatie zeker niet doeltreffend – ook al zou het middel zelf wel werken. Andersom is het bereiken van de doelgroep nog geen garantie voor het realiseren van de effecten en doeltreffendheid: hiervoor is het ook noodzakelijk dat het vaccin werkzaam is.

EZ gebruikt de effectladder

EZ maakt gebruik van een zogenaamde effectladder om de hardheid van gemeten effectiviteit van de onderzochte beleidsinstrumenten te duiden. Die is ingedeeld in een aantal niveaus:

  1. Potentieel: Heeft de set van instrumenten potentie (beschrijving van doel, doelgroep, aanpak, legitimiteit)
  2. Veelbelovend: Is de set van instrumenten in theorie effectief? (beleidstheorie, studies naar effect van soortgelijke sets van instrumenten)
  3. Doelbereiking: Zijn de doelen van de set van instrumenten bereikt? (monitoring)
  4. Doeltreffend en doelmatig: Is de set van instrumenten doeltreffend en doelmatig? Dit wordt onderbouwd door een score op de van minstens niveau 3 op de Maryland schaal (zie hierboven).

(de effectladder is ook uitgewerkt door het Nederlands jeugdinstituut: http://www.nji.nl/De-effectladder)

Proces

Als het gaat om het aantonen van doeltreffendheid, is het zaak om hieraan al eerder in het evaluatieproces, d.w.z. bij de onderliggende deelevaluaties aandacht te besteden. Bijvoorbeeld door al in een vroeg stadium mogelijkheden te scheppen voor het doen van een nulmeting of het samenstellen van een controlegroep. Bovenstaande handvatten dienen dan ook zowel de beoordeling van het onderliggende evaluatieonderzoek als de beleidsdoorlichting zelf.