Was steckt hinter den Zahlen? Methoden der Demoskopie

Anne Jessen

14.10.2014 / 17 Minuten zu lesen

Wen würden Sie wählen, wenn am nächsten Sonntag Bundestagswahl wäre? Die Ergebnisse dieser vermeintlich einfach gestellten Frage – der sogenannten Sonntagsfrage – finden sich, auch wenn keine Wahl unmittelbar bevorsteht, täglich in den Medien. Sie sind das Aushängeschild der politischen Meinungsforschung und müssen sich als solche nicht selten harscher Kritik stellen. Ist diese Kritik gerechtfertigt? Wie schwierig es ist, diese Frage zu beantworten, lässt sich beispielhaft anhand einer Schlagzeile von "Spiegel Online" zur Bundestagswahl 2013 erläutern. Einen Tag nach der Wahl fiel das Urteil von vier Redakteurinnen über die zuvor von den Demoskopen erhobenen Zahlen eindeutig aus: "So weit lagen die Meinungsforscher daneben" qualifizierten sie die Arbeit der Institute schon im Titel ab. Im Text hieß es weiter: "Die Ergebnisse der Demoskopen sind meist spannend (…). Nur korrekt, das sind sie nicht immer." Zur Unterstützung dieser These wurden die demoskopischen Ergebnisse dem Wahlergebnis gegenübergestellt. Für die FDP beispielsweise schloss sich dabei folgendes Fazit an: "Die FDP wird im 18. Bundestag nicht vertreten sein, mit erschütternden 4,8 Prozent sind die Liberalen bei der Wahl aus dem Parlament geflogen. Wieso hat das niemand vorausgesehen?"

Nicht nur das gewählte Verb "voraussehen" irritiert in diesem Zusammenhang, sondern auch die gezogene Schlussfolgerung – lagen die erhobenen Werte der führenden Meinungsforschungsinstitute vor der Wahl doch mehrheitlich zwischen 5 und 5,5 Prozent. Einige Tage und Einsichten später wurde dann nicht nur der Titel des Artikels geändert, sondern auch der Text an einigen Stellen überarbeitet. Die Schlagzeile lautete nun: "So treffend waren die Umfragen vor der Wahl". Auch die zitierten Textausschnitte wurden relativiert oder ganz entfernt.

Das Vorgehen von "Spiegel Online" steht hier nur exemplarisch für eine allgemein verbreitete öffentliche Rat- beziehungsweise Hilflosigkeit bei der Einordnung von politischen Umfrageergebnissen. Ziel des vorliegenden Artikels ist es, einen Blick hinter die demoskopischen Zahlen zu wagen, das heißt, die Methoden der Demoskopie aufzuarbeiten, um eine sorgfältige Bewertung der Ergebnisse zu ermöglichen. Dabei muss festgehalten werden, dass es eine perfekte Umfrage nicht gibt, denn Theorie und Praxis können nicht vollkommen harmonisiert werden. Meinungsforschungsinstitute können nicht alle demoskopischen Instrumente vollständig und theoriekonform umsetzen, sie müssen vielmehr in einem Zeit- und Geldkonflikt abwägen. Im Folgenden werden nun die Methoden entsprechend ihres Einsatzes in Umfragen zu politischen Themen dargestellt und in ihrer praktischen Umsetzung reflektiert.

Datenauswahl: Wer wird befragt?

Zu Beginn jeder Umfrage muss bestimmt werden, über wen Aussagen gemacht werden sollen (Grundgesamtheit). Im zweiten Schritt wird festgelegt, wer dafür befragt werden müsste (Auswahlgesamtheit). Im optimalen Fall sind beide definierten Personengruppen identisch. In der politischen Meinungsforschung sollen in der Regel Aussagen über alle Wahlberechtigten getroffen werden. Nach Definition des Bundeswahlgesetzes (BWG) in Artikel 12, Absatz 1 müssten demnach alle Deutschen befragt werden, die am Wahltag das 18. Lebensjahr vollendet haben, seit drei Monaten eine Wohnung in der Bundesrepublik Deutschland innehaben und nicht vom Wahlrecht ausgeschlossen sind. Eine wichtige Ergänzung findet sich zudem in Artikel 14, Absatz 1 des BWG: "Wählen kann nur, wer in ein Wählerverzeichnis eingetragen ist oder einen Wahlschein hat." An diese scheinbar simplen Bestimmungen schließen sich allerdings weitere Fragen an: Wer ist deutscher Staatsbürger? Wie definiert sich eine Wohnung? Wie wird man vom Wahlrecht ausgeschlossen? Und auf welche Weise erfolgt die Aufnahme in das Wählerverzeichnis oder das Ausstellen eines Wahlscheins? Diese Fragen finden ihre Antworten im Grundgesetz, im Bundeswahlgesetz, im Strafgesetzbuch und in den Bestimmungen des Bundeswahlleiters.

Genauso sorgfältig wie die Grundgesamtheit definiert wird, muss nun die Auswahlgesamtheit festgelegt werden, also die Gruppe, die für die Umfrage befragt werden soll. Die Forschung definiert diese Gruppe häufig wie folgt: "Die Auswahlgesamtheit umfasst alle Elemente, die eine prinzipielle Chance haben, in eine Stichprobe zu gelangen." Doch wie sieht es in der politischen Meinungsforschung mit dem Deckungsgrad der Grund- und Auswahlgesamtheit aus? In den Methodenberichten der Meinungsforschungsinstitute findet sich diesbezüglich nicht selten folgender Hinweis: "Die Grundgesamtheit der Untersuchung ist die in Privathaushalten lebende wahlberechtigte deutsche Bevölkerung ab 18 Jahre in der Bundesrepublik Deutschland." Der Begriff der "Grundgesamtheit" ist hier zwar nicht falsch, allerdings doch irritierend verwendet. Über die Grundgesamtheit werden die Aussagen der Erhebung gemacht, und in der Öffentlichkeit versteht man darunter zu Recht die gesamte Wählerschaft. Passender wäre es folglich, hier von der Auswahlgesamtheit zu sprechen. Da der Hinweis auf die Wahlberechtigung schon Aussagen über die Staatsangehörigkeit und die Altersbeschränkung enthält, könnte auf diese Zusätze verzichtet werden. Durch die definierte Einschränkung der "Privathaushalte" wird die erste Unstimmigkeit zwischen beiden Gesamtheiten deutlich: Bei der Befragung werden Personen ausgeschlossen, die in Anstalten (beispielsweise in Gefängnissen oder Krankenhäusern), im Ausland oder ohne festen Wohnsitz leben.

Hier zeigt sich ein erstes Opfer der Meinungsforschungsinstitute und ihrer Optimierungsbestrebungen. Es wäre für sie ein unverhältnismäßiger Aufwand an Zeit und Geld, die ausgeschlossenen Bevölkerungsgruppen zu befragen. Das Problem, das damit entsteht, nennt sich coverage. Bei undercoverage werden Personen, die eigentlich zur Grundgesamtheit gezählt werden, aus verschiedensten Gründen nicht befragt. Sie sind also kein Bestandteil der Auswahlgesamtheit. Bei overcoverage finden sich in der Auswahlgesamtheit Personen wieder, die nicht den Kriterien der Grundgesamtheit entsprechen oder aber beispielsweise durch Mehrfachvertretung eine erhöhte Chance haben, befragt zu werden.

Zu diesem ersten problematischen Schritt in der Datenauswahl kommt ein zweiter: Nicht alle Personen der Auswahlgesamtheit sind je nach Befragungsart – persönlich, schriftlich, telefonisch oder online – auch befragbar. Aufgrund von Nichterreichbarkeit oder einer Verweigerungshaltung kann also auch die Auswahlgesamtheit nicht immer umgesetzt werden, es entsteht hieraus die sogenannte Inferenzpopulation. Das ist die Befragungsgruppe, die auch tatsächlich befragt wurde. Streng genommen können somit auch nur über diese Gruppe Aussagen getroffen werden. Es lässt sich also festhalten: Die Deckungsgleichheit aller drei vorgestellten Gruppen spiegelt die Qualität der erhobenen Daten wider.

Für die interessierten Leserinnen und Leser von Umfragen ist diese Information allerdings nicht immer leicht zugänglich. Einen ersten Hinweis auf die Aussagekraft der Stichprobe – also inwieweit die Auswahl- auch die Grundgesamtheit repräsentiert – ist dafür etwa das Erhebungsdatum, das sich zunehmend häufig im Kleingedruckten der veröffentlichten Umfragen wiederfindet. Wird zum Beispiel bei einer Umfrage zu den Landtagswahlen in Nordrhein-Westfalen zwischen Rosenmontag und Aschermittwoch befragt, sind Zweifel an der Repräsentativität dieser Zahlen durchaus berechtigt.

Entscheidend: Die Stichprobe

Nachdem die Grund- und die Auswahlgesamtheit definiert wurden, müssen anschließend die zu befragenden Personen festgelegt werden. Oft löst es in der Bevölkerung Erstaunen aus, wenn durch die Befragung nur eines Bruchteils der Grundgesamtheit (Wahlberechtigten) versucht wird, ein Stimmungsbild zur Parteienwahl zu projizieren. Dieses Vorgehen wird durch die Methode des repräsentativen Querschnitts erlaubt, das heißt, nicht alle müssen befragt werden, um Aussagen über die Gesamtheit treffen zu können. Eine Stichprobe – also die Teilmenge der Bevölkerung, die nach bestimmten Kriterien zur Befragung bestimmt wird – kann auf unterschiedliche Art und Weise gezogen werden, in der Regel wird dafür der Zufall bemüht. Statistiker verstehen unter "Zufall" allerdings etwas anderes als die Allgemeinheit: Bei der Datenauswahl ist damit ein streng systematisches Verfahren gemeint, bei dem jede und jeder aus der Grundgesamtheit dieselbe Chance hat, befragt zu werden. Nach dieser Bedingung wurde auch die Stichprobenziehung benannt, die in der politischen Meinungsforschung vorwiegend Verwendung findet: die Zufallsstichprobe.

Ihr Vorteil liegt vor allem darin, dass die Sicherheit mit angegeben werden kann, mit der das Ergebnis der Messung in der Stichprobe dem wahren Wert der Grundgesamtheit entspricht, und wie stark dieser innerhalb eines Fehlerintervalls schwankt. Dieser Wert ist berechenbar und wird auch immer häufiger bei der Veröffentlichung der Umfragezahlen bekanntgegeben. Er ist abhängig von der Stichprobengröße, der Häufigkeit des gemessenen Werts in der Stichprobe und einem gewählten Sicherheitsniveau. Im ersten Schritt wird dafür der Standardfehler (S) berechnet, der sich wie folgt zusammensetzt:

Formel für Zufallsstichprobe

Dabei bezeichnet p den ermittelten Stichprobenwert und N die Stichprobengröße. Der aus der Formel ermittelte Standardfehler ergibt multipliziert mit dem gewählten Sicherheitsniveau (im folgenden Beispiel 1,96) das Fehlerintervall. Bei einem ermittelten Parteiwert, beispielsweise für die CDU, von 40 Prozent und einer Stichprobengröße von 1000 Personen ergibt sich also ein Wert von circa 0,0303. Das heißt, bei diesen Werten muss mit einem Fehlerintervall von ungefähr drei Prozentpunkten gerechnet werden. Für eine Partei kann das also heißen, dass sie von der gesamten Wählerschaft mit 95-prozentiger Sicherheit zwischen 37 Prozent und 43 Prozent der Stimmen erhalten.

Daraus folgt, dass eine öffentliche Interpretation der Zahlen im Bereich von ein bis drei Prozentpunkten wenig sinnvoll ist, kann es sich hier doch um einen einfachen Stichprobenfehler handeln, der bei einer Erhebung normal ist. Diesen Vorwurf müssen sich auch die Autorinnen des eingangs zitierten Artikels gefallen lassen, denn bei kleinen Parteien liegt die Fehlertoleranz bei etwa 1,5 Prozentpunkten. Erst durch die drastische Erhöhung der Anzahl der Befragten wäre es möglich, die Fehlertoleranz zu minimieren. Durch die Verzehnfachung der befragten Personen auf 10.000 würde die Fehlertoleranz auf ungefähr einen halben Prozentpunkt sinken. Dies ist nicht nur durch die immensen Kosten schwer realisierbar, sondern auch durch den Zeitfaktor. Politische Umfragen werden häufig zu einem bestimmten Ereignis erstellt; dabei ist es wichtig, dass alle Befragten von demselben Sachverhalt ausgehen. Es sollten also keine größeren Zeitunterschiede zwischen den geführten Interviews liegen. Bei 10.000 anvisierten Interviews kann die Feldzeit (Befragungszeit) allerdings bereits mehrere Wochen dauern. Gerade auch die hohe Nachfrage der Öffentlichkeit nach aktuellen Zahlen führt zu dieser Abwägung der Meinungsforschungsinstitute im Zeit- und Kostenkonflikt.

Da das Gros aller politischen Erhebungen telefonisch erfolgt, wird die Zufallsstichprobe in ihrer einfachsten Form als Listenauswahl gezogen. Dafür wird beispielsweise eine Liste aller verfügbaren Telefonanschlüsse benötigt, aus der, einem bestimmten Rhythmus folgend, Nummern ausgesucht und angerufen werden. Nach der Abschaffung der Eintragspflicht ins Telefonbuch liegt eine solche Liste in Deutschland allerdings nicht mehr vor. Hier bietet der Berufsverband Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute (ADM) mit einem eigenen Stichprobensystem Abhilfe. Hierbei handelt es sich um einen Auswahlrahmen, der durch einen mehrstufigen Prozess entsteht. Auf der ersten Ebene werden die Primäreinheiten, beispielsweise Ortsnetze (unter anderem via Telefonbuch), gewählt. Anschließend können die eingetragenen Nummern ausgesucht werden. Hierbei besteht allerdings noch das angesprochene Problem der Unvollständigkeit. Dafür werden die vorhandenen Nummern auf sogenannten Blöcken (Zahlenfolgen) verteilt, damit zufällige Ziffernfolgen gezogen werden können. So ist es möglich, auch im Telefonverzeichnis nicht eingetragene Nummern zu erzeugen und zu erreichen. Ähnlich wird bei der Generierung von Mobilfunknummern vorgegangen. Der ADM-Auswahlrahmen wird allen Mitgliedern zur Verfügung gestellt. Um die unterschiedliche Auswahlwahrscheinlichkeit im angerufenen Haushalt auszugleichen, wird auf dieser Ebene die letzte Zufallsstichprobe gezogen. In der Regel handelt es sich hierbei um den "Geburtstagsschlüssel"; das heißt, es wird das Mitglied des Haushaltes zur Befragung gebeten, das zuletzt Geburtstag hatte.

Nonresponse: Ungelöstes Problem

Die induktive Statistik, also der erlaubte Rückschluss von einer Teilmenge auf die Gesamtheit, geht theoretisch davon aus, dass alle Elemente der Stichprobe nun auch tatsächlich befragt werden. Dies ist in der Realität aber nicht umsetzbar. Die Gründe für diese Ausfälle (nonresponse) sind vielfältig. Grundsätzlich wird zwischen qualitätsneutralen und systematischen Ausfällen unterschieden. Erstere sind technische Fehler aller Art (zum Beispiel ein Faxanschluss); eine Bereinigung der Bruttostichprobe um diese Nummern hat keinerlei Auswirkungen auf die Qualität der Stichprobe. Anders verhält es sich bei den systematischen Ausfällen – im Wesentlichen handelt es sich dabei um jedwede Art, das Interview zu verweigern.

So einfach wie diese simple Einteilung vermuten lässt, ist die Umsetzung in der demoskopischen Arbeit aber nicht. Worunter werden beispielsweise Ausfälle von Interviews gezählt, bei denen die Zielperson zu jedem Kontaktversuch nicht anwesend war? Wäre sie nur zufällig zu diesen Zeiten nicht im Haus, könnte dieser Ausfall als qualitätsneutral gezählt werden. Anders sähe es aber aus, wenn diese Person grundsätzlich zu diesen Zeiten nicht erreichbar wäre, beispielsweise durch ihre Arbeitszeiten. Seriöse Umfrageinstitute versuchen daher möglichst variationsreich zu kontaktieren. Aber auch weitere nicht zustande gekommene Interviews bereiten bei der Einteilung Schwierigkeiten. Dieser Umstand legt das Grundproblem frei: In der deutschen Meinungsforschung gibt es keine Standardisierung für die Berechnung der Ausschöpfung einer Stichprobe (Ausschöpfungsquote). Erschwerend kommt hinzu, dass die Institute ihre Berechnungsweise als Betriebsgeheimnis hüten, und damit jegliche Transparenz und Vergleichsmöglichkeit fehlt. Auch entziehen sie sich damit einer Qualitätskontrolle durch Außenstehende.

Aus den wissenschaftlichen Veröffentlichungen von Dieter Roth und Elisabeth Noelle-Neumann, dem Gründer und der Gründerin zweier renommierter Umfrageinstitute – der Forschungsgruppe Wahlen sowie dem Institut für Demoskopie Allensbach –, lassen sich an den Berechnungsbeispielen erste Unstimmigkeiten ablesen. Während Roth Krankheit, Alter, Sprach- oder Hörprobleme als systematische Ausfallgründe definiert, klassifiziert Noelle-Neumann sie als qualitätsneutral. In der Öffentlichkeit ist folglich keine Auseinandersetzung mit der Ausschöpfungsquote möglich, obwohl diese in der Qualitätskontrolle eine wesentliche Rolle spielt. In dem angesprochenen Berechnungsbeispiel der Forschungsgruppe Wahlen belief sich die Ausschöpfungsquote auf etwa 50 Prozent. Dieser Wert ist sicherlich kein Ausreißer, sondern eher eine Orientierungsgröße in der aktuellen Demoskopie. Das muss bei der Einordnung und Interpretation der Ergebnisse berücksichtigt werden, denn die Hälfte der Personen, die eigentlich befragt werden sollten, fallen aus. Anzunehmen, dass diese ein ähnliches Antwortverhalten wie die kooperativen Personen hätten, wäre trügerisch.

Nonresponse kann aber nicht nur im Ausfall eines kompletten Interviews auftreten, sondern auch in der Verweigerung einzelner Fragen. Dies geschieht vor allem bei der Sonntagsfrage. Dem Interviewten werden bei dieser Frage in der Regel die Parteien vorgelesen. Ist sich der Befragte aber noch unsicher oder möchte seine Wahl nicht preisgeben, dann muss er aktiv "weiß nicht" angeben. Kurz vor der Bundestagswahl 2005 machten gut ein Viertel der Befragten von dieser Möglichkeit Gebrauch. Erstaunlicherweise tauchte diese Antwort allerdings so gut wie nie in den veröffentlichten Zahlen auf, hier wurden nur die Parteinennungen (auf 100 Prozent summiert) aufbereitet dargestellt. Der Mangel an einer wichtigen Information wurde damit ausgeblendet. Aber nicht nur für die Einschätzung der Entscheidungs- und Stimmungslage ist dieses Detail von entscheidender Wichtigkeit, sondern auch für die Prognosefähigkeit der restlichen Zahlen, denn: Je größer der Anteil der unentschlossenen Befragten vor der Wahl ist, desto dramatischer können sich die Stimmungswerte kurzfristig noch verschieben. Und ob diese mit den Instrumenten der Wahlforschung dann noch eingefangen werden können, ist nicht sicher. 2005 funktionierte dies jedenfalls nicht.

Zusammengefasst ist nonresponse ein sehr unangenehmes Problem für die Demoskopie, für das noch keine adäquaten Lösungen gefunden werden konnten, da es vielleicht auch gar keine gibt. Das Spannungsfeld aus Theorie und Praxis wird hier besonders deutlich, denn obwohl die Theorie der Zufallsstichprobe davon ausgeht, dass jedes Element der Stichprobe befragt werden muss, gelingt das den Meinungsforschungsinstituten trotz aller Bemühungen nicht. Zudem muss jedes Element dieselbe Auswahlwahrscheinlichkeit besitzen – wie bereits bei der Coverage-Problematik angesprochen, entspricht dies auch nicht der Realität. Wie gehen also die Meinungsforscher damit um? Sie gewichten – und dazu stehen drei verschiedene Verfahren zur Verfügung.

Gewichtung

Das erste und bedeutendste Gewichtungsverfahren ist die Haushaltsgewichtung. Hierbei werden die verschiedenen Wahrscheinlichkeiten, eine Zielperson im Haushalt auszuwählen, ausgeglichen, denn eine alleinlebende Person hat eine größere Teilnahmewahrscheinlichkeit als jemand aus einem Mehrpersonenhaushalt. Die Gewichtung nach sozialstrukturellen Merkmalen (redressment) kommt zum Tragen, wenn bestimmte Bevölkerungsgruppen, gemessen an der Grundgesamtheit, unter- oder überrepräsentiert sind. Sie müssen also hoch- beziehungsweise runtergewichtet werden. Beispielsweise wurden bei einer Umfrage, die während einer Fernsehübertragung von der Fußballweltmeisterschaft 2006 stattfand, deutlich weniger junge Männer erreicht. So ärgerlich diese Ausfälle sind, so wenig verwundern sie in diesem Fall allerdings auch. Die Befragten aus dieser Gruppe mussten somit hochgewichtet werden. Dies ist insofern problematisch, als nicht davon ausgegangen werden kann, dass Fußballfans und Nichtfans sich in ihren Präferenzen und daher in ihrem Antwortverhalten ähneln. Das Runtergewichten, das häufige Anwendung bei Rentnern findet, die sich bei Umfragen sehr kooperativ zeigen, dadurch aber überrepräsentiert sind, ist hingegen kein größeres Problem, da es die Struktur der Stichprobe nicht negativ beeinflusst.

Die dritte und sicher auch die umstrittenste Gewichtungsmöglichkeit ist die sogenannte Recall-Gewichtung. Hierbei wird aus dem Wert der sogenannten Rückerinnerungsfrage ("Würden Sie mir sagen, welche Partei Sie bei der letzten Wahl gewählt haben?") im Vergleich zum vergangenen Wahlergebnis ein Gewicht konstruiert. Wird eine Partei in der Erinnerung unterschätzt, wird der Wert der Wahlabsichtsfrage für diese Person gemäß hochgewichtet. Runtergewichtet wird im entsprechend umgekehrten Fall. Die empirische Hypothese dieses Verfahrens ist, dass die Verzerrung in der Erinnerung in Richtung und Stärke dem Bias der Sonntagsfrage entsprechen. Diese Argumentation vollzieht sich indes auf tönernen Füßen.

Die Gewichtung ist ein nötiges, wenn auch kein gern gesehenes methodisches Instrument. Während die Haushaltsgewichtung sehr wichtig für die Qualität der Umfrage ist, ist das redressment schon sehr viel kritischer zu sehen, da Verzerrungen innerhalb der Stichprobe verdeckt werden können. Die Recall-Gewichtung schließlich entbehrt jeglicher theoretischen Grundlage. Alle drei Verfahren finden in der politischen Meinungsforschung allerdings Verwendung. Für eine bessere Nachvollziehbarkeit von Umfrageergebnissen wäre es wichtig, dass die Institute auch die Verfahren und verschiedenen Gewichtungsmethoden gemeinsam mit den Zahlen veröffentlichen.

Datenerhebung: Wie wird befragt?

Nachdem die Datenauswahl und ihre Korrekturverfahren vorgestellt wurden, folgt nun ein Einblick in die Datenerhebung. Daten werden in der politischen Meinungsforschung in der Regel telefonisch erhoben. Diese Befragungsform hat sich vor allem gegen die persönliche Befragung durchgesetzt. Die Vorteile liegen neben der Kosten- und Zeitersparnis auch in der effektiveren Kontrolle des Interviewers sowie in der Standardisierung der Befragung. Eine distanzierte und neutrale Position des Interviewers ist für eine Befragung unerlässlich, um Beeinflussungen und Verfälschungen im Antwortverhalten zu vermeiden. Dafür muss der Fragebogen, insbesondere die Frageformulierung, frei von Ambivalenzen sein. Wie viel Einflusspotenzial in dieser aber bereits liegen kann, soll im Folgenden dargestellt werden.

Im September 1983 stellte Emnid die Ergebnisse einer Umfrage vor, die im Auftrag des ARD-Fernsehmagazins "Panorama" ermittelt wurden. Die Bevölkerung wurde nach ihrer Meinung zur Aufstellung von US-amerikanischen Mittelstreckenraketen befragt. Nur 14 Prozent der Befragten sprachen sich dafür aus. Sechs Tage später stellte dasselbe Institut inhaltlich die gleiche Frage, nun waren allerdings 58 Prozent der Befragten dafür. Wie lässt sich solch ein Meinungsumschwung erklären? Ein Blick auf die Auftraggeber liefert die Auflösung: Die zweite Befragung war nicht von "Panorama", sondern vom Bundesverteidigungsministerium beauftragt worden. Entsprechend unterschiedlich fiel auch die Formulierung der Fragen aus. "Panorama" hatte gefragt: "Wenn die Verhandlungen zwischen den Vereinigten Staaten und der Sowjetunion erfolglos bleiben, sollen demnächst auch bei uns in der Bundesrepublik neue Raketen aufgestellt werden. Sind Sie für oder gegen die Aufstellung neuer Raketen?" In der vom Verteidigungsministerium beauftragten Umfrage sollten die Befragten dagegen angeben, ob sie der folgenden Aussage eher zustimmen oder eher nicht zustimmen: "Der Westen muss gegenüber der Sowjetunion stark genug bleiben. Deshalb ist es nötig, in Westeuropa moderne Atomwaffen aufzustellen, wenn die Sowjetunion ihre neuen Mittelstreckenwaffen nicht abbaut."

Dieses Beispiel verdeutlicht, dass ein kritischer Blick sowohl auf die Auftraggeber als auch auf die Frageformulierung bei der Interpretation demoskopischer Zahlen unerlässlich ist. Diese Parameter sind aber nicht allein verantwortlich für mögliche Beeinflussungen. Auch die Platzierung der Frage innerhalb des Fragebogens kann verschiedene Effekte haben. So würde eine Frage zur Zufriedenheit mit der Amtsführung des bald aus dem Amt scheidenden Berliner Oberbürgermeisters Klaus Wowereit vermutlich jeweils andere Ergebnisse zutage fördern, je nachdem, ob zuvor nach dem Bauvorhaben Flughafen Berlin Brandenburg gefragt wurde oder nicht.

Datenaufbereitung: Was soll ausgesagt werden?

Bundestagswahlergebnisse der SPD

Im letzten Schritt werden die erhobenen Zahlen veröffentlicht, und auch hier lohnt sich ein genauer Blick. Die Abbildung steht beispielhaft für die mediale Darstellung von Umfragezahlen: Zweifellos soll dort durch die steile Kurve ausgesagt werden, dass sich die SPD auf demoskopischer Talfahrt befinde. Doch die Grafik, die der "Spiegel" 2008 als Teil eines größeren Infokastens mit Umfragedaten zur SPD veröffentlichte, wirft mehr Fragen auf, als sie Antworten bietet. Denn es werden zwei unterschiedliche Verfahren miteinander verglichen: Wahl- mit Umfrageergebnissen. Von Letzteren fehlt nicht nur die Angabe der vollständigen Quelle (etwa welches Institut für welche Erhebung verantwortlich war), sondern es mangelt auch an notwendigen Angaben wie beispielsweise Befragungszeitraum, Fragewortlaut, Befragungsart, Auftraggeber. Die Abstände zwischen den Werten wirken willkürlich gesetzt, somit werden kleinere Abweichungen überpräsentiert. Es drängt sich der Verdacht auf, dass mit solcherlei Darstellungen eher Stimmung gemacht als über Stimmungen aufgeklärt werden soll.

Hier offenbart sich das Spannungsfeld zwischen Meinungsforschungsinstituten und Medien, denn obwohl die Institute die nötigen Informationen in der Regel mitliefern, werden sie nur selten in ausreichendem Umfang mitveröffentlicht. Hier beginnt die Diskussion um ein sogenanntes demoskopisches Impressum. Aus einem Gemeinschaftsprojekt der Berufsverbände Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute, der Arbeitsgemeinschaft Sozialwissenschaftlicher Institute (ASI) und dem Berufsverband Deutscher Markt- und Sozialforscher (BVM) entstand ein Richtlinienkatalog für die Veröffentlichung von Ergebnissen der Wahlforschung. Folgende methodische Details werden darin als unverzichtbar für die Interpretation der Daten aufgeführt: Umfrageinstitut, Befragungszeitraum, Stichprobengröße, Fragewortlaut, Befragungsmethode, Stichprobenmethode und Gewichtungsverfahren. Bis auf Auftraggeber und Stichprobenfehler enthält diese Aufzählung alle relevanten Informationen. In der praktischen Umsetzung beweisen vor allem die Institute, die im Auftrag öffentlich-rechtlicher Sender Daten erheben, Mut zur Transparenz: der "ARD-Deutschlandtrend" (Infratest dimap) und das "Politbarometer" (Forschungsgruppe Wahlen im Auftrag des ZDF). Mit Ausnahme der Gewichtungsverfahren, dafür aber mit Angaben zum Stichprobenfehler, finden sich dort alle geforderten methodischen Details wieder.

Die Ausweisung der unentschlossenen Wähler wird indes auch in dieser Aufzählung ignoriert. Sie sollten jedoch mitveröffentlicht werden, gehören sie doch zum Stimmungsbild wie die Parteienwerte. Gleichzeitig bildet diese Gruppe in Zeiten von sinkender Parteibindung die größte Herausforderung für die politische Meinungsforschung, denn ob sich fragile Meinungen weiterhin mit der Wahlabsichtsfrage messen lassen, muss bezweifelt werden. Befunde aus der Messung unterbewusster Entscheidungsprozesse können hier Abhilfe und Ergänzung schaffen.

Für die Einschätzung der Repräsentativität und damit der Qualität einer Umfrage sind die angesprochenen Details von entscheidender Bedeutung – warum werden sie aber schlussendlich so oft unterschlagen? Ein Journalist des "Münchner Merkur" gewährt auf diese Frage einen ehrlichen Einblick: "Das ist in erster Linie ein Platzproblem. Im Print ist Platz eine knappe Ressource, dem Journalisten erscheinen die Methodik-Details da oft als nebensächlich. Tatsächlich wird um jede Zeile gekämpft. In zweiter Linie wohl auch aus Unwissen. In dritter Linie würde eine genaue Beschreibung der Fehlertoleranz mitunter die journalistische Zuspitzung konterkarieren." Abschließend sei gesagt, dass die Parameter, die die Zahlen erst richtig interpretierbar und spannend machen, oft im versteckten Detail liegen. Ein kritischer Blick hinter die Zahlen lohnt sich deshalb in jedem Fall.

als Bürger/-in

auf Social Media

vor Ort

als Journalist/-in