Das Dilemma mit den Schulnoten

Ziffernnoten von 1 bis 6 gehören zur Schule wie Unterricht, Klassenfahrt und Pausenbrot. Aber seit Jahrzehnten stehen Noten in der Kritik. Sie gelten als ungerecht, beliebig, nicht vergleichbar. Warum werden sie dann immer noch fast überall vergeben?

Ein Junge hält in einem Klassenzimmer der Mittelschule St. Stephan in Straubing (Niederbayern) sein Zwischenzeugnis in der Hand. (© picture-alliance/dpa)

Wer im Zeugnis in Mathe eine 1 hat, kann sich über die eigene Spitzenleistung freuen; wer eine 3 bekommt, weiß sich im Mittelmaß; und wer eine 6 im Zeugnis stehen hat, weiß, dass die Matheleistung in diesem Schuljahr "ungenügend" war. Noten fassen Informationen in Zahlen zusammen, die auf einen Blick verständlich sind.

Doch an dieser Reduktion auf Zahlen gibt es seit vielen Jahren Kritik. Noten gelten als ungerecht, anfällig für Verzerrungen und schlecht vergleichbar. Vor allem Grundschullehrkräfte setzen sich dafür ein, Ziffernnoten durch andere Bewertungsformen zu ersetzen. Walddorfschulen und reformpädagogische Modellschulen verzichten bis zur Oberstufe auf Noten. Mehrere Bundesländer probieren Alternativen zu den traditionellen Zensuren aus. Sind Noten so schlecht, wie ihre Kritiker behaupten? Und wenn ja: Warum werden sie trotzdem noch überall vergeben? Wer braucht Noten? Ein Überblick über die wichtigsten Fragen in der Debatte um Ziffernnoten.

Wie lassen sich Messverfahren beurteilten – und was heißt das für Schulnoten?

Viele Fragen, für die sich Forscherinnen und Forscher interessieren, können nur durch das Zählen und Messen von Phänomenen beantwortet werden. Weil das Messen in der Wissenschaft eine so zentrale Rolle spielt, hat man sich auf eine Reihe von Gütekriterien geeinigt, mit deren Hilfe sich feststellen lässt, wie gut ein Messverfahren tatsächlich ist. Auch bei Schulnoten handelt es sich um Messungen: Denn sie haben den Anspruch die Leistung von Schülerinnen und Schülern zu messen, ob in einem Fach, einer Klassenarbeit oder einer mündlichen Prüfung. Daher lassen sich die in der Wissenschaft etablierten Gütekriterien für das Messen auch auf Schulnoten beziehen. Welche Bedingungen müssten Noten demnach erfüllen, um als gutes Messverfahren gelten zu können?

Objektivität: Ist ein Messverfahren unabhängig von der Person, die es anwendet? Das misst die Objektivität. Eine Messung ist dann objektiv, wenn verschiedene Beobachter zu gleichen Ergebnissen kommen. Schulnoten wären demnach dann objektiv, wenn verschiedene Lehrkräfte die Leistung einer Schülerin oder eines Schülers mit derselben Note bewerten.

Reliabilität: Misst ein Messverfahren zuverlässig? Das erfasst die Reliabilität. Eine Messung ist unter anderem dann zuverlässig, wenn eine Person bei wiederholter Messung das gleiche Ergebnis bekommt. Für Schulnoten bedeutet das: Sie wären dann zuverlässig, wenn eine Schülerin oder ein Schüler dieselbe Note bekäme, wenn sie oder er hintereinander zwei Arbeiten mit vergleichbaren Aufgaben schreiben würde.

Validität: Wie gut misst ein Messverfahren wirklich das, was es messen soll? Auf diese Frage zielt die Validität (Gültigkeit) ab. Dazu werden zum Beispiel Beobachtungen und Messergebnisse aus verschiedenen Quellen miteinander verglichen. Schulnoten gälten folglich dann als valide, wenn Schülerinnen und Schüler, die in einer Arbeit eine gute Note erreicht haben, in anderen Prüfungen, die sich auf denselben Wissensbereich beziehen, ebenfalls gut abschneiden.

Frage 1: Was messen Noten?

Was genau bedeutet eine 2 in Deutsch? Hinter der Zahl steht eine Fülle von Einzelleistungen. Kritikerinnen und Kritiker der Ziffernnoten sagen: Man erfährt durch eine Note nicht, was ein Kind wirklich kann. In die Deutschnote gehen unter anderem Leseverständnis, schriftliches Formulieren, Rechtschreibung und mündlicher Ausdruck ein. Vielleicht kann die Schülerin oder der Schüler hervorragend formulieren, hat aber Schwächen in der Rechtschreibung? Die Gesamtnote, für welche der Durchschnitt aus mehreren Teilleistungen gebildet wird, gleicht solche Unterschiede aus – und macht sie dadurch unsichtbar. Dazu kommt die grundsätzliche Frage, ob Noten den tatsächlichen Wissensstand in einem Fach erfassen können. Um das zu beantworten, vergleichen Bildungsforscherinnen und Bildungsforscher Schulnoten mit Bewertungen aus anderen Quellen, zum Beispiel mit den Leistungen der Kinder in standardisierten Tests. Das wurde auch in der Pisa-Studie 2006 gemacht, in der die naturwissenschaftliche Kompetenz von 15-jährigen Schülerinnen und Schülern untersucht wurde.

Dabei fand sich ein Zusammenhang zwischen Schulnoten und naturwissenschaftlicher Kompetenz: Wer in Biologie, Physik und Chemie gute Noten hatte, erreichte auch im Pisa-Test tendenziell eine höhere Punktzahl. Allerdings war dieser Zusammenhang relativ schwach. Die Autoren der deutschen Pisa-Studie 2006 erklären dies damit, dass Pisa-Test und Schulnoten unterschiedliche Facetten der Leistung erfassen. Zeugnisnoten, die sich aus Klassenarbeiten, Tests und mündlichen Abfragen während des Schuljahres zusammensetzen, spiegeln demnach eher kurzfristige Lerneffekte wieder, oft bezogen auf konkrete Prüfungen. Der Pisa-Test dagegen prüfe vor allem die Nachhaltigkeit und flexible Anwendung des Gelernten.

Vorsicht bei Vergleichen

Noten ermöglichen es, sich ohne großen Aufwand ein Bild von der Leistung einer Person zu machen und Personen miteinander zu vergleichen. Tatsächlich sind solche Vergleiche aber problematisch. Denn für die Notengebung ist die jeweilige Lerngruppe die Bezugsgröße. Noten bilden somit nicht den objektiven Leistungsstand ab, sondern die Rangfolge innerhalb einer Klasse. Daran ändert auch die Tatsache nichts, dass es einen gewissen Zusammenhang zwischen Noten und den in standardisierten Tests wie PISA gemessenen Leistungen gibt.

Bezugsgröße ist die Klasse

Die klassische sechsstufige Notenskala beruht auf der Annahme, dass Begabung und Leistung einer Normalverteilung folgen: Der größte Teil der Klasse liegt im Durchschnittsbereich, dazu kommen einige sehr gute und einige besonders schlechte Schülerinnen und Schüler. Dieses Muster soll sich in der Verteilung der Zensuren abbilden. Das bedeutet, dass Lehrkräfte in Tests einige besonders schwere Aufgaben einbauen müssen, die nur die besten Schülerinnen und Schüler lösen können. Schulleitungen und Schulbehörden drängen Lehrkräfte unterschiedlich stark dazu, dieses Schema bei der Bewertung zu berücksichtigen.

Hier eine 2, dort eine 4

Aus der Orientierung an der Normalverteilung folgt, dass eine mittelmäßige Leistung in verschiedenen Klassen zu unterschiedlichen Noten führen kann: In einer schlechten Klasse gibt es dafür vielleicht schon eine 2, in einer guten Klasse nur eine 4. Ein Vergleich von Zensuren ist damit nur sehr eingeschränkt möglich. Das gilt für verschiedene Klassen im selben Jahrgang einer Schule, ebenso für Vergleiche zwischen Schulen – und erst recht für den Vergleich von Noten aus verschiedenen Bundesländern, in denen darüber hinaus nach unterschiedlichen Lehrplänen unterrichtet wird.

Frage 2: Sind Noten objektiv?

Mehrere Lehrkräfte beurteilen dieselbe Arbeit zum Teil deutlich anders. Das haben Studien wiederholt gezeigt. Im Fall von Deutschaufsätzen ist das vielleicht wenig überraschend und in der Tat wird deren Bewertung auch von vielen Wissenschaftlern als sehr subjektiv und schwierig eingeschätzt. Tatsächlich haben Studien aber auch für vermeintlich objektive Kriterien wie Mathematikaufgaben und Rechtschreibung teilweise große Unterschiede in der Bewertung festgestellt (Beispiel finden sich bei Brügelmann und Backhaus, 2006).

Eine Erklärung dafür ist die Tatsache, dass Pädagoginnen und Pädagogen bei der Benotung grundsätzlich sehr viel Spielraum haben. So ist es etwa an den meisten Schulen den einzelnen Lehrkräften überlassen, wie viele Punkte sie in einer Klausur für eine richtige Antwort vergeben und wie viel sie pro falscher Antwort von der Gesamtpunktzahl abziehen. Zwar erkennen immer mehr Schulen das Problem und legen einheitliche Bewertungsstandards fest; allerdings gelten diese nur für schriftliche Arbeiten. Dasselbe Problem stellt sich aber natürlich auch bei der Bewertung von mündlichen Leistungen, wo die Lehrkräfte in der Regel noch größeren Spielraum haben. Sie können nämlich nicht nur entscheiden, wie sie im konkreten Fall bewerten, sondern auch, wie viele mündliche Noten sie sammeln. So wird eine Schülerin, die nach einer missglückten Klausur noch mehrere Chancen bekommt, sich mündlich zu verbessern, am Ende wahrscheinlich eine bessere Zeugnisnote bekommen als eine Schülerin, die diese Möglichkeit nicht bekommen hat.

Was Urteile verzerrt

Hinzu kommt der Fakt, dass menschliche Urteile oft von unbewussten psychologischen Prozessen beeinflusst sind. So wird eine Lehrkraft eine durchschnittliche Arbeit sehr wahrscheinlich dann besser bewerten, wenn sie zuvor mehrere schlechte Arbeiten korrigiert hat. Auch der bisherige Eindruck von einer Schülerin oder einem Schüler kann die Bewertung beeinflussen: Hat ein Kind bisher nur tolle Aufsätze geschrieben, liest die Lehrerin oder der Lehrer eine Deutschklausur womöglich mit einem gedanklichen Bonus im Hinterkopf, der schließlich zu einer besseren Note führen kann. Solche Verzerrungsmechanismen sind in psychologischen Studien gut belegt worden – und gelten nicht nur für Lehrkräfte, die eine Arbeit korrigieren (einen Überblick geben zum Beispiel Brügelmann & Backhaus, 2006 und Oelkers, 2001).

Frage 3: Sind Noten gerecht?

Nur die Leistung soll über den Zugang zu Studien- und Ausbildungsplätzen entscheiden, nicht der soziale Status: Das ist die Idee des Leistungsprinzips. Dieser Gedanke stand auch hinter der Einführung von Reifezeugnissen für alle Schultypen im 19. Jahrhundert. Diejenigen, welche die traditionelle Benotung befürworten, betonen häufig, dass das Leistungsprinzip die gerechteste Form der Auswahl darstelle: Wer viel leistet, bekommt auch viel – ein grundsätzlich fairer Gedanke.

Höherer Status, bessere Zensuren

Allerdings ist die Leistung, wie sie von Zensuren erfasst wird, keineswegs unabhängig von sozialen Faktoren. Das haben die Bildungsforscher Kai Maaz, Ulrich Trautwein und Franz Baeriswyl 2011 herausgefunden. In einer Studie verglichen sie die Schulnoten der Kinder mit ihren Leistungen in standardisierten Tests. Das Ergebnis: Bei gleicher Testleistung bekamen Arbeiterkinder etwas seltener gute Noten als Kinder aus Akademikerfamilien – und auch seltener eine Empfehlung für das Gymnasium.

Frage 4: Wer braucht Noten?

Noten sind als Bewertungssystem fest etabliert. Daran hat auch die jahrelange Kritik wenig geändert. Schülerinnen und Schüler wollen sich miteinander vergleichen. Eltern wollen wissen, wo ihre Kinder stehen. In bundesweiten Umfragen äußern Eltern immer wieder, dass sie Noten wünschen.

Noten entscheiden über die weitere Schullaufbahn

Studien haben ergeben, dass Noten den weiteren Schulerfolg recht gut vorhersagen können: Wer am Ende der Grundschule gute Noten hat, bleibt mit großer Wahrscheinlichkeit auch in den folgenden Jahren eine gute Schülerin oder ein guter Schüler. Noten erlauben eine Prognose über die weitere Schullaufbahn; in der Forschung nennt man das prädiktive Validität oder Vorhersagevalidität.

Im traditionell mehrgliedrigen deutschen Schulsystem werden die Schülerinnen und Schüler nach der Grundschule auf unterschiedliche Schulformen verteilt. Darüber gibt es seit Langem kontroverse Diskussionen in Politik, Wissenschaft und Praxis. Dabei argumentieren Politikerinnen und Politiker von CDU, CSU und FDP meist für die frühe Verteilung der Schülerinnen und Schüler auf unterschiedliche Schulformen, während die aus der SPD, dem Bündnis90/Die Grünen und der Linkspartei eher für eine längere gemeinsame Schulzeit werben. Diejenigen, welche die frühe Aufteilung befürworten, halten Noten dabei für unverzichtbar: Die Schulen müssten eine effiziente Leistungsauswahl treffen, was mit klassischen Noten am besten gelinge, argumentieren sie.

Lange war es fast überall alleine von den Noten abhängig, welche Schulform ein Kind im Anschluss an die Grundschule besuchen konnte. In Bayern, Sachsen, Thüringen und Brandenburg gilt das im Prinzip noch immer. Dort geben die Grundschulen bindende Schulformempfehlungen ab, die sich ausschließlich auf die im Jahr vor dem Übergang erreichten Noten stützen. In allen anderen Bundesländern können inzwischen die Eltern die weiterführende Schule für ihr Kind auswählen; auch hier geben die Grundschulen zwar Empfehlungen ab, doch sind diese nicht bindend und beziehen zudem meist weitere Bewertungskriterien wie etwa die Persönlichkeitsentwicklung und das Lern- und Sozialverhalten ein.

Maßstab für Betriebe und Universitäten

Spätestens am Ende der Schulzeit werden Noten aber zum entscheidenden Maßstab: Die Durchschnittsnote im Abitur oder im Mittleren Schulabschluss ist das wichtigste Kriterium für Universitäten und Betriebe bei der Auswahl von Studierenden und Auszubildenden. Keine Schule kann bislang auf Abschlusszeugnisse mit Ziffernnoten verzichten; das räumen auch Notenkritikerinnen und Notenkritiker ein.

Aber können die Abschlussnoten wirklich vorhersagen, ob jemand im Studium Erfolg haben wird? Auch diese Frage wird wissenschaftlich untersucht. In einer Meta-Analyse von 26 Studien aus fünf Ländern fanden Wissenschaftlerinnen und Wissenschaftler der Universität Stuttgart-Hohenheim einen deutlichen Zusammenhang zwischen der Abiturdurchschnittsnote und den Noten im Grund- und Hauptstudium verschiedener Fächer (Trappmann, Hell, Weigand und Schuler, 2007); eine Meta-Analyse ist eine Auswertung von vielen Einzelstudien, deren Ergebnisse statistisch zusammengefasst werden. Zu einem vergleichbaren Ergebnis kam auch eine Studie mit Auszubildenden (Velten & Schnitzler, 2011); allerdings war darin der Zusammenhang zwischen Schulnoten und dem praktischen Teil der Ausbildung geringer als der Zusammenhang mit der theoretischen Ausbildungsprüfung.

Frage 5: Wie lässt sich ohne Noten bewerten?

So lange es Kritik an Zensuren gibt, so lange suchen Pädagoginnen und Pädagogen nach Alternativen. Besonders weit gehen seit vielen Jahren reformpädagogische Schulen: Die Waldorfschulen und mehrere Modellschulen verzichten bis zur 9. Klasse vollständig auf Noten. Leistung wird an diesen Schulen unter anderem durch Präsentationen beurteilt, durch eine Sammlung von Arbeiten (sogenannte Portfolios) und durch regelmäßige Entwicklungsgespräche zwischen Lehrkräften, Eltern und Schülerinnen und Schülern .

Berichte, Gespräche, Rasterzeugnisse

Aber auch an den Regelschulen in vielen Bundesländern wird mit Alternativen experimentiert. So sind seit dem Schuljahr 2014/15 etwa die Grundschulen in Schleswig-Holstein grundsätzlich notenfrei; bayerische Grundschulen können seit demselben Jahr bis zur dritten Klasse auf Zeugnisse verzichten und stattdessen Eltern und Kinder zu einem gemeinsamen Lernentwicklungsgespräch einladen. In einigen Bundesländern gibt es statt Zensuren sogenannte Rasterzeugnisse, in denen für jedes Fach einzelne Fähigkeiten aufgelistet werden.

Alle diese Verfahren haben einen großen Vorteil: Sie machen besser sichtbar, was ein Kind kann. Je mehr Facetten in die Bewertung aufgenommen werden, desto gerechter wird diese. Gemeinsame Gespräche tragen außerdem dazu bei, Verständnis und Vertrauen zwischen allen Beteiligten aufzubauen; die Bewertung wird damit weniger hierarchisch.

Gerechter, aber aufwändiger

Bei allen Vorteilen, die alternative Bewertungsverfahren gegenüber Ziffernnoten erkennen lassen, bringen jedoch auch sie gewisse Schwierigkeiten mit sich. Zunächst ist festzuhalten, dass auch verbale Beurteilungen nicht gegen Verzerrungseffekte immun sind, wie Studien gezeigt haben. Dass subjektive Eindrücke des Bewertenden zu einem gewissen Grad in die Bewertung einfließen, ist ein grundsätzliches Problem aller Leistungsbewertungen, das durch alternative Bewertungsverfahren zwar abgemildert, aber nicht vollständig ausgeschlossen eliminiert werden kann.

Zudem sind sie bisher noch lange nicht so weit verbreitet wie Ziffernnoten und daher zumindest für den Augenblick noch weniger gut verständlich und vergleichbar. Betriebe und Universitäten aber wünschen sich für die Bewerberauswahl möglichst effiziente Kriterien, da sie in der Regel eine Vielzahl von Bewerbungsunterlagen zu sichten haben.

Damit ist ein weiterer Punkt angesprochen: Alternative Bewertungsverfahren erfordern mehr Zeit. Das gilt für die "Abnehmerseite", die auf ihrer Basis die Eignung von Bewerbern abschätzen muss, vor allem aber für die Lehrkräfte, die etwa detaillierte Berichte schreiben und mit Eltern und Kindern diskutieren müssen, statt Ziffern zu addieren und einen Durchschnitt zu bilden. Aber auch für die Schülerinnen und Schüler (und für deren Eltern) ist es mitunter schwieriger, eine kleinteilige Bewertung zu interpretieren. So erfahren sie in einem Rasterzeugnis zum Beispiel für das Fach Mathematik, wie gut sie multiplizieren können, Textaufgaben verstehen und geometrische Formen erkennen. Im Gegensatz zu Ziffernnoten ist so zwar unmittelbar einsichtig, in welchem Bereich tatsächlich Nachholbedarf besteht und in welchem nicht. Was man aber zumindest auf den ersten Blick nicht erfährt: ob das nun insgesamt im Vergleich zu den Mitschülerinnen und Mitschülern eine gute, eine mittelmäßige oder eine schlechte Leistung ist.

als Bürger/-in

auf Social Media

vor Ort

als Journalist/-in