Der standardisierte Test Deutsch als Fremdsprache (TestDaF) – eine Option für brasilianische Deutschlernende

0. Einleitung

Der TestDaF (Test Deutsch als Fremdsprache) ist ein seit 2001 vom TestDaF-Institut1 in Hagen administrierter Test, der sich in erster Linie an ausländische StudienbewerberInnen wendet, die einen Nachweis über ausreichende Sprachkenntnisse für ein Studium an einer deutschsprachigen Hochschule benötigen. Der TestDaF prüft Deutschkenntnisse auf fortgeschrittenem Niveau, die für ein Hochschulstudium in Deutschland relevant sind. Er fungiert damit als Nachweis ausreichender Sprachkenntnisse, um ein Studium aufzunehmen.2 Die vier Fertigkeiten Lesen, Hören, Schreiben und Sprechen werden weitgehend getrennt in je eigenen Subtests gemessen und die Leistungen entsprechend getrennt auf einem Zeugnis ausgewiesen. Die Prüfung kann weltweit mehrmals im Jahr an lizenzierten Testzentren abgelegt werden.
Trotzdem die Zahl der Prüflinge von Anbeginn an stetig zunimmt – von 1.190 im Jahr 2001 auf knapp 15.400 im Jahr 2007 – ist zu beobachten, dass erstaunlicherweise die Anzahl an brasilianischen Prüflingen eher gering ist. Insbesondere fällt auf, dass nur wenige von der Möglichkeit Gebrauch machen, den TestDaF in Brasilien selbst abzulegen: Von den insgesamt ca. 950 brasilianischen TeilnehmerInnen haben fast 800 die Prüfung in Deutschland abgelegt, nur ca. 150 haben sich der Prüfung an einem der neu Testzentren in ihrem Heimatland gestellt. Dies erstaunt insofern, als dass für junge BrasilianerInnen ein Studium in Deutschland zunehmend an Attraktivität gewinnt, wie der Deutsche Akademische Austauschdienst (DAAD) in Brasilien im Rahmen von Messe- und Studienberatungsveranstaltungen beobachtet. Ich vermute, dass die meisten Studierwilligen und fortgeschrittenen Deutschlernenden erst in Deutschland von der Möglichkeit erfahren, den TestDaF bereits in ihrem Heimatland ablegen zu können. Das Ziel des vorliegenden Beitrags ist es daher, über den TestDaF, seine Zielsetzung und sein Konzept, seine Inhalte und sein Testkonstrukt zu informieren.3 Dies erscheint mir nicht zuletzt aus dem Grund wichtig, als dass der brasilianische Deutschlehrkräfteverband durch seine Mitglieder hier eine beratende Funktion gegenüber hiesigen Deutschlernenden und an Deutschland Interessierten einnehmen könnte.

1. Allgemeines zum TestDaF

Beim TestDaF handelt es sich um einen standardisierten Sprachstandstest, der Sprachkenntnisse im akademischen Kontext im oberen Leistungsspektrum, d. h. auf fortgeschrittenem Niveau, misst. Die vier Fertigkeiten werden getrennt voneinander gemessen und einer der drei TestDaF-Niveaustufen (TDN) 3, 4 und 5 zugeordnet. Unterhalb von TDN 3 differenziert der TestDaF nicht; eine Einstufung auf „unter TDN 3“ besagt lediglich, dass das Eingangsniveau der Prüfung TestDaF nicht erreicht wurde. Als Referenzsystem des TestDaF fungiert in erster Linie der Gemeinsame europäische Referenzrahmen für Sprachen des Europarats. Das TestDaF-Leistungsspektrum liegt nach diesen Kompetenzskalen im Bereich B 2.1 bis C 1.2.4 Allen TestDaF-Niveaustufen sind in jedem der vier Fertigkeitsbereiche so genannte Kann-Beschreibungen5 zugeordnet, die den Teilnehmenden ebenso wie den abnehmenden Instanzen, z. B. eine Hochschule in Deutschland, Auskunft über den erreichten Sprachstand geben.
Die Teilnehmenden erhalten ein Zeugnis, auf dem die Ergebnisse in den vier Teilbereichen Leseverstehen, Hörverstehen, Schriftlicher Ausdruck und Mündlicher Ausdruck getrennt voneinander ausgewiesen werden. Das bedeutet, es gibt keine Gesamtnote, alle Prüfungsteile sind gleich gewichtet. Auch wird kein Gesamturteil „bestanden“ oder „ nicht bestanden“ ausgewiesen. Damit wird dem individuell unterschiedlichen Leistungsspektrum Rechnung getragen. Es ist durchaus möglich, dass eine individuelle Leistung heterogen ausfällt, dass beispielsweise im Leseverstehen die TestDaF-Niveaustufe 5 erreicht wird, im Schriftlichen Ausdruck hingegen nur die Niveaustufe 3. Die Prüfungsteilnehmenden ebenso wie die Hochschulen und Fachbereiche erhalten damit also ein differenziertes Bild über die Stärken und evtl. Schwächen in den verschiedenen Fertigkeitsbereichen. Zum einen soll dieses Verfahren den Hochschulen die Möglichkeit einräumen, die sprachlichen Anforderungen vor der Zulassung zum Studium nach Fächern beziehungsweise Studienziel und Studiendauer zu differenzieren. Das bedeutet, dass je nach Anforderung in sprachlicher Hinsicht eine differenzierte Zulassung möglich wird, also beispielsweise in einem philologischen Studienfach andere sprachliche Voraussetzungen festgeschrieben werden können als in einem englischsprachigen Studiengang, bei dem Deutsch in erster Linie im Alltag, weniger jedoch für das Studium selbst von Bedeutung ist. Zum anderen wird die Zulassungssicherheit für die StudienbewerberInnen dadurch erhöht, dass die Fachbereiche die erforderlichen Sprachkenntnisse festlegen. Das Testkonstrukt des TestDaF sowie die Ausweisung der Kompetenzen in Form von Kann-Beschreibungen verleihen dem TestDaF über den Nachweis ausreichender Sprachkenntnisse für ein Studium hinaus auch die Funktion eines Sprachstandstests, der für akademische Berufsfelder allgemein von Bedeutung ist. Der Nutzen der Prüfung für den beruflichen Werdegang erhöht sich dadurch beträchtlich.
Bei der Prüfung TestDaF handelt es sich um einen so genannten High-Stakes-Test. Das bedeutet, vom individuellen Ergebnis hängt für die einzelnen Prüfungsteilnehmenden ab, ob sie zu einem Studium an einer Hochschule in Deutschland zugelassen werden und damit, wie sich ihr weiterer Lebensweg gestaltet. Aus diesem Grunde müssen bei der Konzeption der Prüfung, bei der Entwicklung der Prüfungsaufgaben, bei der Prüfungsdurchführung sowie bei der Auswertung der Prüfungsergebnisse bestimmte Standards6 eingehalten werden. Die Qualitätssicherung erfolgt durch verschiedene Maßnahmen, die im Folgenden kurz skizziert werden sollen.

2. Standardisierung und Qualitätssicherung

Für einen High-Stakes-Test wie den TestDaF muss besonderes Augenmerk auf die Qualitätssicherung gelenkt werden. Möglich wird die Sicherstellung der Testqualität nicht zuletzt durch die Standardisierung. Sie basiert i. W. auf den folgenden Säulen:

  • zentrale Testerstellung durch eigens geschulte TestautorInnen anhand eines festgelegten Prüfungsformats (Testspezifikationen),
  • dezentrale Durchführung der Prüfung weltweit an lizenzierten Testzentren zu zentral festgelegten Prüfungsterminen,
  • zentrale Beurteilung der Prüfungsergebnisse durch  geschulte BeurteilerInnen anhand festgelegter Bewertungsverfahren und -kriterien,

Testmethodische Verfahren übernehmen Querschnittsaufgaben. Zu nennen sind insbesondere die Überprüfung der Itemqualität sowie die Kalibrierung in der Phase der Erprobung neuer Aufgaben vor ihrem Einsatz sowie die Ermittlung des so genannten fairen Durchschnitts bei der Beurteilung der schriftlichen und mündlichen Leistungen (zu den verschiedenen testmethodischen Qualitätssicherungsmaßnahmen beim TestDaF siehe ECKES 2003, 2004, 2005).
Um eine faire und objektive Durchführung der Prüfung zu gewährleisten, wird der TestDaF an vom TestDaF-Institut zentral festgesetzten Terminen weltweit dezentral an so genannten Testzentren abgelegt. Diese werden vom TestDaF-Institut lizenziert. Es handelt sich um Institutionen (i. d. R. Hochschulen, aber auch Goethe-Institute u. ä. Einrichtungen, derzeit über 300 Einrichtungen in 75 Ländern), die die vorgeschriebenen Kriterien erfüllen7. Die Durchführung der Prüfung selbst erfolgt anhand festgelegter Regeln unter Aufsicht von so genannten Prüfungsbeauftragten, die für den korrekten Ablauf verantwortlich sind. Der Ablauf der Prüfung ist immer gleich, d. h. die einzelnen Prüfungsteile (s. u.) erfolgen in einer bestimmten Reihenfolge, auch die Zeit für Pausen ist genau vorgegeben. Alle Prüfungsunterlagen werden aus Gründen der Testsicherheit vom TestDaF-Institut geliefert und müssen komplett wieder an das Institut zurück geschickt werden.
Beim TestDaF werden die vier Fertigkeiten, Leseverstehen, Hörverstehen, Schriftlicher Ausdruck und Mündlicher Ausdruck in vier so genannten Subtests gemessen, wobei die beiden rezeptiven Fertigkeiten in Kompetenztests, die beiden produktiven Fertigkeiten in Performanztests überprüft werden. Die vier Fertigkeiten werden getrennt überprüft, um die Validität der Prüfung sicherzustellen. Das bedeutet: Um beispielsweise Aussagen über die Lesekompetenz einer Kandidatin machen zu können, darf nur die Lesekompetenz, nicht aber z. B. die Schreibkompetenz gemessen werden. Bestünde die Aufgabe zur Messung von Lesekompetenz beispielsweise darin, einen Text zu lesen und diesen sodann schriftlich zusammenzufassen, so ließe das Produkt - die zu bewertende schriftliche Leistung - keine eindeutige Aussage zur Lesekompetenz zu. Denn die (z. B. schwache) schriftliche Leistung könnte ein Hinweis auf die (schwache) Lesekompetenz oder aber auf die (schwache) Schreibkompetenz sein. Integriertes Testen ist also für eine eindeutige Erfassung der zu messenden Fähigkeit ungeeignet. Besser geeignet sind vielmehr Aufgaben, die die Fähigkeit isoliert erfassen. Dies hat zur Folge, dass geeignete Itemtypen gewählt werden müssen, um die zu messende Fähigkeit genau zu erfassen. Prinzipiell werden folgende Itemtypen unterschieden:

  • geschlossene Items (z. B. Multiple-Choice-Aufgaben),
  • halboffene Items (z. B. Lückentexte oder Fragen, die stichwortartig zu beantworten sind),
  • offene Items (z. B. Aufgaben, die einen eigenständigen längeren Redebeitrag oder schriftlichen Text elizitieren)

Die Erstellung der Prüfungsaufgaben erfolgt zentral am TestDaF-Institut zusammen mit TestautorInnen, die dank entsprechender Schulungen mit dem Testformat und den Testspezifikationen vertraut sind. Die Standardisierung der Prüfung erfordert, dass bei der Entwicklung der Testaufgaben bestimmte Vorgaben bzw. Merkmale wie Textsorte, Aufgabentyp, Schwierigkeitsniveau etc. zu berücksichtigen bzw. einzuhalten sind. Dies ist insofern bedeutsam, als dass das Schwierigkeitsniveau der Prüfung stets gleich zu halten ist, also die Testäquivalenz berücksichtigt wird. Alle Prüfungsaufgaben werden vor ihrem Einsatz in einer TestDaF-Prüfung in einem mehrschrittigen Zyklus erprobt, und zwar zunächst in zwei kleinen Stichproben in Deutschland mit Hilfe von MuttersprachlerInnen und Deutschlernenden, sodann weltweit in einer hinreichend großen Versuchsgruppe mit Deutschlernenden, die der Zielgruppe des TestDaF entsprechen, also über die zu messenden Sprachkenntnisse verfügen. Die Ergebnisse der Erprobungsprüfungen werden testmethodisch ausgewertet. Sollten sich Aufgaben als ungeeignet erweisen (z. B. wegen geringer Trennschärfe oder weil sie nicht geeignet sind, die gewünschte Leistung zu elizitieren), werden sie verworfen oder überarbeitet und in einer revidierten Fassung erneut einer Erprobung unterzogen. Die Erprobung der Aufgaben dient auch der Festlegung der Schwierigkeitsniveaus. Um die Schwierigkeit der Lese- und Hörverstehensaufgaben zu kalibrieren, werden während der Erprobung neuer TestDaF-Aufgaben so genannte Ankeritems, d. h. Items mit feststehendem Schwierigkeitsgrad, sowie das Rasch-Modell der probabilistischen Testtheorie eingesetzt (ARRAS, ECKES & GROTJAHN 2002, ECKES 2003). Die produktiven Leistungen aus den Prüfungsteilen Schriftlicher und Mündlicher Ausdruck werden von speziell geschulten BeurteilerInnen bewertet. Zur Sicherung der Itemqualität bei den offenen Aufgabentypen in diesen Subtests werden daher zudem qualitative Daten erhoben, indem BeurteilerInnen von schriftlichen bzw. mündlichen Leistungen aus der Erprobungsphase um kritische Rückmeldungen zur Eignung der Aufgabenstellungen gebeten werden. Denn oftmals zeigt sich erst an den Texten, die auf der Grundlage der Aufgaben produziert werden, ob diese Aufgaben das elizitieren können, was seitens der Testerstellung angestrebt wird bzw. was der Test messen tatsächlich will (Konstruktvalidität).
Da es sich beim TestDaF um eine Prüfung handelt, mit der man den Nachweis über ausreichende Sprachkenntnisse für ein Studium in Deutschland erbringen kann, haben alle Aufgaben bzw. Texte und geforderten Sprachhandlungen einen Bezug zur Hochschule.
Für die Prüfungsteile zur Erfassung der rezeptiven Fähigkeiten (hören und lesen) hat dies zur Folge, dass sowohl die Textsorten als auch die Sprachhandlungen hochschulrelevant sind. So werden im Subtest Leseverstehen z. B. Kurztexte wie sie im studentischen Alltag an der Hochschule vorkommen oder wissenschaftssprachliche längere Texte präsentiert. Im Subtest Hörverstehen werden Dialoge im studentischen Kontext sowie Wissenschaftsbeiträge mit Monologcharakter präsentiert. Die Aufgabe besteht z. B. im Falle der dritten Hörverstehensaufgabe darin, ähnlich einer Situation Vorlesung einem thematisch anspruchsvollen längeren Redebeitrag zu folgen und dabei Notizen in Form von Stichworten zu machen. Prüfungsziele sind je nach Schwierigkeitsniveau das Verstehen von Gesamtzusammenhängen und Einzelinformationen sowie ggf. das Verstehen impliziter Informationen. Entsprechend erforderlich sind geeignete Verstehensstrategien. Der Prüfungsteilteil „Leseverstehen“ besteht aus drei Leseverstehensaufgaben unterschiedlichen Schwierigkeitsgrades mit insgesamt 30 geschlossenen Items. Je nach Aufgabe handelt es sich bei den Lesetexten um unterschiedliche Textsorten und bei den Items um Zuordnungs-, Mehrfachwahl- oder Auswahlitems. Der Prüfungsteil „Hörverstehen“ besteht aus drei Hörtexten, ebenfalls unterschiedlichen Schwierigkeitsgrades, die unterschiedliche Textsorten präsentieren. Insgesamt sind 25 Items (gesteuerte Notizen bzw. Alternativformen) zu lösen.
Die Überprüfung der schriftlichen Ausdrucksfähigkeit erfolgt anhand lediglich einer Texterstellungsaufgabe. Es handelt sich um eine direkte Erfassung der Fähigkeit auf der Basis eines offenen Itemformats, wobei jedoch schriftlich bzw. visuell präsentierte Vorgaben die Aufgabe steuern. Gefordert werden im Wesentlichen zwei Schreibhandlungen: Das Beschreiben und Zusammenfassen von statistischen Daten, die in Form einer Grafik oder tabellarisch präsentiert werden sowie das Argumentieren, indem beispielsweise zu einer Frage oder einem Problem begründet Stellung genommen werden soll und dabei unterschiedliche Meinungen zu paraphrasieren und zu berücksichtigen sind. Die Prüfungsteilnehmenden sollen zeigen, ob sie in der Lage sind, zu einem bestimmten Thema einen zusammenhängenden und klar aufgebauten, diskursiven Text zu schreiben. Zur Erfassung der mündlichen Ausdrucksfähigkeit wird ein kassetten- oder CD-gesteuertes Format verwendet. Die Prüfungsteilnehmenden hören (i. d. R. über Kopfhörer) die Aufgaben und Stimuli vom Band, ihre Antworten werden auf Band aufgenommen. Es handelt sich somit um ein semidirektes Testformat8. Der Prüfungsteil umfasst sieben9 situativ eingebettete Aufgaben, in denen die Prüfungsteilnehmenden sprachlich reagieren müssen und die unterschiedlich schwierig sind. Das zunächst ungewohnte Format hat den für einen standardisierten und weltweit eingesetzten Test wichtigen Vorteil, dass alle Prüfungsteilnehmenden unter den gleichen Bedingungen ihre Leistung zeigen (Durchführungsobjektivität) und diese Leistung ungeachtet der Person zentral von eigens geschulten BeurteilerInnen bewertet werden (Beurteilungsobjektivität). Die Prüfungsteilnehmenden sollen in unterschiedlichen Situationen, die für den Alltag an einer deutschen Hochschule typisch sind, verbal reagieren, beispielsweise in einem Gespräch mit KommilitonInnen oder im Kontext eines Fachseminars. Die geforderten Sprechhandlungen umfassen beispielsweise die Beschreibung statistischer Daten, begründete Stellungnahmen, das Abwägen von Vor- und Nachteilen etc.
Die Beurteilung der Prüfungsleistungen erfolgt zentral durch das TestDaF-Institut. Was die Auswertung der Ergebnisse aus den rezeptiven Prüfungsleistungen anbelangt, so wird jeweils die Anzahl der korrekt gelösten Antworten (Testscore) ermittelt. Die Zuweisung des Testscores zu den TDN-Stufen erfolgt sodann anhand der auf der Datenbasis der Erprobung berechneten so genannten Cut-Offs (ECKES 2003).10
Ein standardisierter Test, der weltweit abgenommen wird, muss sich eines kriterienorientierten Beurteilungsverfahrens bedienen. Das bedeutet: Ausschlaggebend bei der Bewertung von Leistungen ist nicht die (durchschnittliche) Leistung der Gesamtgruppe, i. e. alle Teilnehmenden an einem Prüfungsereignis, sondern die durch die TestDaF-Niveaustufen ausgewiesene Leistung selbst. Aus diesem Grunde werden die Leistungen aus den Prüfungsteilen zur Erfassung der produktiven Fähigkeiten, d. h. die schriftlichen und mündlichen Texte, von BeurteilerInnen bewertet, die eigens geschult werden und regelmäßig Monitoring-Maßnahmen durchlaufen. Das zentrale Instrument der Beurteilung sind die Bewertungskriterien in Form von skalierten Deskriptoren. Dabei sieht das standardisierte Bewertungsverfahren vor, dass die individuelle Prüfungsleistung hinsichtlich vorgegebener, das Testkonstrukt widerspiegelnder, Aspekte mit den Deskriptoren des Bewertungsrasters abgeglichen wird. Diese Kriterien erfassen zum einen die Gesamtwirkung bei der Rezeption eines Textes. Es handelt sich um eine eher holistische Erfassung der Leistung. Zum anderen werden die sprachliche und die inhaltliche Umsetzung der jeweiligen Aufgaben beurteilt, was ein eher analytisches Vorgehen bei der Bewertung erfordert. Um die Schwierigkeit der verschiedenen Aufgaben über verschiedene Testsätze bzw. Testereignisse hinweg konstant zu halten bedarf es darüber hinaus einer testsatzspezifischen Kalibrierung. Die entsprechenden Instrumente bestehen aus zwei Teilen: Zum einen werden die Anforderungen aufgabenspezifisch festgehalten. Das bedeutet, zu jeder Aufgabe wird anhand von Texten aus den Erprobungen eruiert, welche Leistungen bzw. Anforderungen die Aufgabe elizitiert und welche Maßstäbe bei der Umsetzung der jeweiligen Aufgabe anzulegen sind. Hiermit wird also versucht, die Schwierigkeit insofern über verschiedene Testereignisse und Aufgaben konstant zu halten, indem festgelegt wird, inwieweit bei eher komplexen Aufgaben geringere Anforderungen an die Umsetzung zu stellen sind als bei Aufgaben, die z. B. eher einfach zu erfassende Darstellungen statistischer Daten aufweisen. Zum anderen werden ebenfalls anhand von Leistungen aus der Erprobungsphase der jeweiligen Aufgabe Texte auf unterschiedlichen Leistungsniveaus ausgewählt und durch ein ExpertInnen-Gremium, bestehend aus geschulten BeurteilerInnen und TestentwicklerInnen, bewertet. Die Urteile und entsprechenden begründeten Einstufungen werden schriftlich fixiert und stellen eine weitere Orientierungshilfe für alle BeurteilerInnen dar, die für die Bewertung schriftlicher bzw. mündlicher Leistungen aus einem Testereignis eingesetzt werden. Diese Kalibrierungsmaßnahmen haben zum Ziel, die Beurteilungsmaßstäbe zu bestimmen. Die konstante Interpretation dieser Maßstäbe ist zum einen wichtig, um die Reliabilität der Beurteilungen zu erhöhen und zum anderen, um die Schwierigkeit der Aufgabe zu justieren. Die Konstanthaltung der Schwierigkeit schließlich ist erforderlich, um das Gütekriterium der Validität zu erfüllen (zum Bewertungsverfahren, den Schulungen und Kalibrierungsmaßnahmen siehe ausführlich ARRAS 2007).
Da trotz Schulung, Kalibrierung und weiteren Monitoring-Maßnahmen Menschen unterschiedlich strenge Beurteilungsmaßstäbe anlegen, wird ein weiteres Instrument eingesetzt, um zu zuverlässigen und damit fairen Leistungsbeurteilungen zu gelangen, nämlich die Erfassung der individuellen Strenge der einzelnen BeurteilerIn mit Hilfe des Multi-Facetten-Rasch-Modells. Hierbei wird bei der Ermittlung der tatsächlich erreichten Leistungsstufe u. a. auch der Strengekoeffizient der individuellen Beurteilerin bzw. des individuellen Beurteilers einbezogen (ECKES 2004). Die Erfassung verschiedener Determinanten - also die Leistungseinstufungen hinsichtlich der verschiedenen Aspekte wie sie im Kriterienraster vorgegeben sind, die Aufgabenschwierigkeit sowie die individuelle Strenge und Konsistenz der BeurteilerIn - ermöglicht schließlich eine faire endgültige Stufenzuweisung..
Nachdem der Test, seine Inhalte, Formate und Qualitätssicherungsmaßnahmen skizziert worden sind, soll nun im Folgenden analysiert werden, wie die brasilianischen Prüflinge bislang abgeschnitten haben. Diese Daten ergeben Hinweise auf Stärken und Schwächen der brasilianischen Deutschlernenden und erlauben ggf. Rückschlüsse auf curriculare und didaktische Entscheidungen für den DaF-Unterricht, die Prüfungsvorbereitung sowie die Vorbereitung auf ein Studium an einer deutschsprachigen Hochschule.

3. Ergebnisse brasilianischer PrüfungsteilnehmerInnen

Bislang (i. e. von 2001 bis 2007) haben wie eingangs erwähnt ca. 950 Brasilianerinnen und Brasilianer den TestDaF abgelegt, die Mehrzahl jedoch in Deutschland. Insgesamt betrachtet schneiden die brasilianischen TeilnehmerInnen gut ab, ihre kommunikativen Fähigkeiten erweisen sich als durchaus „hochschultauglich“, also den Anforderungen an einer deutschsprachigen Hochschule entsprechend, wie die folgende Tabelle verdeutlicht.

 

Knapp ein Drittel (30,83%) liegt im oberen Leistungsspektrum, d. h. sie erreichen in den vier Prüfungsteilen TDN5 oder TDN4. Fast die Hälfte (46,62%) liegen im mittleren Bereich (i. e. TDN4 und TDN3). Nur etwa ein Fünftel (22,55%) erreicht hingegen in wenigstens einem Prüfungsteil nicht das Eingangsniveau des TestDaF. Das bedeutet, diese Prüflinge liegen in wenigstens einem Subtest unter TDN3, ihre sprachlichen Kompetenzen reichen nicht aus, um ein Studium an einer deutschsprachigen Hochschule aufzunehmen. Diese Befunde sind zunächst einmal durchaus positiv zu bewerten. Schauen wir uns nun die Ergebnisse in den verschiedenen Subtests an:
Im Prüfungsteil Leseverstehen sind die Ergebnisse insgesamt gut, wie das folgende Diagramm zeigt:

Die brasilianischen Prüflinge erreichen zu 60 bis 70% die Stufen 4 und 5. Interessant ist, dass jene, die den TestDaF in Brasilien ablegen, etwas besser abschneiden als jene, die die Prüfung in Deutschland machen, denn gemeinhin besteht die Annahme, in der Zielkultur ließen sich Sprachkompetenzen besser ausbauen. Das muss offensichtlich nicht notgedrungen so sein, was auch die Ergebnisse aus dem Prüfungsteil Hörverstehen zeigen:

Auch im Hörverstehen schneiden diejenigen brasilianischen Prüflinge etwas besser ab, die die Prüfung in ihrem Heimatland ablegen. Insgesamt aber sind die Ergebnisse im Vergleich zum Leseverstehen jedoch schwächer.
Wie nun schneiden die Prüflinge in den produktiven Prüfungsteilen Schriftlicher und Mündlicher Ausdruck ab?

Die Daten zeigen zweierlei:
Die schwächsten Ergebnisse erzielen die brasilianische Prüflinge im Subtest Schriftlicher Ausdruck, und zwar vor allem, wenn sie die Prüfung im Heimatland ablegen: Nur knapp 8% der Prüflinge (Testort Brasilien) erreichen die höchste Niveaustufe, TDN5. Für den Testort Deutschland liegen die Ergebnisse nur unbedeutend höher (etwas über 11%). Hier zeigt sich also Handlungsbedarf. Woran liegt es, dass die brasilianischen Deutschlernenden schwache Ergebnisse erzielen in diesem Prüfungsteil? Möglicherweise sind die geforderte Textsorte und die geforderten Schreibhandlungen nicht oder nicht in ausreichendem Maße Gegenstand des Unterrichts? Zu vermuten ist darüber hinaus, dass die geforderten Schreibhandlungen sowie die geforderte Textsorte nicht der eigenen akademischen Sozialisation, also den eigenkulturellen Textsorten und Schreibhandlungen entsprechen. Für die Prüfungs- und Studienvorbereitung sind entsprechende Maßnahmen erforderlich, etwa die systematische Auseinandersetzung mit kulturspezifischen Schreib- und Argumentationsstilen im akademischen Kontext der Zielkultur.
Sehr gut hingegen schneiden die brasilianischen Prüflinge im Subtest Mündlicher Ausdruck ab: ¾ aller Teilnehmenden erreichen die Niveaustufen TDN4 und TND5, wobei wiederum die Ergebnisse im Heimatland etwas besser ausfallen (29,2%) als in Deutschland (24,07%). Ein verschwindend geringer Anteil (2,42% insgesamt) erreicht das Eingangsniveau nicht und schneidet mit unter TDN3 ab. Damit zeigt sich, dass der Prüfungsteil, gegen den des ungewohnten Formats wegen gemeinhin am meisten Vorbehalte bestehen (sowohl seitens der Prüflinge als auch seitens der Lehrkräfte), sehr wohl erlaubt, mündliche Kompetenzen angemessen unter Beweis zu stellen. 

4. Prüfungsvorbereitung und Propädeutik

Die Entwicklung bzw. Implementierung und Etablierung eines neuen Tests werfen Fragen hinsichtlich der adäquaten Testvorbereitung auf. Zum einen geht es hierbei um Fragen zur Konzeption von entsprechendem Unterricht (z. B. Intensiv- vs. Extensivkurse), zum anderen um Unterrichtsinhalte und passende Lern- bzw. Lehrmaterialien. Was Vorbereitungsmaterialien anbelangt, so sind inzwischen einige Lehrwerke auf dem Markt, die gezielt auf den TestDaF vorbereiten wollen11. Ebenso etablieren sich vielerorts, sowohl in Deutschland als auch im Ausland, spezielle TestDaF-Vorbereitungskurse. Es zeichnet sich ab, dass Vorbereitung auf den TestDaF oftmals dahingehend verstanden wird, lediglich dem TestDaF-Format entsprechende Aufgaben aus den verschiedenen Subtests zu üben. Zweifelsohne ist es für die Prüfungsteilnehmenden unabdingbar, sich mit dem Testformat vertraut zu machen. Beispielsweise ist i. d. R. den Lernenden das kassettengesteuerte Format des Subtests Mündlicher Ausdruck nicht unbedingt vertraut, so dass es dringend notwendig ist, vor der Teilnahme am TestDaF das Sprechen bzw. Reagieren auf Kassette zu üben12. Gleiches gilt für den Teil Hörverstehen. Hier erfordert das Format, dass in der ersten und dritten Hörverstehensaufgabe die Antworten in Form schriftlicher Notizen und Stichwörter zu geben sind. Auch das wird den meisten Deutschlernenden zunächst ungewohnt erscheinen, da diese Übungsform - vor allem auch in Verbindung mit der Fertigkeit Hörverstehen - möglicherweise nicht zum festen Bestandteil des DaF-Unterrichts gehört. Allerdings ist davor zu warnen, TestDaF-Vorbereitung darauf zu beschränken, möglichst viele TestDaF-ähnliche Übungen vorzunehmen. Die Gefahr besteht darin, lediglich Testwiseness zu trainieren und die undifferenzierte Verwendung von Redemitteln bzw. das Auswendiglernen von Mustertexten für die produktiven Prüfungsteile zu unterstützen. Testwiseness-Strategien bestehen z. B. darin, im Subtest Leseverstehen bei der Lösung der geschlossenen Items nach plausiblen, sich gegenseitig erklärenden Antworten zu suchen, ohne die entsprechende Textaussage zu verstehen oder gar ohne den Text überhaupt zu lesen. Die Konzentration auf ein teaching to the test wäre ein negativer Effekt des Tests auf den Unterricht, aber auch auf die Wahrnehmung seitens der Lernenden (Impact), denn nicht der Ausbau der Fähigkeiten stünde im Vordergrund, sondern lediglich die Testresultate wären von Interesse.
Nicht unproblematisch ist es zudem, mangels Aufgaben im TestDaF-Format, diese selbst zu Übungszwecken zu erstellen. Der TestDaF folgt bei der Aufgabenerstellung wie erwähnt festen Kriterien z. B. was die Textsorte anbelangt. Die Item-Erstellung selbst ist komplex, die Qualität der Items kann nur sichergestellt werden, indem die Aufgaben erprobt und geeignete Itemanalysen, etwa zur Ermittlung von Trennschärfen, erfolgen. Denn oftmals wird erst anhand einer solchen Erprobung deutlich, ob Items plausibel sind und deshalb eine hohe Lösungsrate erzielt wurde, ob also mit anderen Worten nicht Lese- oder Hörverstehenskompetenz, sondern vielmehr Testwiseness (die wir ja nicht messen wollen) zur korrekten Lösung des Items geführt haben.
Anstatt möglichst intensiv anhand von dem TestDaF-Format entsprechenden Aufgaben zu trainieren, sollte es bei der Prüfungsvorbereitung vielmehr darum gehen, die Kursteilnehmenden sprachlich auf ein Hochschulstudium in Deutschland vorzubereiten, denn das Konstrukt, das dem TestDaF zugrunde liegt lautet sprachliche Kompetenzen, die im Hochschulkontext relevant sind. Zur Ausbildung dieser Kompetenzen bedarf es keiner TestDaF-adäquater Items und Aufgaben. Vielmehr bieten kommunikativ konzipierte Mittelstufen-Lehrwerke i. d. R. mannigfaltige Materialien und Anregungen zum Training von Verstehensstrategien, von Lese- und Hörstilen sowie von kommunikativen Strategien, die für ein angemessenes sprachliches Handeln an der Hochschule erforderlich sind.
Verschiedene Verlage in Deutschland, aber auch in anderen Ländern bieten Materialien an, um gezielt auf das Prüfungsformat des TestDaF vorzubereiten.13 Es handelt sich hierbei um Materialien, die in erster Linie direkt auf die Prüfung TestDaF vorbereiten wollen, also eine Progression wie sie in extensiv konzipierten Sprachkursen vorgesehen ist, nicht berücksichtigen. Das TestDaF-Institut bietet zudem auf seinen Internetseiten nicht nur kostenlose Modellprüfungen an, mit Hilfe derer sich die KandidatInnen gezielt vorbereiten können, sei es im Selbststudium, sei es im Rahmen einer Lerngruppe oder im Kurs, sondern auch prüfungsrelevante Hinweise, welche die Prüfungsziele beschreiben, Tipps für die angemessene Umsetzung der Aufgaben aus den verschiedenen Subtests liefern und die Beurteilungsmaßstäbe erläutert.
Gerade die Standardisierung und die damit verbundene Transparenz hinsichtlich der Prüfungsformate und -inhalte ermöglicht eine gezielte Vorbereitung auf die Prüfung TestDaF. Die damit verbundene Fairness den Prüfungsteilnehmenden gegenüber ist ein nicht unwesentliches Gütekriterium der Prüfung TestDaF.

5. Literatur

Althaus, H.-J.: „Der TestDaF“, in: DAAD (Deutscher Akademischer Austauschdienst) (ed.): Die internationale Hochschule: Ein Handbuch für Politik und Praxis, Band 8. Bielefeld: Bertelsmann, 80-87. 2004.
Arras, U.: Wie beurteilen wir Leistung in der Fremdsprache? Strategien und Prozesse bei der Beurteilung schriftlicher Leistungen in der Fremdsprache am Beispiel der Prüfung Test Deutsch als Fremdsprache (TestDaF), Giessener Beiträge zur Fremdsprachendidaktik. Tübingen: Narr. 2007.
Arras, U.: „Der TestDaF. Konzept und Prinzipien des standardisierten Tests Deutsch als Fremdsprache“, in: Fòrum – Anuari de l’Associació de Germanistes de Catalunya. Akten des sechsten Kongresses des Katalanischen Deutschlehrer- und Germanistenverbandes (A.G.C.), Tarragona, April 2005, 39-52. 2006. 14 http://www.tinet.org/~asgc2/Forum_2005/Autors/Arras/arras04.html> (26.06.08)
Arras, U., Eckes, T. & Grotjahn, R.: „C-Tests im Rahmen des ’Test Deutsch als Fremdsprache’ (TestDaF): Erste Forschungsergebnisse“, in: Grotjahn, R. (ed.): Der C-Test: Theoretische Grundlagen und praktische Anwendungen (Bd. 4). Bochum: AKS-Verlag: 175-209. 2002.
Bärenfänger, O. & Kecker, G.: „Beurteilerkonsistenz und Beurteilerübereinstimmung bei der Bewertung von Kurzantwortaufgaben: Eine empirische Studie zum Bewertungsverhalten von Beurteilern im Subtest Hörverstehen des Tests Deutsch als Fremdsprache (TestDaF)“, in: Zeitschrift für Fremdsprachenforschung, 15: 237-268. 2004.
Casper-Hehne, H. & Koreik, U. (eds.): DSH und TestDaF als hochschulbezogene Prüfungssysteme für Deutsch als Fremdsprache: Standortbestimmungen und Entwicklungslinien. Hohengehren: Schneider. 2004.
Eckes, T.: „Analyse und Evaluation sprachproduktiver Prüfungen beim TestDaF“, in: Kühn, I und Lehker, M und Timmermann, W (Eds.): Sprachtests in der Diskussion, Frankfurt: Lang. 60-93. 2005
Eckes, T.: „Facetten des Sprachtestens: Strenge und Konsistenz in der Beurteilung sprachlicher Leistungen“, in: Wolff, A. und Ostermann, T. und Chlosta, C. (eds): Integration durch Sprache. Regensburg: FaDaF, 485-518. 2004.
Eckes, T.: „Qualitätssicherung beim TestDaF: Konzepte, Methoden, Ergebnisse“, in: Fremdsprachen und Hochschule, 69, 43–68. 2003.
Europarat: Gemeinsamer europäischer Referenzrahmen für Sprachen: lernen, lehren, beurteilen. Berlin: Langenscheidt. 2001. <http://www.sprachenportfolio.ch/>
Kniffka, G. & Üstünsöz-Beurer, D.: „TestDaF: Mündlicher Ausdruck. Zur Entwicklung eines kassettengesteuerten Testformats“, in: Fremdsprachen Lehren und Lernen, 30: 127-149. 2001.
Lehker, M.: „TestDaF-Sammelrezension“, in: Info DaF 30,2/3: 289-292. 2003.

6. Internetseiten

ALTE (Association of Language Testers in Europe) - <http://www.alte.org>
DUO (Deutsch-Uni Online) - <http://www.deutsch-uni.com>
TestDaF-Institut - <http://www.testdaf.de>

1 Vorliegender Aufsatz basiert i. W. auf meiner auf dem 7. brasilianischen Deutschlehrkräfte-Kongress in Rio de Janeiro (Juli 2008) angebotenen Informationsveranstaltung zum TestDaF.

2 Das TestDaF-Institut ist eine Einrichtung der im November 2000 gegründeten Gesellschaft für Akademische Testentwicklung e. V., Bonn und ein An-Institut der FernUniversität in Hagen und der Ruhr-Universität Bochum. Gründungsmitglieder sind: Hochschulrektorenkonferenz (HRK), Deutscher Akademischer Austauschdienst (DAAD), Goethe-Institut e. V., FernUniversität in Hagen, Ruhr-Universität Bochum, Universität Leipzig, Fachverband Deutsch als Fremdsprache (FaDaF); siehe auch www.testdaf.de. Im Jahre 2006 hat die Gesellschaft für Akademische Testentwicklung e. V. ihre Satzungszwecke auf Angebote zur sprachlichen, fachlichen und propädeutischen Studienvorbereitung ausgeweitet. In diesem Zusammenhang wurde auch der Name geändert. Sie heißt nun Gesellschaft für Akademische Studienvorbereitung und Testentwicklung e. V.

3 Damit übernimmt der TestDaF die gleiche Funktion wie die „Deutsche Sprachprüfung zum Hochschulzugang“ (DSH), die bis Anfang dieses Jahrhunderts der wichtigste Prüfungstyp zum Nachweis ausreichender Sprachkenntnisse für ein Studium in Deutschland war. Bei der DSH handelt es sich jedoch um keine standardisierte Prüfung, auch werden zentrale Testgütekriterien nicht hinreichend erfüllt. Zur Problematik des Vergleichs der TestDaF-Prüfung mit der DSH siehe die Beiträge in CASPER-HEHNE & KOREIK (eds.) (2004).

4 Überblicksdarstellungen zum TestDaF siehe auch ALTHAUS 2004 sowie ARRAS 2006.

5 Die Niveaustufen-Beschreibungen des Gemeinsamen europäischen Referenzrahmens siehe http://www.sprachenportfolio.ch sowie Europarat 2001. Bei der Konzipierung des TestDaF lagen zudem die Niveaustufen-Beschreibung der ALTE (Association of Language Testers in Europe) zugrunde, siehe http://www.alte.org.

6 Zur Beschreibung der TestDaF-Niveaustufen siehe http://www.testdaf.de Die Can-Do-Statements befinden sich auch auf der Rückseite des TestDaF-Zeugnisses.

7 Als Mitglied der ALTE (Association of Language Testers in Europe) verpflichtet sich das TestDaF-Institut, den von den ALTE-Mitgliedern entwickelten Code of Practice einzuhalten, der die Mindeststandards bei Testerstellung, -durchführung und -auswertung definiert. Siehe http://www.alte.org

8 Zu den Lizenzierungskriterien siehe die Internetseite des TestDaF-Instituts: www.testdaf.de.

9 Zur Entwicklung dieses Testformats, dem das Konzept des SOPI (Simulated Oral Proficiency Interview) zugrunde liegt, siehe KNIFFKA & ÜSTÜNSÖZ-BEURER 2001.

10 Der Prüfungsteil Mündlicher Ausdruck wurde nach einer mehrjährigen Überarbeitungs- und Erprobungsphase revidiert, so dass der Subtest seit Sommer 2005 statt der ursprünglich 10 nunmehr 7 Aufgaben umfasst. Die Veränderungen betrafen auch die Anordnung der Schwierigkeit der einzelnen Aufgaben. Zudem wurden die Bewertungskriterien zum Mündlichen Ausdruck strukturell revidiert und dem neuen Aufgabenformat angepasst. Darüber hinaus wurde die Datenerhebung präzisiert.

11 Die Scores aus den geschlossenen Itemtypen sind unmittelbar maschinell erfassbar, eine Auswertung „per Hand“ ist also nicht notwendig. Bei den halboffenen Items jedoch wie sie z. T. im Prüfungsteil Hörverstehen verwendet werden, muss zuvor eine Auswertung durch geschulte BeurteilerInnen erfolgen. Sie entscheiden anhand von festgelegten Beurteilungsrichtlinien, ob eine Kurzantwort als korrekte Lösung zu akzeptieren ist. Zur Bewertung halboffener Items im Kontext der Prüfung TestDaF siehe BÄRENFÄNGER & KECKER 2004.

12  Eine aktuelle Aufstellung von Materialien, die speziell für die Vorbereitung auf den TestDaF entwickelt worden sind findet sich auf der Internetseite des TestDaF-Instituts, www.testdaf.de. Das TestDaF-Institut hat zudem im Hueber-Verlag zwei Modellprüfungen veröffentlicht. Neben Print-Materialien, die im Buchhandel erhältlich sind, werden mittlerweile auch online zugängliche Materialien und spezielle Kurse angeboten. Zu nennen ist vor allem die TestDaF-Vorbereitung bei DUO (Deutsch-Uni Online). Auch hierzu finden sich näheren Informationen bzw. Links auf den Seiten des TestDaF-Instituts.

13 Zum Zusammenhang zwischen Leistung und Vertrautheit mit dem kassettengesteuerten Format beim Mündlichen Ausdruck des TestDaF siehe KNIFFKA & ÜSTÜNSÖZ-BEURER 2001.

14 Zu einigen in Deutschland erschienenen Materialien siehe die Sammelrezension von LEHKER 2003. Neu ist die TestDaF-Vorbereitung im Rahmen des online-Lernprogramms DUO (www.duo.de)