Pawinun,+journal+manager,+2 Jan
Pawinun,+journal+manager,+2 Jan
21
Testen und Prüfen in der Fremdsprache: Was macht eine gute Sprachprüfung aus?
Foreign Language Testing and Evaluation: What defines a good test?
Jan Stevener1
Abstract
This paper aims to outline essential concepts and criteria in order to assess the quality and
aptitude of language tests for any given specific goal. For this purpose, vital terms related to
language-assessment and evaluation are explained and discussed. Subsequently, this paper
describes six points which enable test users and authors to assess the aptitude of a test for a
specific goal. Among these points are clarity about the research object, the test construct, the
properties that researchers assign to it and how these can be measured, as well as how adequate
the research design is to evaluate the research object. Moreover, the application of well-
established quality criteria like validity, objectivity, reliability, etc. facilitates the evaluation of
language tests. It is shown that quality criteria interact with each other and that test users and
authors have to weigh them according to the purpose of the test.
Keywords: Language Testing; Evaluation; Assessment; Data Collection; TestDaF; DSH;
Quality Criteria
Assistant Lecturer from the Humanities and Language Department of Mahidol University International
1
College (MUIC), Humanities and Language Division, Mahidol University, Salaya, Nakhon Pathom.
Email: [email protected]
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
22
Abstrakt
Der vorliegende Beitrag stellt zentrale Konzepte und Kriterien zur Einschätzung der
Eignung und Qualität einer Sprachprüfung für spezifische Zielsetzungen vor. Zu diesem Zweck
werden zuerst zentrale Begriffe der Leistungsmessung vorgestellt und diskutiert. Anschließend
werden sechs zentrale Punkte erläutert, die Prüfungsanwender oder –hersteller in die Lage
versetzen sollen, die Eignung einer Prüfung für einen spezifischen Zweck einzuschätzen. Dazu
zählen Klarheit über den Untersuchungsgegenstand und das Testkonstrukt sowie die damit
verbunden Eigenschaften, in welchen Maßen sich diese messen lassen und wie geeignet die
Operationalsierung zur Erfassung des Untersuchungsgegenstandes ist. Des Weiteren soll mit
Hilfe etablierter Gütekriterien wie Validität, Objektivität, Reliabilität etc. eine Einschätzung der
Qualität einer Prüfung ermöglicht und gezeigt werden, dass Gütekriterien sich wechselseitig
beeinflussen und der Testersteller oder –anwender diese je nach Zielsetzung unterschiedlich
gewichten kann.
Schlüsselwörter: Testen, Prüfen, Fremdsprachenprüfungen, Datenerhebung, TestDaF, DSH,
Gütekriterien
วารสารรามคาแหง ฉบับมนุษยศาสตร์ ปี ที่ 37 ฉบับที่ 1
23
(Test) zu unterscheiden. Demzufolge beziehen formelle Prüfung. Ferner scheint der Bezug
sich informelle Tests nur auf eine bestimmte zur nicht-deutschen Fachliteratur, in der vom
Gruppe von Lernenden und einen begrenzten test gesprochen wird, einigen Einfluss zu
Lehrstoff. Sie werden von den Lehrenden haben. Unter anderem sind PET (Preliminary
entworfen und oft ad-hoc ohne besondere English Test), TCF (Test de Connaissance du
Vorbereitung durchgeführt. Testerstellung Francais) oder TOEFL (Test of English as
und Bewertung orientieren sich nicht a Foreign Language) zu nennen. Einer
an offiziellen Kriterien (Bolton, 1996, p. 6). der größten Anbieter für Sprachzertifikate
Prüfungen werden hingegen als formell nach dem Gemeinsamen Europäischen
eingestuft. Sie beanspruchen, unabhängig Referenzrahmen für Sprachen (im Folgenden
von der Bezugsgruppe, den eingesetzten als GER bezeichnet) des Europarates (2001),
Lernmedien und –methoden Auskunft über die TELC (früher: Weiterbildungs-Testsysteme
das sprachliche Können zu geben. Formelle GmbH), bezeichnet die angebotenen Zertifikate
Prüfungen orientieren sich an festgelegten auf der Homepage als language tests (2018).
Kriterien und können daher objektive Besonders wenn es um die Vergabe von
Aussagen in Bezug auf diese Kriterien Zertifikaten geht, wird zwar eher von
liefern (Albers & Bolton, 1995, p. 14). Diese Prüfungen gesprochen, jedoch verwenden
Unterscheidung wird jedoch nicht Anbieter solcher Prüfungen auch zunehmend
strikt befolgt. Während beispielsweise die Bezeichnungen, die neutral sind: Fit in
DSH (Deutsche Sprachprüfung für den Deutsch, Start Deutsch 1, Kleines/Großes
Hochschulzugang) noch die Prüfung im Deutsches Sprachdiplom, Zertifikat Deutsch
Namen trägt, ist der jüngere TestDaF, für den Beruf etc. Auch neuere Fachliteratur
der den Test im Namen trägt, nach den verzichtet eher auf eine strenge Trennung
obengenannten Bestimmungen eindeutig eine beider Begriffe (vgl. Grotjahn & Kleppin,
วารสารรามคาแหง ฉบับมนุษยศาสตร์ ปี ที่ 37 ฉบับที่ 1
25
2015). Für diesen Beitrag habe ich mich zwischen summativer und formativer
daher entschieden, vor allem den Begriff Evaluation unterschieden. Summative
Prüfung und Prüfen zu verwenden, Evaluationen sind punktuell und produkt-
da die für formelle Prüfungen geforderte /ergebnisorientiert, beispielsweise als Noten
Kriterienorientierung dem Ziel dient, in Zeugnissen, während formative Evaluationen
die Qualität einer Sprachprüfung besser kontinuierlich und prozessorientiert im
bestimmen zu können und auch bei Unterricht integriert sind. Sie dienen dazu,
informellen Tests beachtet werden sollte. den Unterricht zu optimieren und die
Gemeinsames Merkmal von Tests und Fertigkeiten der Lernenden weiterzuentwickeln
Prüfungen ist es, dass Prüflinge durch (Grotjahn & Kleppin, 2015, p. 36). Im Grunde
eine Aufgabenstellung zu bestimmten ist somit schon die Beobachtung im
sprachlichen Handlungen oder Reaktionen Unterricht, dass es bei den Lernenden
gebracht werden sollen. Es handelt sich um bestimmte Defizite gibt, eine formative
den Einsatz von „theoretisch und empirisch Evaluation.
fundierten Verfahren zur kontrollierten Verfahren, die auf Grund von Zahlenwerten
Auslösung von diagnostisch relevantem Rückschlüsse auf sprachliche Fertigkeiten
Verhalten durch standardisierte Reize – mit liefern, werden oft als Messverfahren
dem Ziel eines Rückschlusses auf sprachliche bezeichnet. Letzlich liefern die meisten Tests
Kompetenzen“ (Grotjahn, 2013, p. 211). Bei und Prüfungen Leistungsbeurteilungen auf
alternativen Formen der Leistungsmessung, Grund von Zahlenwerten und müssen daher
z.B. durch Unterrichtsbeobachtung oder als Messverfahren gelten. So beschreibt
Selbstevaluation, verwendet man hingegen Kecker Sprachprüfungen weiterführend als
die Begriffe Evaluation oder im Englischen „Messverfahren, die in möglichst sytematischer
den Begriff Assessment. Ferner wird und objektiver Weise Aussagen über die
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
26
Rahmen dieses Artikels können jedoch nur in halboffene oder geschlossene Fragen zu
sehr beschränktem Umfang Beispiele gezeigt klassifizieren. Eine Prüfung kann sich
und Kriterien praktisch angewendet werden. dabei aus verschiedensten Einzelprüfungen
Die nun folgenden Punkte 3.1 bis zusammensetzen, insbesondere bei Ein-
3.6 sollen daher vor allem helfen, eine stufungsprüfungen, Eignungsprüfungen oder
größere testtheoretische Reflektiertheit Zulassungsprüfungen (DSH, TestDaF, TOEFL
und Transparenz bei Lehrenden, die Tests etc). Es ist zu beachten, dass die
entwicklen und anwenden möchten, zu Einzelprüfungen einzeln beschrieben werden.
erreichen: Ein Vorbild ist z.B. der TestDaF, bei dem
3.1 Kurzbeschreibung des Verfahrens den Prüflingen vor dem Prüfungsteil
Eine Kurzbeschreibung des Verfahrens schriftlich und auditiv der Gegenstand
ermöglicht potenziellen Anwendern, ein erste benannt und kurz beschrieben wird, welche
Einschätzung bezüglich der Eignung Aufgaben zu erwarten sind: „Im Prüfungsteil
des Verfahrens für eine bestimmte Mündlicher Ausdruck sollen Sie zeigen,
Fragestellung als auch eine Einschätzung zur wie gut Sie Deutsch sprechen. Dieser Teil
Durchführbarkeit vorzunehmen. Dazu gehört besteht aus insgesamt 7 Aufgaben, in denen
es, einerseits kurz den Gegenstand der Ihnen unterschiedliche Situationen aus dem
Prüfung zu beschreiben und andererseits Universitätsleben vorgestellt werden. Sie
die Form der Prüfung und seiner Aufgaben sollen sich zum Beispiel informieren,
zu klassifizieren. Soll das Verfahren Auskunft geben oder Ihre Meinung sagen.
beispielsweise den Mündlichen Ausdruck Jede Aufgabe besteht aus zwei Teilen: Im
(Gegenstand) eines Probanden erheben, so ersten Teil wird die Situation beschrieben, in
kann dies mit einem Interview (Form) der Sie sich befinden, und es wird gesagt,
erfolgen. Die Aufgaben wären als offene, was Sie tun sollen ... im zweiten Teil der
วารสารรามคาแหง ฉบับมนุษยศาสตร์ ปี ที่ 37 ฉบับที่ 1
29
Testkonstrukte bezeichnet (Grotjahn & Kleppin, beispielsweise durch das Ankreuzen in einer
2015). Da jedoch das Konstrukt nicht Mehrfachauswahlaufgabe. Bei solchen Tests
umittelbar messbar ist, kann nur das sprachliche wird häufiger von Kompetenztests gesprochen
Handeln und Verhalten beobachtet werden; (Grotjahn, 2013, p. 213). Werden Prüfungen
daher spricht man auch von Performanztests. für den Einsatz als Abschluss- oder
Anschließend sollten Rückschlüsse auf Lernfortschrittstest konzipiert, so kann das
die zugrundeliegende Kompetenz möglich Testkonstrukt passgenau auf die Lernziele des
sein. Ein Beispiel ist die Prüfung der vorangegangenen Unterrichts abgestimmt
Sprechfähigkeit mittels eines Rollenspiels, werden. Prüfungen, die das Erreichen der
wie in der Prüfung Goethe Zertifikat Niveaustufen A1 – C2 überprüfen, können sich
B1 des Goethe Instituts oder simulierte mit einer gewissen Vorsicht auf die im GER
Telefongespräche wie im Prüfungsteil (Europarat, 2001) definierten Niveaustufen
Mündlicher Ausdruck des TestDaF. Ferner beziehen. Der GER bietet zwar Beschreibungen
ist zu beachten, dass beim TestDaF oder der der jeweiligen Kompetenzstufen, jedoch
DSH sprachliche Kompetenzen für einen warnen Fulcher (2004, 2010) und Milanovic
bestimmten Bezugsbereich, das Studium, (2009, p. 3) vor einer Überschätzung der
geprüft werden sollen. Neben einer exakten Möglichkeiten des GER. Das Konstrukt einer
Benennung der Kompetenzen setzt dies auch Prüfung werde nicht vom GER bestimmt,
eine Definition des Bezugsbereichs voraus sondern ein Testkonstrukt in einem
(Chapelle et al, 2010, p. 8). spezifischen Kontext kann in Hinblick auf
Insbesondere bei der Überprüfung rezeptiver seine Übereinstimmung mit dem GER
Kompetenzen (Lese- oder Hörverstehen) überprüft werden. Ferner wurde kritisiert, dass
kann nur sehr indirekt durch Interferenz die in den Skalen verwendeten Begriffe, wie
auf Kompetenzen geschlossen werden, „vertraut“, „einfach“ oder „komplex“ nicht
วารสารรามคาแหง ฉบับมนุษยศาสตร์ ปี ที่ 37 ฉบับที่ 1
31
erläutert und Schwierigkeitsmerkmale nicht soll, wieweit die Prüflinge bereits ihre
kohärent verwendet werden (Alderson & Sprachverwendung automatisiert haben, so
Hutha, 2005). muss deutlich werden, welche Merkmale
3.3 Operationalisierung diesem Untersuchungsgegenstand theoretisch
Die Frage, welcher Gegenstand wie zugeschrieben werden. Die Operationalisierung
gemessen wird, ist zentral für Entscheidungen muss sich also auf die Frage beziehen, wie
zur Operationalisierung der Forschungsfrage: sich diese Eigenschaften messen lassen.
„Die Operationalisierung eines theoretischen Prüfungen, die Niveaustufen nach dem GER
Begriffs besteht aus der Angabe einer erfassen möchten, können auf die dortigen
Anweisung, wie Objekten mit Eigenschaften Kann-Beschreibungen zurückgreifen. Diese
(Merkmalen), die der theoretische Begriff sind jedoch recht abstrakt und oft frei
bezeichnet, beobachtbare Sachverhalte interpretierbar. Daher empfiehlt sich für die
zugeordnet werden können“ (Schnell, Esser, Operationalisierung der Einsatz von „Profile
& Hill, 1995). Es ist beispielsweise fraglich, Deutsch“ (Glaboniat et al, 2005). Profile
ob Mehrfachauswahlaufgaben (multiple choice Deutsch beruht auf den Kann-Beschreibungen
Aufgaben) tatsächlich sprachliche Kompetenzen des GER, konkretisiert diese jedoch für die
erfassen können, oder ob nicht eher die Praxis und erweitert sie durch Beispiele.
Vertrautheit der Prüflinge mit eben diesem Das folgende Beispiel ist aus einer High-
Testformat erfasst wird (Perlemann-Balme, Stakes Prüfung für den Hochschulzugang
2001). Um die Eignung einer Prüfung (Professional Aptitude Test, PAT 7.2, 2011).
einschätzen zu können, müssen die ihr Im Prüfungsteil Grammatik gibt es die
zugrundeliegenden theoretischen Annahmen folgende Mehrfachauswahlaufgabe mit der
offenbart werden. Arbeitsanweisung „Wählen Sie die beste
Wenn beispielsweise erhoben werden Antwort!“:
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
32
mündlicher Ausdruck muss der Prüfling auf der Prüfung, bei der die Bedingungen, unter
eine Frage monologisch die Antwort in das denen die Prüfung abgelegt wird, so
Aufnahmegerät sprechen, zudem gibt es auch vergleichbar wie möglich gemacht werden.
eine strikte Zeitvorgabe für die notwendigen So muss z.B. festgelegt werden, welche Texte
Handlungen Überlegen und Sprechen. Ist und welche Aufgabenformate verwendet
der Prüfling nicht auf dieses Format werden, welche sprachliche Handlungen der
vorbereitet, ist eine schlechtere Performanz Prüflinge als erfolgreich zu sehen sind und
als in einer natürlichen Situation erwartbar. wie diese Reaktionen zu bewerten sind. Die
Andere Störfaktoren können unterschiedliche Standardisierung ist insbesondere unerlässlich
Belastbarkeit der Teilnehmer, unterschiedliche für formelle Prüfungen wie den TestDaF, die
Lösungsstrategien etc. sein, auf Seiten der DSH oder TOEFL, denn diese Prüfungen
Prüfenden Vorlesende mit dialektaler Färbung werden mehrfach pro Jahr angeboten. Dabei
(DSH) usw., ebenso zufällige Störfaktoren muss gewährleistet bleiben, dass beispielsweise
in der Durchführung: Störgeräusche aus ein Ergebnis von TDN 4 im Leseverstehen
Nebenräumen, ungünstige Sitzplätze bei des TestDaf aus einem Prüfungsdurchgang
Hörverstehensaufgaben, Ausfall technischer vergleichbar bleibt mit einem TDN 4 aus
Geräte. All diese Faktoren beeinflussen die einem Prüfungsdurchgang im folgenden Jahr,
Zuverlässigkeit, mit der gemessen wird. Da bei dem andere spezifische Items verwendet
diese nicht beeinflussbar sind, sollten sie wurden. Die Standardisierung im Leseverstehen
zumindest dokumentiert werden. des TestDaF erfolgt daher an Hand der
3.4 Standardisierung folgenden Kriterien: Dauer, Anzahl der Items,
Eine zentrale Forderung für eine gute Textlänge, Itemtyp (Zuordnung, multiple
Prüfung ist eine hohe Standardisierung. Ziel choice, ja/nein/Text sagt nichts dazu),
der Standardisierung ist eine Vereinheitlichung Diskursart, Aspekte des Leseverstehens
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
34
gefüllter und ungefüllter Pausen, die sog. easiest things to do, it has been suggested, is
speech rate (das Verhältnis von Silben zur to develop a new kind of test – what is hard
Gesamtdauer der Äußerung inklusive Pausen) to know is to know what an existing test
etc. verwendet werden. really measures”. Die Maße quantifizieren die
Sprachprüfungen wollen bestimmte beobachteten Eigenschaften und bilden so
Kompetenzen erfassen. Dabei muss deutlich die Brücke zwischen der Operationalisierung
werden, auf welche Eigenschaften die Prüfung und der anschließenden Bewertung der
zielt und welche Maße gewählt wurden. Prüfungsleistung.
Wird z.B. die Schreibkompetenz untersucht, 3.6 Gütekriterien und ihre
so dürften viele Lehrende annehmen, dass Wechselwirkungen
die beobachtbare Eigenschaft „Korrektheit“ Die Gütekriterien verdeutlichen, wo die
an Hand der Anzahl von Fehlern gemessen Grenzen eines möglichen Erkenntnisgewinns
werden kann und so ein Rückschluss auf zu sehen sind. Daher ist es ratsam, jede
Schreibkompetenz möglich ist. Diese Fehler Prüfung hinsichtlich ihrer Leistungsfähigkeit
können unterschiedlich gewichtet werden. zu evaluieren. Grotjahn, (2013) fordert,
Darüber hinaus können der Schreibkompetenz „Sprachtests im Sinne der pädagogisch-
aber weitere Eigenschaften zugeschrieben psychologischen Diagnostik sollten die
werden, z.B. Komplexität, Angemessenheit, folgenden Qualitätsmerkmale aufweisen [...]:
Kohärenz, etc. Die Offenlegung der Erfüllung der klassischen Gütekriterien
verwendeten Maße ermöglicht eine genauere der Objektivität, Reliabilität und Validität“
Einschätzung, was gemessen wird und in (Grotjahn, 2013, p. 211) und verweist darauf,
welchem Verhältnis diese Maße zum dass diese Kriterien nicht nur bei formellen
Gegenstand der Prüfung stehen. Spolsky Prüfungen zu gelten haben, sondern auch bei
(2000, p. 539) schreibt treffend: „One of the informellen Tests eine wichtige Rolle spielen.
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
36
Da die Ergebnisse von Tests und Prüfungen 3.2) lässt sich nicht direkt beobachten,
eine wichtige Rolle bei vielen praktischen sondern benötigt Indikatoren, die erfasst
Entscheidungen, z.B. Weiterversetzung in werden können. Das Item aus PAT 7.2 unter
der Schule, Beförderung, Einstellung, 3.3 kann bezüglich seiner Validität eingeschätzt
sprachpolitische Entscheidungen etc., spielen werden, denn das Konstrukt, das erfasst
können, formulierte Bachmann schon 1990: werden soll, ist grammatische Kompetenz.
„The more important the decision, in terms Das Item erfasst jedoch die Vertrautheit
of its impact upon individuals and programs, mit Redewendungen, eventuell auch die
the greater assurance we must have that our Vertrautheit mit dem Testformat, und ist
test scores are reliable and valid“ (p. 78). Im daher nicht valide. Schwieriger ist es, wenn
Folgenden werden wichtige Gütekriterien z.B. kognitive Verabeitungsprozesse bei
diskutiert: der Bearbeitung von Testaufgaben, das
3.6.1 Validität Hörverstehen oder Leseverstehen erfasst
Validität (Gültigkeit) ist das werden sollen. Diese sind nicht direkt
wichtigste Gütekriterium einer Prüfung. beobachtbar. Zur Bestimmung der Validität
Man kann damit u.a. einschätzen, ob einer Leseverstehensaufgabe muss gefragt
wirklich das erfasst wurde, was erfasst werden, ob man auf Grund der beobachteten
werden sollte. Der Begriff „Validität“ hat Leistung in der Prüfung gültige Aussagen zur
eine wissenschaftshistorische Entwicklung Leseverstehenskompetenz der Prüflinge in
durchlaufen (Kecker, 2011, p. 18 f.) und sich bestimmten realen Situationen formulieren
in verschiedene Ausprägungen entwickelt. kann.
Für die Praxis der Sprachprüfungen ist die Eine weitere Form der Validität ist die
sogenannte „Konstruktvalidität“ das zentrale Augenscheinvalidität, die als Gültigkeit des
Konzept von Validität. Das Konstrukt (siehe Tests in den Augen der Getesteten und
วารสารรามคาแหง ฉบับมนุษยศาสตร์ ปี ที่ 37 ฉบับที่ 1
37
Testabnehmer beschrieben werden kann. In TestDaF zeigt, wird er diese Leistung dann
der Praxis ist die Validierung einer Prüfung auch im Studium bei Vorlesungen und
recht anspruchsvoll und kann nur ansatzweise Seminaren zeigen können? Für interne
von Lehrenden für informelle Prüfungen und externe Validiät einer Prüfung sind
durchgeführt werden. Hilfreich ist das Gespräch die Konstrukteure der Prüfung zuständig,
mit KollegInnen, um möglichst genau zu allerdings sollten Testanwender in der Lage
spezifizieren, was gemessen werden soll, sein, interne und externe Validität kritisch zu
warum eine bestimmte Aufgabe in der reflektieren.
Prüfung verwendet wird und warum diese 3.6.2 Objektivität
Aufgabe wie bewertet wird. Weiter kann Zentrale Voraussetzung für
Validität in interne und externe Validität Objektivität ist die Standardisierung (Ver-
unterschieden werden. Die interne Validität einheitlichung) der Durchführung und
bezieht sich auf die Eindeutigkeit, mit der die Bewertung einer Prüfung. Geschlossene
Ergebnisse interpretiert werden können. Sind Aufgabenformate wie multiple choice
die Resultate auf die untersuchte Kompetenz Aufgaben, Zuordnungsaufgaben und Alter-
zurückzuführen, oder gibt es alternative nativantwort Aufgaben können völlig
Erklärungen für das in der Prüfung gezeigte objektiv bewertet werden. Jedoch besonders
Verhalten? Je mehr Alternativerklärungen bei produktiven und komplexen Kom-
möglich sind, desto geringer ist die interne petenzen (Schreibfertigkeit, sprachliche
Validität einzustufen. Die externe Validität Studierfähigkeit etc.) ist es schwierig,
hingegen bezeichnet die Verallgemeinbarkeit Objektivität zu gewährleisten. Objektivität
der Ergebnisse über die spezifische Prü- wird in die zentralen Konzepte „Durch-
fungssituation hinaus. Wenn ein Prüfling führungsobjektivität“ und „Bewertungs-
eine gute Leistung im Hörverstehen des objektivität“ unterschieden. Da der vorliegende
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
38
Beitrag sich nicht mit der Bewertung beispielsweise der mündliche Ausdruck in
beschäftigt, bezieht sich die hier einer so stark standardisierten Weise geprüft
erörterte Objektivität allein auf die (festgelegte Zeiten zur Planung und Produktion
Durchführungsobjektivität. Die Durchfüh- der Äußerung, Anweisungen mit Pieptönen,
rungsobjektivität hängt vor allem von Konversation mit einem Computer oder
zufälligen oder systematischen Ab- Tonband etc.), dass fraglich ist, ob hier nicht
weichungen im Verhalten von Prüfern oder die Vertrautheit mit dem Prüfungsformat
Kommunikationspartnern ab, da diese mitgetestet wird, was eine geringere interne
ihrerseits das sprachliche Verhalten der Validität bedeutet, und auch ob das in einer
Prüflinge beeinflussen. Die Hörverstehens- so kontrollierten Situation gezeigte Verhalten
aufgabe in DSH Prüfungen kann von in einer realen Situation außerhalb der
unterschiedlichen Prüfern vorgelesen werden, Prüfung gezeigt werden kann; ergo sinkt
deren Aussprache, Lesegeschwindigkeit, auch die externe Validität. Am Beispiel des
dialektale Färbung, Stimmhöhe, Pausen- PAT 7.2 kann man sehen, dass eine multiple
verhalten etc. jedoch nicht standardisiert ist. choice Aufgabe zwar hochgradig objektiv ist,
Daher hat der Hörverstehensteil in der DSH damit jedoch nicht automatisch auch eine
eine geringere Objektivität als der Verbesserung der Validität erreicht wird.
Hörverstehensteil im TestDaF, denn dort Problematisch hinsichtlich der Durch-
wird an festgelegten weltweiten Prüfungs- führungsobjektivität sind des Weiteren
terminen ein identischer Hörtext digital über Paarprüfungen, die beispielsweise im
Kopfhörer präsentiert. Zertifikat B1 des Goethe Instituts verwendet
Es ist jedoch zu beachten, dass werden. Der mündliche Ausdruck hängt stark
Gütekriterien untereinander Wechsel- von der Qualität der Äußerungen des
wirkungen zeigen. Im TestDaF wird Prüfungspartners ab. Wenn der Prüfling den
วารสารรามคาแหง ฉบับมนุษยศาสตร์ ปี ที่ 37 ฉบับที่ 1
39
Beitrag des Partners nicht verstehen kann, wiederholt, der also theoretisch den gleichen
weil dieser nicht auf dem entsprechenden Kenntnisstand besitzt, in den wiederholten
Niveau ist, so kann der Prüfling nicht zeigen, Tests das gleiche Ergebnis wie beim ersten
welche mündliche Kompetenz er besitzt. Durchlauf erzielen. Ein Kandidat, der den
Ferner wird auch das Hörverstehen erfasst, TestDaF nach kurzer Zeit ein zweites Mal
welches doppelt erhoben wird, da die ablegt, sollte also auch ein fast identisches
Prüfung das Hörverstehen auch in einem Ergebnis erhalten. Gerade bei informellen
weiteren Prüfungsteil separat erfasst. Die Tests und Prüfungen wird oft keine
interne Validität und Durchführungs- hinreichende Reliabilität gewährleistet. Doch
objektivität sind damit zwar geringer, auch der sogenannte „DSH Tourismus“, bei
andererseits ist von einer hohen externen dem ausländische Studienbewerber die DSH
Validität auszugehen, da die Prüfungs- an verschiedenen Universiäten probieren, weil
situation einer realen Situation stark ähnelt. einige DSHs als „leicht“ gelten, ist ein
3.6.3 Reliabilität klares Indiz für mangelhafte Reliabiliät der
Das Gütekriterium Reliabilität formellen DSH Prüfung.
bezieht sich auf die Zuverlässigkeit, mit der Die Reliabilität in der Durch-
gemessen wird und soll sich kritisch mit führungsphase wird beispielsweise durch
der Frage beschäftigen, welcher Anteil der nicht eindeutige Arbeitsanweisungen
vom Prüfling gezeigten Leistung sich beeinträchtigt. Die mehrfach zitierte Aufgabe
auf Messfehler und wieviel sich auf aus dem PAT 7.2. formuliert „wählen Sie die
die intendierte sprachliche Kompetenz beste Antwort“, wobei die Formulierung
zurückführen lässt. Theoretisch sollte problematisch ist, denn es suggeriert, dass
beispielsweise ein Lerner, der den strukturell mehrere Antworten richtig sind. Darüber
gleichen Test innerhalb kurzer Zeit mehrmals hinaus kann es zu Problemen bei der
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
40
Kosten der Apparatur etc.) erfragt. Prüfung besser abschneiden, handelt es sich
Das Kriterium Authentizität befasst um Messfehler. Dies kann z.B. den Abstand
sich mit der Übereinstimmung der zur Hörquelle betreffen, aber auch
Prüfungssituation und Aufgaben mit dem unterschiedliche Vertrautheit mit dem
zielsprachlichen realen Verwendungskontext. Testformat. Bei Sprachlehrangeboten mit e-
Insbesondere Prüfungen, die Kompetenzen für learning oder Fernlernen und obligatorischer
spezifische Situationen und Kontexte erheben Teilnahme am Präsenzunterricht ist auch zu
(bspw. der TestDaF für den studentischen beachten, dass Präsenzunterricht, der in
Kontext, Prüfungen zum Wirtschaftsdeutsch, unterschiedlichem Maß zugänglich ist, die
Deutsch für den Tourismus etc.), müssen sich Fairness einer Prüfung beeinträchtigt.
an diesem Kriterium orientieren. Wichtig sind Mit dem Gütekriterium Washback
hier vor allem die sprachliche und die -Effekt wird erfasst, inwieweit Prüfungen
situationelle Authentizität. Im Fremdspra- Rückwirkung auf die Unterrichtspraxis
chenunterricht spricht man von einer (Cheng et al, 2004) oder in einem erweiterten
„gemäßigten“ Authentizität (Bolton, 1996, p. Sinne auch auf Curricularentwicklung oder
21), bei der vor allem die Textmerkmale mit Zulassungspolitik von Universitäten haben.
authentischen Texten übereinstimmen, die Für Lehrende ist dies nur im Zusammenhang
aber durchaus vereinfacht und bearbeitet sein mit der Unterrichtspraxis nützlich.
können, um insbesondere in der Grundstufe Wenn beispielsweise Prüfungen nicht
eingesetzt werden zu können. das Hörverstehen erfassen, werden die
Fairness erfasst die Gerechtigkeit einer Lernenden den Hörverstehensaufgaben im
Prüfung. Wenn Prüflinge nicht auf Grund Unterricht weniger Beachtung schenken
höherer Kompetenzen, sondern auf Grund und sich stattdessen eher auf die Inhalte
von individuellen Vorteilen während der konzentrieren, die in Tests und Prüfungen
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
42
Wechselwirkungen gibt (siehe 3.6) und es durch die Rahmenbedingung erschwert und
daher nicht Ziel sein kann, alle Gütekritereien eine zuverlässige Messung der Fähigkeit
maximal zu erfüllen. Vielmehr geht es sowie deren zeitnahe Auswertung
darum, die Prüfung kritisch reflektieren und zur Herausforderung“ (Kecker, 2011, p. 21).
entsprechend den jeweiligen Bedürfnissen Dies kann bedeuten, dass beispielsweise
beurteilen zu können. Dies bedeutet auch, produktive Fertigkeiten mit multiple choice
bewusst zu entscheiden, wie wichtig einzelne erhoben werden, z.B. in der Form, die
Gütekriterien in einer spezifischen Prüfung richtige Reaktion auf einen Stimulus zu
jeweils sind, denn Testanwender haben in der wählen. Bei einer solchen Prüfung wird die
Praxis mit einer Reihe von Beschränkungen Praktikabilität dann auf Kosten der Validität
zu rechnen, die den Einsatz der theoretisch stärker gewichtet. Multiple choice Aufgaben
„besten“ Prüfung verhindern. Technische, mögen in der Herstellung aufwändig
organisatorische oder finanzielle Be- sein und für produktive Kompetenzen nur
schränkungen wurden bereits unter bedingt valide. Die Beliebtheit dieses
„Praktibilität“, „Ökonomie“ und „Nützlichkeit“ Aufgabenformats erklärt sich jedoch aus der
angesprochen. Darüber hinaus ist auch sehr einfachen Handhabung für Testanwender.
zu beachten, dass große Prüfungen mit Antworten sind eindeutig richtig oder falsch
sehr vielen Prüflingen gewisse Abstriche und die Bewertung kann mit Hilfe
in der Qualität hinnehmen müssen. eines Lösungsschlüssels in kürzester Zeit
Kecker meint, „insbesondere wenn große vorgenommen werden. Mit Hilfe der hier
Kandidatengruppen zur gleichen Zeit geprüft vorgestellten Überlegungen sollte jedoch ein
werden sollen, wird beispielsweise in den Testanwender in der Lage sein, Vor- und
produktiven Teilkompetenzen die Anwendung Nachteile abzuwägen und einen geeigneten
direkter Methoden der Kompetenzerfassung Test zu wählen oder selbst zu erstellen.
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
44
References
Albers, H. G., & Bolton, S. (1995). Testen und Prüfen in der Grundstufe. Einstufungstests und
Sprachstandsprüfungen. Langenscheidt: Berlin.
Alderson, J. C., & Huhta, A. (2005). The development of a suite of computer based diagnostic tests
based on the Common European Framework. Language Testing, 22, 301-320.
Bachmann, L. F., & Palmer, A. S. (1996). Language testing in practice: Designing and developing
useful language tests. Oxford: Oxford University Press.
Bolton, S. (1996). Probleme der Leistungsmessung. Lernfortschrittstests in der Grundstufe. Berlin:
Langenscheidt.
Chapelle, C. A., Enright, M. K., & Jamieson, J. M. (2010). Does an argument-based approach
to validity make a difference? Educational Measurement: Issues and Practice, 28 (1), 3-13.
Cheng, L., Watanabe, Y., & Curtis, A. (2004). Washback in language testing. Research contexts
and methods. Mahwah, NJ: Erlbaum.
Europarat. (2001). Gemeinsamer Europäischer Referenzrahmen für Sprachen: Lernen, lehren,
beurteilen. Berlin: Langenscheidt.
Fulcher, G. (2004). Deluded by Artifices? The common European framework and harmonization.
Language Testing Quarterly, 1(4), 253 – 266.
Fulcher, G. (2010). Practical Language Testing. London: Hodder Education.
Glaboniat, M., Müller, M., Rusch, P., Schmitz, H., & Wertenschlag, L. (2005). Profile Deutsch.
Gemeinsamer Europäischer Referenzrahmen, Lernzielbestimmungen,
Kannbeschreibungen, Kommunikative Mittel, Niveau A1-A2, B1-B2, C1-C2. Berlin:
Langenscheidt.
Grotjahn, R. (2013). Sprachtests: Formen und Funktionen. In Hallet, W. & Königs, F.G. Handbuch
Fremdsprachendidaktik. 3. Auflage. Seelze-Velber: Klett.
Grotjahn, R., & Kleppin, K. (2015). Prüfen, Testen, Evaluieren. Klett-Langenscheidt: München.
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
46
Hallet, W. (2008). Zwischen Sprachen und Kulturen vermitteln. Interlinguale Kommunikation als
Aufgabe. In Der fremdsprachliche Unterricht Englisch, 93, 2-7.
Kecker, G. (2011). Validierung von Sprachprüfungen. Die Zuordnung des TestDaF zum
Gemeinsamen europäischen Referenzrahmen für Sprachen. Frankfurt am Main: Peter Lang.
Milanovic, M. (2009). Cambridge ESOL and the CEFR. Cambridge ESOL: Research Notes, 37, 2-5.
Perlemann-Balme, M. (2001). Formen und Funktionen von Leistungsmessung und –kontrolle.
In G. Helbig, L.Götze , G. Henrici, & H. J. Krumm. Deutsch als Fremdsprache. Ein
internationales Handbuch. Band II, 994-1006. Berlin: de Gruyter.
Professional Aptidude Test 7.2. (2011). https://www.opendurian.com/exercises/pat72mar54/1/.
Zuletzt gesehen 31.3.2018.
Roche, J. (2013). Fremdsprachenerwerb Fremdsprachendidaktik. 3. Auflage. Tübingen: Narr
Francke Attempto Verlag.
Schnell, R., Esser, E., & Hill, P. B. (1995). Methoden der empirischen Sozialforschung. München:
Oldenbourg.
Spolsky, B. (2000). Language testing in the Modern Language Journal. The Modern Language
Journal, 84, 536-552.
Stevener, J. (2003). Aufmerksamkeit, Automatisierung und Monitoring: zur Forschungsmethodik.
Fremdsprachen Lehren und Lernen, 32, 98-114.
TELC. (2018). Wer wir sind. https://www.telc.net/ueber-telc/wer-wir-sind.html. Zuletzt gesehen
28.3.2018.
TestDaF-Institut. (2005). Musterprüfung 1. Ismaning: Max Hueber.
Traoré, S. (2016). Translation, intercultural communication and German as a foreign language.
Accesses, application possibilities, curricular approach. Ramkhamhaeng University
Journal, Humanities Edition, 35(1), 27-40.