Formatives Assessment stellt einen wirksamen Ansatz dar, Unterricht auf Basis diagnostischer Informationen anzupassen. Eine vor allem im sonderpädagogischen Kontext genutzte Form formativen Assessments ist die sogenannte Lernverlaufsdiagnostik, bei der anhand hoch ökonomischer, paralleler Tests in kurzen zeitlichen Abständen die Leistungsentwicklung von Schülerinnen und Schülern in zentralen Kompetenzen erfasst wird. Herausforderungen bei der Lernverlaufsdiagnostik betreffen zum einen die Konstruktion gleich schwieriger Tests sowie die empirische Prüfung der Äquivalenz. Das Ziel des vorliegenden Projektes war, die Eignung eines regelgeleiteten Konstruktionsanasatzes für die Entwicklung äquivalent schwieriger Lesetests zu untersuchen, sowie die psychometrische Güte der Testreihe zu analysieren. Ein besonderer Fokus lag hierbei auf der Äquivalenz der Paralleltests. Im Projekt wurden zunächst schwierigkeitsgenerierende Merkmale auf Wort-, Satz- und Textebene identifiziert, die im Anschluss systematisch zur Konstruktion äquivalenter Testitems zur Erfassung von Leseleistungen auf Wort-, Satz- und Textebene kombiniert wurden. Anhand umfangreicher längsschnittlicher Daten aus zwei Teilstichproben wurden die psychometrischen Voraussetzungen der Testreihe überprüft. Folgende zentrale Ergebnisse wurden gefunden: (1) Die angenommene dreifaktorielle Struktur der Lesetests ließ sich bestätigen. (2) Die neuentwickelte Testreihe erwies sich als reliables und sensitives Instrument, um Lernzuwächse im Lesen bei Schülerinnen und Schülern zu erfassen. (3) Die regelgeleitete Itemkonstruktion konnte erfolgreich für die Entwicklung äquivalent schwieriger Lesetests genutzt werden. (4) Wie erwartet beeinflussten die identifizierten Merkmale sowohl die Itemschwierigkeit als auch die Itemlatenz. (5) Die Sensitivität der Items konnte nicht durch die zur Konstruktion verwendeten Merkmale prädiziert werden. Das Projekt umfasste zudem eine umfassende Validierung des neuen Verfahrens. Hierzu wurden kriteriale sowie konstruktkonvergente und –divergente Maße erhoben. Die durchgeführten Analysen zeigen: (1) hohe Korrelationen der neuentwickelten Lesetests mit qualitativen und quantitativen Lehrereinschätzungen der Leseleistungen ihrer Schülerinnen und Schüler. (2) Das Korrelationsmuster mit standardisierten Lese-, Intelligenz- und Mathematiktests unterstreicht die konvergente und divergente Validität des Verfahrens. (3) Der mit der Testreihe erfasste Lernzuwachs ist prädiktiv valide für die Leseleistungen zum Schuljahresende und zwar inkrementell zu statusdiagnostischen Informationen aus standardisierten Lesetests. (4) Der mit quop-L2 erfasste Lernzuwachs korreliert positiv mit der anhand standardisierter Lesetests erfassten Kompetenzzunahme der Schülerinnen und Schüler auf Satz- und Textebene, jedoch nicht auf Wortebene. Die Ergebnisse sind im Einklang mit vorherigen Befunden zur regelgeleiteten Konstruktion von figuralen und numerischen Aufgabeninhalten (vgl. Freund, Hofer, & Holling, 2008; Holling, Bertling, & Zeuch, 2009) und zeigen, dass eine regelgeleitete Itemkonstruktion einen fruchtbaren Ansatz zur Entwicklung äquivalent schwieriger Tests zur Lernverlaufsdiagnostik darstellt. Zukünftige Arbeiten sollten sich insbesondere der Identifikation von Merkmale widmen, die die Sensitivität von Items prädizieren können.