Elementy teorii testów osiągnięć szkolnych

1 Elementy teorii testów osiągnięć szkolnychRoman Dolata ...
Author: Angelika Łaszczewski
0 downloads 1 Views

1 Elementy teorii testów osiągnięć szkolnychRoman Dolata Wydział Pedagogiczny UW

2 Kontakt Roman Dolata Dyżury Poczta Piątki od 16 do 17, s. 314

3 Co to jest test? (Daniel Koretz)Mała próbka zadań, której używamy do oszacowania opanowania przez uczniów szerokiego wachlarza wiadomości i umiejętności (Daniel Koretz) Cechy formalne testu: - obiektywność standaryzacja liczbowa postać wyniku

4 Podstawowe pojęcia statystyczne przydatne przy konstrukcji testów i analizie ich wyników

5 Rozkład liczebności Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887

6 Rozkład procentowy Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887

7 Rozkład skumulowany, procentowy Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887

8 Podstawowe parametry rozkładu 1Podstawowe parametry rozkładu 1. Miary tendencji centralnej i inne miary pozycji Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887 Średnia arytmetyczna x: 22,6 Mediana Me: 23 Pierwszy kwartyl (25 percentyl): 17 Drugi kwartyl (mediana, 50 percentyl): 23 Trzeci kwartyl (75 percentyl): 28

9 Jak wyznaczamy medianę i kwartylePorządkujemy wszystkie uzyskane wyniki od najmniejszego do największego ( wyników, najpierw zera, potem jedynki itd.) Poczynając od wyników najniższych szukamy takiego wyniku, że: a) 25% wyników jest od niego niższych, a 75% wyższych – pierwszy kwartyl b) 50% wyników jest od niego niższych, a 50% wyższych – drugi kwartyl, mediana c) 75% wyników jest od niego niższych, a 25% wyższych – trzeci kwartyl minimum 1. kwartyl mediana 3.kwartyl maksimum 25% wyników 25% wyników 25% wyników 25% wyników

10 Podstawowe parametry rozkładu 2Podstawowe parametry rozkładu 2. Miary zmienności wyników Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887 średnia 3. kwartyl 1. kwartyl Wariancja: 58,2 Odchylenie standardowe: 7,6 Odchylenie kwartylowe (ćwiartkowe): 11

11 Porównanie dwóch rozkładów Sprawdzian 2009, szkoły publiczne i niepublicznemiara Publiczne n=393982 Niepubliczne n=6905 Średnia 22,6 27,4 Mediana 23 29 1. kwartyl 17 22 3. kwartyl 28 34 Wariancja 57,7 60,4 Odchylenie standardowe 7,6 7,8 Roztęp ćwiartkowy 11 12

12 Porównanie dwóch rozkładów Sprawdzian 2009, dwie szkołymiara SP A n=132 SP B n=143 Średnia 28,9 24,9 Mediana 29 25 1. kwartyl 18 3. kwartyl 33 Wariancja 26,0 83 Odchylenie standardowe 5,1 9,1 Roztęp ćwiartkowy 8 15

13 Badanie współzmienności wyników dwóch testówCzy zmianom jednej zmiennej towarzyszą zmiany drugiej zmiennej? Analiza graficzna: wykresy rozrzutu Możliwe do zastosowania statystyki: - współczynnik korelacji r Pearsona - współczyniki regresji

14 Korelacja dodatnia (pozytywna) współczynnik korelacji wyższy od zera

15 Korelacja ujemna (negatywna) współczynnik korelacji niższy od zera

16 Brak korelacji (zerowa) współczynnik korelacji bliski zeru

17 Korelacja nieliniowa

18 Konstruowanie testów osiągnięć szkolnych

19 Testy osiągnięć a testy zdolnościtesty poznawcze testy osiągnięć związane z określonymi kursami testy osiągnięć szeroko zorientowane słowne testy inteligencji bezsłowne i wykonaniowe testy inteligencji testy inteligencji wolne od wpływów kulturowych

20 Typy testów osiągnięć szkolnychDo pomiaru indywidualnej cechy lub cechy grupy Indywidualne: Przesiewowe (minimum kompetencji) Szerokiego stosowania Selekcyjne Testy różnicujące i testy kryterialne Testy mocy i testy szybkości Koncepcja oceniania kształtującego

21 Konstrukcja testu – podejście klasyczne

22 Schemat konstrukcyjny testów osiągnięć szkolnychCele kształcenia Zadania testowe Badania pilotażowe – wybór zadań, określenie rzetelności testu Ostateczna postać testu Wynik surowy Skalowanie Wynik testu Normy wykonania

23 Elementy składowe testu1. Lista celów edukacyjnych 2. Plan testu 3. Zadania testowe 4. Schematy punktacji 5. Kwestionariusz testu 6. Instrukcja przeprowadzenia testu (standaryzacja sytuacji testowej) 7. Normy wykonania testu: ilościowe i treściowe

24 Zadania testowe: klasyfikacjaPraktyczne W sytuacji naturalnej Prowokowane „Papier ołówek” Otwarte Krótkiej odpowiedzi Rozbudowanej odpowiedzi Zamknięte Prawda-fałsz Na dobieranie Wielokrotnego wyboru Porządkowanie listy

25 Trafność testu

26 Trafność testu Podejście dydaktyczne: test jest trafny, gdy:uczniowie wykonują, te operacje umysłowe, na których nam zależy możemy dostać na to dowód

27 Trafność testu Aspekt trafności: DydaktycznyCzy zadania sprawdzają przyswojenie wiadomości i umiejętności przewidzianych w programie Fasadowy Czy test zdaniem użytkowników i odbiorców jest adekwatny Kryterialny Czy wynik testu koreluje z uznanymi miarami danego zasobu wiedzy lub ich korelatami Prognostyczny Czy test pozwala prognozować przyszłe osiągnięcia Interpretacyjny Czy wynik jest właściwie interpretowany i na jego podstawie podejmowane są adekwatne decyzje Konsekwencyjny Jakie konsekwencje społeczne niesie za sobą stosowanie testu

28 Metody analizy trafnościAnaliza treściowa testu Analiza jakościowa rozwiązywania zadań: wywiady pogłębione z uczniem (Jak rozwiązywałeś to zadanie?) Analiza statystyczna: związek z innymi miarami odniesienia

29 Rzetelność testu

30 wynik empiryczny = wynik prawdziwy + błąd pomiaruRzetelność testu Każdy pomiar obarczony jest niepewnością pomiarową Klasyczne ujęcie niepewności pomiarowej wynik empiryczny = wynik prawdziwy + błąd pomiaru Wynik prawdziwy: średni wynik z nieskończonej liczby powtórzeń testu

31 Błąd pomiaru Wynik ucznia w teście Uczeń Wyniki Niskie WysokieMierzymy umiejętność ucznia i otrzymujemy jakiś wynik. Niskie Wysokie Wyniki 31

32 Błąd pomiaru Wynik ucznia w teście Uczeń Wynik prawdziwy Wyniki NiskieWynik uzyskany na teście nie musi być tożsamy z wynikiem „prawdziwie” charakteryzującym ucznia. Empiryczny wynik testu reprezentujący poziom umiejętności może być niespójny z prawdziwym poziomem umiejętności ucznia, z jego prawdziwą wiedzą i umiejętnościami. Testy nie są idealne, warunki testowania są różne, egzaminatorzy różnie reagują na dane prace i różnie je oceniają; w pewnych warunkach o wyniku (jeżeli mamy do czynienia z pytaniami zamkniętymi o poprawnej odpowiedzi) może przesądzić los. Niskie Wysokie Wyniki 32

33 Błąd pomiaru Wynik ucznia w teście Wynik prawdziwy Uczeń Błąd pomiaruRóżnica między wynikiem prawdziwym a wynikiem pomiaru nazywana jest błędem pomiaru. Błąd pomiaru Niskie Wysokie Wyniki 33

34 Główne źródła błędu pomiaru w testach osiągnięć szkolnychArbitralność doboru zadań testowych Niedostatki standaryzacji procedury testowej Zgadywanie w zadaniach zamkniętych Ocena wykonania zadań otwartych Ściąganie Losowe wahania dyspozycji intelektualnych ucznia Błędy systematyczne: stronniczość testu

35 Metody ilościowego określania rzetelności wyniku testuDwukrotne testowanie Korelacja między wynikami dwóch testów Metoda połówkowa Korelacja między wynikami dwóch połówek testu Wewnętrzna spójność testu Współczynnik rzetelności Alfa Cronbacha

36 Współczynnik rzetelności Alfa CronbachaRzetelność jest to stosunek zróżnicowania wyniku prawdziwego do zróżnicowania wyniku uzyskanego na podstawie testowania (będącego sumą zróżnicowania wyniku prawdziwego oraz zróżnicowania błędu pomiaru)

37 Intertretacja ws. Alfa Cronbacha

38 Wykorzystanie wsp. rzetelności w interpretacji wyniku testuPrzykładowa informacja o wyniku ucznia dla rodziców, Massachusets, MCSA 2002 Prawdopodobieństwo że wynik ucznia znajduje się w przedziale wyznaczonym przez oddcinek wynosi 95%

39 Idea szacowania przedziału ufnościWynik ucznia w teście Uczeń Wyniki prawdziwe mogą być różne. My niestety obserwujemy nie wynik prawdziwy, ale wynik testowania. Niskie Wyniki Wysokie 39

40 Idea szacowania przedziału ufnościUczeń Niskie Wyniki Wysokie

41 Idea szacowania przedziału ufnościUczeń Niskie Wyniki Wysokie

42 Idea szacowania przedziału ufnościUczeń Który z nich jest prawdziwy? Nie wiemy bo to co jest nam dane to tylko wynik uzyskany na tescie Niskie Wyniki Wysokie 42

43 Idea szacowania przedziału ufnościPrzedział ufności Uczeń Dlatego konstruujemy przedziały ufności, które pokazują przedział, w którym wyniki prawdziwe mogą się znaleźć. Niskie Wyniki Wysokie 43

44 Idea szacowania przedziału ufnościRzetelność testu Wyniki Wysokie Niskie Wynik mało prawdopodobny (2,5%) Funkcja prawdopodobieństwa Wynik prawdopodobny (95%) Wynik ucznia 44

45 Rzetelność oceny zadań otwartych – opis eksperymentu Na podstawie: RRzetelność oceny zadań otwartych – opis eksperymentu Na podstawie: R. Dolata, E. Putkiewicz, A. Wiłkomirska Reforma egzaminu maturalnego: oceny i rekomendacje Instytut Spraw Publicznych, badanie sfinansowane przez MENiS

46 Analiza rzetelności systemów punktacjiPrzedmiotem analiz były systemy punktacji przygotowane na maturę 2002: Język polski - wypracowania (arkusz I i III), rozumienie czytanego tekstu (arkusz II). Historia – test i interpretacja źródeł (arkusz I i II). Matematyka – poziom podstawowy i rozszerzony (arkusz I i II).

47 Procedura badania rzetelnościDobór prac. Przygotowanie prac do ponownego sprawdzania. Dobór egzaminatorów.

48 Problem trafności ekologicznej eksperymentuCzynniki mogące zawyżać oszacowanie rzetelności: - dobór egzaminatorów (posługiwanie się dobrze znanym schematem punktacji), - pominięcie opcji (polski, historia). Czynniki mogące zaniżać oszacowanie rzetelności: - upływ czasu, - brak procedur oceniania grupowego

49 Metoda badania rzetelności systemów punktacjiKażda praca była niezależnie sprawdzana przez ośmiu egzaminatorów. Problem wielkości próbki. Zbiór danych (dla każdego kryterium): Lp E1 E2 E3 E4 E5 E6 E7 E8 1. 31 25 35 36 21 27 2. 55 41 59 26 54 3. 48 49 51 50 47 52 50. 18 19 20

50 Model analizy statystycznej

51 Wyniki analizy rzetelności punktacji dla wypracowania, arkusz IIIEfekt jakości pracy Prosty efekt egzaminatora Interakcyjny efekt egzaminatora

52 Efekt egzaminatora dla przykładowych wypracowańLp. Średnia ocena Rozrzut ocen (SD) Minimalna Maksymalna 39 60,3 18,9 29 86 48 46,9 18,5 11 67 18 43,4 18,2 24 72 28 57,5 17,1 33 80 06 46,0 16,6 19 77

53 Co odpowiada za niską rzetelności systemu punktacji arkusza III?Zawiodła przede wszystkim kryterialna skala rozwinięcia tematu (rzetelność=54%). Zła budowa skal szacunkowych: skala kompozycji (rzetelność=33%), skala stylu (rzetelność=31%), skala poprawności językowej (rzetelność=34%). Użyto z założenia subiektywnej skali szczególnych walorów pracy (rzetelność=23%).

54 Najmniej i najbardziej rzetelne kryterium skali rozwinięcia tematu, arkusz IIIDostrzeżenie roli puenty w Lekcji łaciny (przeciwstawienie poezji łacińskiej i wkroczenia barbarzyńców) Kryterium 15.1.: 14% Za pogłębione wnioski Ogólna prawidłowość: im wyższy poziom taksonomiczny, tym niższa rzetelność kryterium.

55 Przykład wadliwie skonstruowanej skali szacunkowejSkala poprawności językowej wypracowania Na skali wyróżniono 4 punkty: 0, 5, 10 i 21 pkt. Oto ich opis: 0 – brak opisu, 5 – w większości poprawna składnia i frazeologia, zgodna z normą fleksja, nieliczne usterki leksykalne oraz nieliczne błędy ortograficzne i interpunkcyjne, 10 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą fleksja, sporadycznie pojawiają się błędy ortograficzne i interpunkcyjne, 21 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą fleksja i ortografia, rzadko pojawiające się błędy interpunkcyjne.

56 Zestawienie wyników analizy rzetelności systemów punktacjiArkusz Rzetelność Prosty efekt egzaminatora Interakcyjny efekt egzaminatora Polski, arkusz I 55% 16% 29% Polski, arkusz III 49% 22% Polski, arkusz II 80% 7% 13% Historia, arkusz I 95% 2% 3% Historia, arkusz II 58% Matematyka, arkusz I 99% 1% 0% arkusz II 97%

57 Koniec opisu eksperymentu

58 Zapewnianie rzetelności testu: analiza mocy różnicującej zadań testowych Krzywe charakterystyczne dla trzech zadań ze Sprawdzianu 2010

59 Zadanie X

60 Zadanie Y

61 Zadanie Z

62 Skalowanie wyniku Jaki rozkład ma wynik testu w populacji docelowej?Normalizacja wyniku Standaryzacja wyniku

63 Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15Egzamin 1 Egzamin 2 Egzamin 3 Wyniki pierwotne Rysunkowe przedstawienie zrównywania wyników. Jest chyba na tyle przedstawiona sugestywnie przedstawiona, że nie wymaga ode mnie wyjaśnień.

64 Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15Egzamin 1 Egzamin 2 Egzamin 3 Wyniki pierwotne Wyniki znormalizowane

65 Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15Egzamin 1 Egzamin 2 Egzamin 3 Wyniki pierwotne Wyniki znormalizowane Wyniki po przejściach

66 Rozkład normalny

67 Standaryzacja Skala standaryzowana - skala przedstawiająca wyniki pomiarów uzyskanych z dowolnej skali w postaci jednostek odchylenia standardowego, czyli tzw. wyników standaryzowanych Zastosowanie skal standaryzowanych wynika z potrzeby porównywania wyników uzyskanych na dwóch (lub więcej) skalach pomiarowych o odmiennych właściwościach i przez to bezpośrednio nieporównywalnych Najczęściej spotykanym sposobem standaryzacji jest tzw. standaryzacja Z którą można wyrazić poniższym wzorem gdzie: Zi - zmienna standaryzowana SD - odchylenie standardowe w grupie X - średnia w gupie Xi – wynik i-tego ucznia 67

68 Skala wyników standaryzowanych zUzyskane w ten sposób wartości wyników standaryzowanych przyjmują wartości dodatnie lub ujemne, w zależności od tego, czy odchylają się w górę, czy w dół od wartości średniej. 68

69 Relacje pomiędzy pięcioma skalami standardowymiAutor, dr H. Szaleniec Relacje pomiędzy pięcioma skalami standardowymi

70 Skala staninowa

71 Wprowadzenie do IRT (probabilistyczna teoria odpowiedzi na zadanie testowe)

72 Schemat konstrukcyjny testów osiągnięć szkolnych Item Response TheoryCele kształcenia Zadania testowe Badania pilotażowe – wybór zadań do banku i określenie ich parametrów Bank zadań Wiele możliwych wersji testu Pilotaż wersji przeznaczonych do danego zastosowania Skalowanie Wynik testu Normy wykonania

73 Podstawowe założenia i cechy IRTWykonanie zadania testowego zależy od poziomu ukrytej (bezpośrednio nieobserwowalnej) dyspozycji umysłowej Skala pomiarowa jest kumulatywna Poziom ukrytej dyspozycji wyznacza prawdopodobieństwo poradzenia sobie z danym zadaniem testowym (uwzględnienie czynników losowych) Jedno- lub wielowymiarowość danego testu Model zależności ukryta dyspozycja - radzenie sobie z zadaniem podlega empirycznemu testowi (zgodność modelu z danymi) Trudność zadań i poziom ukrytej dyspozycji umysłowej ucznia można lokować na jednej skali

74 Jak rozumieć pojęcie ukrytej dyspozycji?

75 Interpretacja związku między poziomem wykonania dwóch zadańAnaliza dla zadań 0-1 zadanie 2 wykonał nie wykonał zadanie 1 a b a+b c d c+d a+c b+d a+b+c+d

76 Brak korelacji między dwoma zadaniamiΦ=0,0 zad.1 zad. 2 zad. 2 1 zad. 1 25 dysp. x dysp. y niezależne dyspozycje

77 Korelacja pozytywna między dwoma zadaniamiΦ=1,0 zad.1 zad. 2 zad. 2 1 zad. 1 50 dysp. x wspólna dyspozycja

78 Odkrywanie ukrytych wymiarówAnalizując empiryczne powiązania między zadaniami odkrywamy ukryte dyspozycje umysłowe mierzone przez dany test Do wyjaśnienia radzenia sobie z danym zbiorem zadań może wystarczyć jedna (test jednowymiarowy) lub kilka (wielowymiarowy) ukrytych dyspozycji umysłowych W praktyce stosuje się jednowymiarowe modele IRT

79 Jak rozumieć kumulatywność skali pomiarowej?

80 Zależności kierunkowe między zadaniami1 zad. 1 50 20 30 wspólna dyspozycja

81 Trzy wiązka trzech zadań tworzy kumulatywną skalę?wspólna dyspozycja

82 Sprawdzanie, czy wiązka trzech zadań spełnia warunek kumulatywności (skalogram Guttmana)Wzorzec odpowiedzi Liczba przypadków Wynik surowy Wynik skalowy Wzorce zgodne 000 15 100 25 1 110 30 2 111 20 3 Wzorce niezgodne 101 5 010 011 001 razem

83 Jak uwzględniamy działanie czynników losowych?

84 Prosty determinizm poziom dyspozycji  radzenie sobie z zadaniemradzi sobie z zadaniem 1 prawdopodobieństwo poradzenia sobie z zadaniem nie radzi sobie z zadaniem niski poziom dyspozycji umysłowej wysoki

85 Związek probabilistyczny – model prostoliniowy1 prawdopodobieństwo poradzenia sobie z zadaniem niski poziom dyspozycji umysłowej wysoki

86 Związek probabilistyczny – model logistyczny1 prawdopodobieństwo poradzenia sobie z zadaniem niski poziom dyspozycji umysłowej wysoki

87 Jak empirycznie testujemy teorię związku poziomu dyspozycji umysłowej z radzeniem sobie z danym zadaniem?

88 Przykład modelu dobrze dopasowanego do danych1 prawdopodobieństwo poradzenia sobie z zadaniem niski poziom dyspozycji umysłowej wysoki

89 Przykład modelu źle dopasowanego do danych1 prawdopodobieństwo poradzenia sobie z zadaniem niski poziom dyspozycji umysłowej wysoki

90 Lokowanie zadania na skali Zadanie x 1,0 0,5 prawdopodobieństwo poradzenia sobie z zadaniem niski poziom dyspozycji umysłowej wysoki

91 Zestaw 5 zadań tworzących skalę niski poziom dyspozycji umysłowej wysoki

92 Określanie trudności tych zadań niski poziom dyspozycji umysłowej wysoki

93 Lokowanie ucznia na skali  Metoda największej wiarygodnościWarunkowe prawdopodobieństwo poradzenia sobie z zadaniem Jaś: 110-- Małgosia: --110 Zad. 1 Zad. 2 Zad. 3 Zad. 4 Zad. 5 -3 0,15 0,05 0,01 0,007 0,001 -2 0,50 0,070 -1 0,90 0,383 0,95 0,428 0,074 1 0,99 0,094 2 0,049 3 0,010