Despre reprezentativitate în studiile din educație
Am mai scris despre acest subiect și am vorbit despre el în repetate rânduri, iar materialul de aici se bazează parțial pe ceva scris acum vreo trei ani, care mi se ceruse pentru Tribuna Învățământului. Chiar nu știu dacă s-a publicat atunci sau nu, dar de curând am fost din nou ”interpelat” de cineva cu privire la aspecte legate de reprezentativitate în diverse studii din educație. Evident discuția despre reprezentativitate a deraiat rapid spre sondaje politice, stresul descreierat al acestor zile – dar pentru a (emfatic) nu vreau sa merg acolo, o sa încerc să păstrez argumentele în zona de studii educaționale. Urmează așadar câteva idei despre reprezentativitate – cu integrarea unor bucăți din textul meu mai vechi.
***
Problema: Date de calitate pentru studiile care fundamentează politici publice
În educație, concluziile pe care le putem trage în urma testărilor pe scară largă în domeniul educațional – programe de evaluare de tipul evaluărilor naționale, PISA (Programme for International Student Assessment) al OECD, sau TIMSS (Trends in Mathematics and Science Study) al IEA – sunt în mod evident influențate de calitatea datelor pe care aceste studii le extrag.
Este natural ca până la urmă concluziile să nu poată fi mai corecte decât datele pe care se bazează – de aici și preocuparea cu date de cât mai bună calitate. Preocuparea aceasta este însă de foarte multe ori obtuză și nu ține cont nici de motivul fundamental pentru care avem nevoie de date de calitate și nici de abordările statistice care pot contrabalansa într-o bună măsură mici imperfecțiuni în eșantioane.
Departe de a face o apologie a datelor de slabă calitate, acest eseu discută nevoia de date bune și repercusiunile lipsei acestora – așa cum discută și câteva aspecte practice, care poate vor fi utile celor care discută în agora sau utilizează în politici publice rezultatele unor astfel de programe de evaluare.
În general, în eforturi de testare pe scară largă datele de bună calitate se echivalează cu date reprezentative. Cu alte cuvinte, reprezentativitatea datelor este considerată indicatorul ultim pentru calitatea unui studiu sau a unui eșantion. Acest lucru este normal din anumite puncte de vedere: oare cum am putea să extragem concluzii pertinente despre starea, sau despre diferențe între diverse grupuri, fără ca ele să se bazeze pe date care sunt reprezentative pentru sistemul educațional și/sau pentru grupurile vizate?
Reprezentativitatea unui eșantion este privită așadar ca scop în sine. Totuși, reprezentativitatea este doar un instrument pentru altceva – anume puterea de generalizare a rezultatelor respective. Caracteristica unui studiu – sau mai degrabă a concluziilor sale – de a fi generalizabile, de a putea fi reflectate la un nivel mai înalt decât cel la care au fost produse, de exemplu pentru a descrie o întreagă populație care nu a fost în mod direct și complet evaluată, este aspectul spre care tindem de fapt.
Paranteză: probabil că o să continui să mai scriu pe zona asta, anume ce face ca un studiu – mai bine zis concluziile sale – să fie generalizabil(e)? Ca să anticipez: reprezentativitatea este doar unul din ingredientele importante. Mai e nevoie de calitate (fidelitate și validitate) în instrumente, claritate în design, relevanță teoretică/ancorare conceptuală, analize statistice robuste etc. Dar asta pentru altă dată …
Un exemplu
De exemplu, dacă vom realiza un studiu privind motivele absenteismului într-o școală cu 20 de clase (cu o medie de 25 de elevi pe clasă, asta înseamnă 500 de elevi), pe baza unui eșantion care cuprinde câte 5 elevi din fiecare clasă, în ce măsură putem să ne bazăm pe rezultatele acestui studiu? Rezultatele reflectă fără doar și poate opiniile emise de cei 100 de elevi intervievați. Reflectă ele și realitatea din întreaga școală? Sau poate din toate școlile acelui oraș? Sau poate pentru întregul sistem de educație din România? O modalitate simplă de a ieși din dilemă ar fi să spunem ”nu – evident, aceste rezultate absolut nu sunt generalizabile”. Pe de altă parte, răspunsul corect este ”depinde”: depinde de procedura de eșantionare utilizată, depinde de metodologia utilizată, de întrebările puse și de atât de multe alte lucruri.
Acesta este motivul pentru care nici generalizabilitatea unei concluzii dintr-o cercetare educațională și nici reprezentativitatea unui eșantion nu sunt chestiuni de alb sau negru – diferența dintre ”a fi reprezentativ” și ”a nu fi reprezentativ” este o diferență treptată, calitativă. Putem chiar argumenta că nici un eșantion nu este, strict vorbind reprezentativ; un anumit nivel al erorii va exista întotdeauna, reprezentativitate perfectă niciodată.
Reprezentativitate în structura eșantionului
Eșantioanele non-randomizate, adică cele construite pe baza unor presupuneri, oricât de informate, stipulate anterior selecției, sunt în mod cert nereprezentative pentru variabile care exced presupunerile inițiale. De exemplu, dacă vom dori ca eșantionul nostru să fie reprezentativ în termeni de sex și vârstă (i.e., să reflecte structura bivariată sex x vârstă din populația generală a elevilor), acest lucru poate fi asigurat cu ușurință printr-o eșantionare stratificată pe cote – însă nu va însemna în nici un fel că structura eșantionului astfel rezultat va reflecta de exemplu procentele corecte în ceea ce privește mediul de proveniență (rural vs. urban).
Eșantioanele randomizate (aleatorii) au cea mai bună șansă de a rezolva această problemă – dar dincolo de dezideratul nobil, procedura efectivă de selecție (adică instrumentarea efectivă a randomizării) le face de cele mai multe ori, de fapt, cvasi-aleatorii. De exemplu, să presupunem că dezvoltăm o cercetare în care datele provin de la un eșantion randomizat (aleator) de elevi, care va fi obținut prin intervievarea fiecăruia al zecelea elev din fiecare școală din România. Până aici totul e corect – dar avem nevoie de o procedură concretă pentru a obține acest eșantion. Putem imagina o procedură care spune că vom trimite un intervievator în fața fiecărei școli din țară, care va opri fiecare al zecelea elev care iese de la școală în ziua X, pentru a-l intervieva. Chiar presupunând că toți cei opriți răspund și chiar făcând abstracție de problemele de etică (și chiar legalitate) care este posibil să apară (e.g., consimțământul informat din partea părintelui, pentru elevii minori), este probabil clar pentru toată lumea că această procedură nu va rezulta într-un eșantion cu adevărat randomizat, ci doar cvasi-randomizat – sunt atât de multe variabile care vor influența absența sistematică de la școală a unor elevi, mai degrabă decât a altor elevi. Această procedură de implementare a eșantionării este dependentă de faptul că elevii vin la școală – iar prin această procedură îi vom selecta doar pe cei care în acea zi au venit la școală. Apoi, elevii pe care îi ”prindem” în plasa acestei proceduri vor genera cel mai probabil o distribuție care se va abate de la distribuția populației vizate pe diverse variabile, unele vizibile (statut socio-economic, mediu de proveniență – pentru că absenteismul e mai mare în aceste grupuri), altele mai puțin evidente. Exemplu de distorsiune mai puțin evidentă: Știm că absenteismul variază și în funcție de condițiile meteorologice – în zilele cu ploaie sau cu temperaturi extreme, absentează mai mulți elevi: ar trebui ca pasul să fie ajustat în funcție de condițiile meteorologice constatate în acea localitate în acea zi? Am putea continua în acest fel – dar sunt convins că este evident că din multe motive, eșantionul care va rezulta nu va fi cu adevărat reprezentativ: dezideratul este nobil, dar procedura (instrumentarea) nu ne ajută. În fapt, nu există nici o procedură care să poate fi aplicată în mod realist, care să fie perfectă din acest punct de vedere.
Absenteismul din studiile de acest tip (inclusiv studii mari, precum celebrele PISA și TIMSS amintite mai sus) este non-aleator. De exemplu, se poate întâmpla cu ușurință ca în ziua examenului unii elevi să fie bolnavi și să nu poată participa – un eșantion care în teorie este echilibrat cu grijă se poate dezechilibra în acest fel. Sigur, dacă absențele sunt aleatorii, ele influențează minimal rezultatele – problema este că de regulă absențele nu sunt aleatorii. Știm de exemplu că absențele la evaluările naționale pentru clasele 2, 4 sau 6 sau pentru celebrele testări internaționale PISA sau TIMSS nu sunt distribuite uniform în toate grupele de elevi. Participarea elevilor în aceste programe de evaluare nu este obligatorie – da, este puternic recomandată și este încurajată de minister, dar nu este obligatorie. Și pe cât de încurajată este de minister pe atât de descurajată este de unii profesori, sau părinți. Părinții care nu își lasă copiii să participe în aceste testări au un anumit profil. Profesorii care descurajează proprii elevi să participe au și ei un anumit profil, școlile cu absenteism mare au un anumit profil și deci elevii care absentează au un anumit profil. Cu un absenteism care este în unele ediții și de 10-15% din întregul eșantion, absenteism care este în plus distribuit disproporționat pe considerente de mediu de proveniență și statut socio-economic (absentează cu precădere elevii din zone sărace), în ce măsură poate fi considerat un eșantion reprezentativ, chiar și atunci când el a fost construit cu foarte mare grijă? Ba, mai mult, în ce măsură pot fi considerate reprezentative în aceste condiții rezultatele unei testări naționale – adică a unui program de evaluare care nu a încercat deloc să eșantioneze, ci a încercat să măsoare întreaga populație?!
Reprezentativitate în procesele asociate performanței măsurate
Mai aduc în discuție o chestiune care nu e atât de mult cantitativă cât este calitativă, cu impact semnificativ asupra reprezentativității unui eșantion și a generalizabilității rezultatelor extrase pe baza datelor respective.
Noi presupunem, de cele mai multe ori naiv, că participanții dintr-un eșantion sunt cu toții egali în ceea ce privește motivarea pentru participarea la cercetare, sinceritatea cu care dau răspunsuri etc. Studiile arată însă că există diferențe între elevii care participă la o cercetare în ceea ce privește acest nivel de motivație. În studiile în care se culeg opinii, aceasta se răsfrânge asupra onestității cu care sunt date răspunsurile. Mai semnificativ, în studiile în care culegem date de performanță (de exemplu testări privind nivelul de literație/alfabetizare sau de competențe la o materie, să zicem matematică) implicarea elevilor în procesul de testare este critică. Testarea educațională este o testare de performanță înaltă, adică i se cere elevului să dea cât de mult poate, să se implice în rezolvarea rapidă și corectă a problemelor pe care i le prezintă testul. Dar oare câți dintre elevi, în cadrul acestor testări, se implică de fapt cu adevărat la acest nivel maximal de funcționare cognitivă?
Studiile ne arată că, mai ales atunci când rezultatele testării nu au consecințe directe asupra elevului (cum este cazul pentru majoritatea testărilor care nu produc note), elevii nu resimt o motivație deosebită și că, mai mult, diferențele de motivație nu sunt distribuite aleator în populația școlară, ci sunt asociate cu alte variabile cum ar fi de exemplu … da, din nou: statutul socio-economic, mediul familial etc. În medie, elevii care provin din medii defavorizate sunt mai puțin motivați la astfel de testări fără miză și prin urmare vor reflecta performanțe care sunt mai reduse decât ar fi putut fi. Statutul socio-economic este asociat așadar nu doar cu o diferență de performanță, ci de asemenea cu o diferență de motivație, care face ca diferența constatată de performanță să fie și mai mare decât ar fi fost oricum – pe baza unor statistici care nu ajustează rezultatele în funcție de nivelul de motivație, diferența rural-urban e posibil să fie exacerbată.
Atunci când procesul de testare implică o miză pentru elevi, problema motivației diferențiale nu se mai pune. Acesta este de exemplu cazul Bacalaureatului sau evaluării naționale de clasa a opta – este o presupunere rezonabilă că toți elevii care participă vor să obțină o notă cât mai bună, deci se implică pe cât de bine pot în rezolvarea testelor. Dar, chiar și în aceste condiții de motivație suficientă a tuturor elevilor care participă, eșantioanele care rezultă din evaluarea anuală de Bacalaureat sau din diversele evaluări naționale nu sunt reprezentative: absenteismul este non-aleator.
Avem așadar o problemă fundamentală legată de reprezentativitatea în aceste tipuri de testări educaționale: ele nu pot fi niciodată cu adevărat și pe deplin reprezentative, iar rezultatele extrase din aceste date, de regulă culese cu multă trudă, nu pot fi niciodată cu adevărat generalizabile. Cercetătorii vor face eforturi și vor explica limitele – iar cârcotașii vor găsi întotdeauna de ce să se agațe când va fi nevoie să construiască un argument împotriva concluziilor rezultatele. Căci, după cum bine știm, cel mai simplu mod în care putem dărâma o concluzie care nu ne este pe plac este atacul la rădăcină: calitatea datelor din care acea concluzie a rezultat.
Soluții tehnice
Totuși, știința nu tratează această problemă serioasă chiar cu naivitate: există modalități în care se pot rezolva probleme ce provin din datele obținute în acest fel. Două din aceste abordări sunt în mod special cunoscute și utilizate.
Prima abordare vine într-o tradiție a sociologiei, utilizată de decenii bune în sondajele de opinie: ponderarea (weighting) participanților. Există mai mult feluri în care se poate realiza ponderarea, dar toate aceste proceduri statistice realizează în esență același lucru: corectează dezechilibrele existente la nivelul unor variabile predictor (de regulă variabile demografice) între ceea ce se constată la nivelul eșantionului și ceea ce se cunoaște din punctul de vedere al distribuției acelorași variabile la nivelul populației. Un exemplu (supra-simplificat): dacă știm că la nivelul populației școlare fetele și băieții sunt reprezentați egal (50-50%), dar în eșantionul nostru avem de două ori mai multe fete decât băieți (67-33%), putem să dăm o pondere dublă fiecărui băiat din baza de date – ceea ce ar fi echivalent cu a dubla băieții existenți în baza de date. Evident, acesta este un caz simplu – ponderările se fac de regulă pe baze multivariate, nu univariate și diversele cazuri din baza de date primesc ponderi în funcție de un număr mai mare de astfel de variabile demografice.
Ponderarea este o modalitate excelentă de a extrage totuși concluzii generalizabile – aplicabile la nivelul populației întregi – chiar și în cazuri în care eșantionul nu a fost complet și perfect reprezentativ. Nu vreau să glorific ponderarea – de exemplu, ea nu poate rezolva distorsiunile de selecție, în mod special pe cele de auto-selecție în cercetări de tip opt-in – iar apoi mai are o seamă de limite (cât de mult poți să crești sau să scazi ponderea unui grup sau a unei persoane? Dublat? Triplat? Înzecit?). Însă, da, e o soluție relativ elegantă care poate fi aplicată pentru a rezolva lipsa de reprezentativitate în cercetările educaționale.
A doua abordare vine dintr-o tradiție psihometrică și se bazează pe o clasă de modele statistice cunoscută sub denumirea de Teoria Răspunsului la Item (Item Response Theory). Aceste modele permit cea mai fină și coerentă abordare cunoscută la acest moment pentru măsurarea caracteristicilor umane intangibile – variabile psihologice, cunoștințe sau competențe. Printre altele, centrarea acestor modele pe calitatea itemilor permit estimarea unor parametri care descriu acești itemi, parametri care, odată calculați, nu sunt dependenți de populația în care se desfășoară măsurarea (îi spunem acestui fenomen ”invarianță a parametrilor”). Cu alte cuvinte, nu mai contează dacă eșantionul unui studiu este reprezentativ sau nu, dacă parametrii itemilor (sau parametrii unui număr suficient de itemi) au fost calculați pe baza unor eșantioane reprezentative. Rezultatele pot fi apoi raportate în centile relative la populația generală și nu la eșantionul utilizat pentru studiu – ceea ce este un avantaj extraordinar, evident, căci permite descrierea unor eșantioane (de exemplu, a elevilor dintr-o școală, sau dintr-un județ) fără să fie nevoie ca aceste eșantioane să fie extrase randomizat sau ca acestea să reflecte în alt fel distribuția populației de referință pe baza unor variabile demografice.
Concluzii
Ce înseamnă toate aceste lucruri pentru situațiile concrete în care e posibil să ne găsim? Implicațiile sunt multiple și punctez aici câteva dintre ele.
- E important să tindem spre eșantioane cât mai bine echilibrate, pe cât posibil reprezentative – ocazionalele abateri dintr-un eșantion pot fi compensate, dar erorile fundamentale niciodată.
- Reprezentativitatea e o caracteristică importantă a unui eșantion – dar nu cea mai importantă și nu ar trebui glorificată ci discutată în ansamblul tuturor dovezilor privind capacitatea de generalizare a concluziilor, dovezi care includ și alte aspecte metodologice decât doar compoziția eșantionului.
- Reprezentativitatea nu e o chestiune de ”da” sau ”nu” ci judecarea ei necesită un raționament mai fin, de tip calitativ, împreună cu argumente lucide privind consecințele posibile ale unor abateri care e posibil să apară (”limitări”).
- Soluții perfecte nu există din punctul de vedere al selectării eșantioanelor pe care le utilizăm în testările educaționale – cu atât mai mult este nevoie de gândire critică cu privire la ”adecvarea” și nu la ”corectitudinea” unui eșantion. În extrem, nici analizele pe baza datelor de la Bac sau de la evaluarea națională de a VIII-a nu sunt reprezentative – dar sunt adecvate pentru scopul pe care îl au.
- Chiar dacă eșantioanele studiilor noastre au ocazional limite, acest lucru nu înseamnă că suntem condamnați să nu putem trage concluzii relevante despre nimic. Chiar și concluzii extrase din date care sunt imperfecte pot fi utile și importante.
- Nu trebuie ignorate tehnologiile psihometrice mai avansate, precum teoria răspunsului la item, care rezolvă o mare parte din problemele dependenței directe de eșantion și care fac posibile conectarea (”linking”) și echivalarea (”equating”) unor studii realizate pe eșantioane diferite, la momente diferite de timp.
- Pentru a face astfel de ajustări și a utiliza aceste tehnologii avem nevoie de specialiști în această relativ nou apărută ramură științifică interdisciplinară: ea îmbină modelele matematice de predicție cu principii ale educației și psihologiei. Avem nevoie teribilă de programe educaționale avansate (probabil la nivel doctoral) care să dezvolte această competență pentru instituțiile care lucrează cu date la acest nivel înalt de volum și complexitate.