Dragos Iliescu

    • Bio
    • Academic career
    • Entrepreneurship
    • Books
    • Publications
      • Papers
      • Chapters
      • Policy papers
      • Software
      • Tests
    • Blog
    • Media
    • Contact

    Dragos Iliescu

      • Bio
      • Academic career
      • Entrepreneurship
      • Books
      • Publications
        • Papers
        • Chapters
        • Policy papers
        • Software
        • Tests
      • Blog
      • Media
      • Contact

    Copyright © 2025

    • By dragos_admin
    • In Blog
    • February 7, 2026

    Despre eșantionare și reprezentativitate – câteva idei

    Scriu această postare pentru a explica un pic, cât de simplu voi putea, câteva lucruri despre eșantionare și reprezentativitate. Le-am mai explicat și altminteri dar sunt frapat de cât puțin este înțeles acest domeniu, uneori de colegi și alteori de jurnaliști. Esența postării este aceasta: reprezentativitatea nu e o caracteristică a eșantionului ci o caracteristică a unei estimări, bazată pe un eșantion. În funcție de tipul de eșantionare, conceptul de ”reprezentativitate” poate să aibă sau nu sens (da, pentru unele tipuri de eșantionare, ”reprezentativitate” nu are sens deloc). În funcție de estimarea făcută (indicele statistic calculat), reprezentativitatea se exprimă în alt fel.

    Sper să fiu suficient de lucid aici în explicații. Nu e chiar atât de greu, dar nu e nici simplu-simplu. Deci, here we go – să îmi dați feedback la final 😊.

    * * *

    Pentru început, de unde cred eu că vine problema: din faptul că majoritatea (și includ aici chiar și unii oameni care au formare științifică) are ca singură sursă de familiarizare cu conceptul de reprezentativitate sondajele politice. În sondajele politice avem o convergență a două realități: eșantionarea este de regulă eșantionare aleatoare simplă iar indicii calculați (estimările) sunt rapoarte (procente). Adică: a% dintre cei chestionați sprijină partidul A și b% preferă partidul B. În acest caz, putem exprima marja de eroare (margin of error, MOE) ca un plus-minus x%. Referitor la studiile publicate de curând și realizate pentru UNICEF, nici una din aceste două caracteristici nu sunt prezente: eșantionarea nu este aleatorie simplă și ceea ce raportăm nu sunt procente.

    O să explic de aceea un pic, nu foarte în profunzime, ce este reprezentativitatea asta – la mine pe blog mai găsiți o postare în care o explic, poate un pic din alt unghi – și apoi marja de eroare, efectul de design. În fine, exemplific cu niște calcule aplicate pe aceste cercetări.

    1. Reprezentativitatea eșantionului

    Este important de subliniat din nou că reprezentativitatea statistică nu este o proprietate absolută a unui eșantion (așa cum în mod teribil de eronat este de regulă înțeleasă), ci este dependentă de nivelul de agregare și de scopul analizei. Studiul a fost proiectat pentru analize robuste la nivel național, comparații între mari structuri teritoriale și niveluri de învățământ, precum și analize psihometrice și educaționale care necesită eșantioane mari și diverse, nu estimări administrative locale.

    La nivel național. Eșantionul este reprezentativ la nivel național, în sens statistic, pentru populația țintă a studiului, la nivelul variabilelor analizate, având în vedere următoarele elemente de design (exemplific aici pe studiul de alfabetizare științifică, dar e similar la cel de alfabetizare digitală):

    • cadrul de eșantionare a fost constituit din baza de date națională SIIIR, care acoperă exhaustiv populația elevilor și a unităților de învățământ din România;
    • selecția a fost realizată aleatoriu, utilizând o procedură de eșantionare stratificată după zonele de dezvoltare ale țării;
    • dimensiunea eșantionului este mare (745 clase participante), iar rata de participare este ridicată (89.86%);
    • eșantionul a fost intenționat supradimensionat pentru a controla riscul de non-răspuns și pentru a menține stabilitatea estimărilor.

    În acest sens, rezultatele pot fi generalizate la nivel național, cu precauțiile standard aferente oricărui design complex (clusterizat și stratificat).

    La nivel județean. Eșantionul nu este reprezentativ statistic la nivel județean, iar acest lucru este intenționat și metodologic justificat. Designul studiului nu a fost construit pentru estimări punctuale sau comparații robuste la nivel de județ și nici pentru raportări județene cu marje de eroare controlate. Numărul de clase selectate per județ nu asigură, în mod sistematic, putere statistică suficientă pentru inferențe județene stabile. Orice interpretare la acest nivel ar fi exploratorie și nu inferențială.

    2. Marja de eroare și efectul de design

    Conceptul clasic de marjă de eroare (±x% la 95%) este specific sondajelor simple aleatorii, bazate pe selecția independentă a indivizilor incluși în studiu. În cazul de față unitatea de eșantionare este clasa, nu elevul individual, designul este clusterizat (elevi în clase, clase în școli) iar selecția este stratificată teritorial. Prin urmare, marja de eroare nu poate fi exprimată corect printr-o formulă simplificată standard. Această practică urmată de noi este tipică pentru studiile din educație, fiind aplicată în cea mai mare parte a studiilor comparative internaționale (PISA, TIMSS etc.)

    Variabilitatea estimărilor în aceste studii depinde de design effect (DEFF), care reflectă impactul combinat al eșantionării clusterizate (la nivel de clasă) și al stratificării teritoriale. DEFF este un indicator care arată cât de mult crește (sau, mult mai rar, scade) variabilitatea estimărilor statistice din cauza designului de eșantionare, comparativ cu o eșantionare aleatorie simplă (simple random sampling, SRS) de aceeași mărime.

    Formal, DEFF se exprimă ca raport dintre varianța estimării în designul ales (în cazul nostru, stratificat) și varianța estimării într-un SRS echivalent. Evident, asta înseamnă că avem DEFF=1 dacă designul este similar în efecte cu un SRS, avem DEFF>1 dacă variabilitatea este mai mică (și deci erorile sunt mai mari) decât într-un SRS și avem DEFF<1 în cazurile foarte rare în care designul este mai eficient decât un SRS.

    În studiul nostru, DEFF apare din două surse principale.

    1. În primul rând, DEFF apare din eșantionarea clusterizată: elevii sunt selectați în grupuri naturale (clase), nu independent. Cu alte cuvinte, nu am inclus 14.000 de elevi extrași aleator din populația școlară, ci 14.000 de elevi din cateva sute de clase.

    Dar, evident, elevii din aceeași clasă tind să fie mai asemănători între ei decât elevii aleși aleator din populație. Acest lucru introduce corelație intra-clasă (intraclass correlation coefficient, ICC): cei, să zicem, 25 de elevi din același cluster vor tinde să fie mai asemănători între ei decât 25 de elevi luați aleator din populația școlară. Sunt multe motive pentru care similaritatea aceasta apare: elevii au același profesor, care le predă cam în același fel, interacționează între ei, au cam același fundal socio-economic, poate există similaritate de atitudini față de anumite probleme etc etc. Nu o să indic aici formulele, dar esența este aceea că ICC (și în consecință și DEFF) crește cu atât mai mult cu cât clasele sunt mai mari (și mai puține) în design – iar, evident, erorile cresc și ele.

    Situația poate fi agravată dacă mai avem un cluster peste primul – de exemplu, clasele sunt apoi grupate în școli. Pentru ca atunci nu doar elevii dintr-o clasă sunt similari între ei, ci probabil și clasele din aceeași școală sunt mai similare între ele decât oricare două clase extrase aleator din populația de clase. Acesta este și motivul pentru care studiul nostru a extras o singură clasă din fiecare școală inclusă în eșantion – ca să nu diluăm și mai mult estimările. Evident, asta crește costurile – studii precum PISA sau TIMSS testează de regulă toate clasele eligibile din fiecare școală selectată.

    2. În al doilea rând, DEFF apare din cauza stratificării teritoriale. Stratificarea operată de noi a fost bazată pe zone statistice de dezvoltare, așa cum sunt descrise aceste opt zone de Institutul Național de Statistică. Stratificarea aceasta reduce variabilitatea și poate compensa parțial creșterea de variabilitate indusă de clusterizare. Așadar, la confluența acestor două efecte, DEFF este rezultatul net al clusterizării (care crește variabilitatea) și al stratificării (care o reduce).

    * * *

    Lucrurile se complică un pic și mai mult, pentru că, dincolo de problema indusă principiul din spatele DEFF … DEFF nici nu e constant. Adică DEFF diferă în funcție de indicatorul statistic pe care îl calculăm.

    Acest efect apare pentru că nu toate variabilele au aceeași structură intra-clasă. Cu alte cuvinte, variabilitatea (sau ICC, dacă vreți) diferă de la un tip de indicator la altul.

    De exemplu, pentru variabile demografice (sex, vârstă), ICC tipic este foarte mic, deci DEFF-ul va fi aproape de 1, eșantionarea operată de noi nu va avea cam nici un efect. Cu alte cuvinte, dacă alegem elevi de 15 ani din clase și școli sau aleator, ei tot elevi de 15 ani vor fi – zero efect al clusterizării pe această variabilă. Pentru variabile precum performanța școlară sau abilitățile cognitive, efectul va fi moderat – elevii din aceeași clasă vor fi mai similari între ei. Dar, de vreme ce abilitățile cognitive au și varianță biologică puternică, iar aceasta nu poate fi influențată de școală și clasă, va exista în continuare variabilitate puternică extra-clasă. Pentru variabile precum unele atitudini sau climatul din clasă, ICC tipic va fi ridicat, iar DEFF așteptat va fi semnificativ mai mare ca 1. Iar pentru variabile psihosociale care sunt direct influențate de profesor și de context (presiune pentru a învăța, stresul indus de profesor) DEFF așteptat va fi foarte mare. Este evident care e efectul: cu cât o variabilă este mai mult influențată de contextul dat de unitatea de eșantionare (clasa), cu atât ICC e mai ridicat și în consecință DEFF e mai mare.

    Dar de aici avem două consecințe esențiale: (a) că nu există o singură marjă de eroare a studiului și (b) fiecare indicator are propriul său DEFF, deci propriile erori.

    * * *

    Lucrurile se complică un pic și mai mult acum … da, știu, aș vrea să mă opresc, dar … se complică pentru că diferiți indici statistici tratează în mod diferit ”marja de  eroare”. O să încerc să simplific – sper să nu supra-simplific și să îmi urc în cap colegii ”puriști” în de-ale statisticii.

    Pentru început, în această secțiune o să introduc conceptul de ”mărime efectivă” a eșantionului – să îi spunem ”n.eff”. Această mărime efectivă este o ajustare a mărimii eșantionului (n) în funcție de DEFF. Adică: n.eff este n, mărimea eșantionului, împărțită la DEFF. Noi avem în eșantion 14.000 de elevi, deci n = 14.000. Dacă DEFF = 1, atunci n.eff = 14.000. Dar dacă DEFF = 2, atunci n.eff = 7000.

    Bun, dar n, mărimea eșantionului, se răsfrânge în modalități diferite asupra unor indici statistici diferiți.

    (a) Pentru proporții (adică dacă am vrea să spunem că x% din elevi fac un anumit lucru), marja de eroare este exprimată ca z*sqrt(0.25/n), unde ”sqrt” este radical (square root), iar z este locația pe curba lui Gauss pentru probabilitatea pe care o dorim. Iar acel 0.25 vine din ”p*(1-p)” la un p=0.5. Iar n este evident, în cazul nostru n.eff. Pe scurt, pentru o probabilitate de 95%, MOE = 1.96*sqrt(0.25/n.eff). Aș mai spune aici că aceasta este marja de eroare maximă (cazul cel mai defavorabil) și că marja asta nu este constantă pentru toate zonele de estimare, dar cred că asta ar adăuga un al patrulea nivel de complicație, deci îl ignorăm.

    Și acum putem calcula MOE pentru diferite cazuri de DEFF. Pentru un n = 14.000, o să avem cam așa:

    • dacă DEFF = 1 (ca la un SRS), atunci MOE = 0.83%
    • dacă DEFF = 2, atunci MOE = 1.17%
    • dacă DEFF = 2.70, atunci MOE = 1.36%
    • dacă DEFF = 3, atunci MOE = 1.44%
    • dacă DEFF = 5 (care e un caz ultra-conservator), atunci MOE = 1.85%

    Am pus aici DEFF de 2.70 pentru că acesta este DEFF care rezultă dintr-o mărime medie a clasei de 18 elevi (cazul studiului nostru) și un ICC de 0.10, care este tipic pentru variabile educaționale. Asta ne duce la un n.eff de 5.185 elevi.

    Concluzia practică este că pentru nivelul de estimare național, atunci când estimăm proporții, marja de eroare pentru studiu este extrem, extrem de redusă pentru variabilele țintă pentru studiul nostru. Chiar și pentru cele câteva variabile care țin de atitudini (care, accentuez asta, nu sunt de regulă atitudini legate de clasă, ci atitudini formate în familie, deci mult mai puțin uniformizate de contextul din clasă), chiar cu un DEFF moderat–mare, e rezonabil să spunem că marja de eroare a studiului e în jur de ±1% până la maxim ±2%, cu foarte mare probabilitate însă nu mai mare de ±1.4% (la un prag de probabilitate de 95%).

    (b) Pentru medii și scoruri (adică pentru scorul mediu la test sau la componente ale testului), nu există conceptul de plus-minus x% și nu mai vorbim de o marjă de eroare generală, ci vorbim de intervale de încredere (CI, confidence intervals) care sunt dependente de fiecare scor în parte, mai specific de eroarea standard a fiecărui scor. Deci pentru scoruri pot fi raportate ori intervale de încredere calculate cu proceduri pentru eșantioane complexe, ori o aproximare suficient de bună bazată pe n.eff și deviația standard a acelui scor.

    * * *

    OK, mă opresc aici. Lucrurile se mai pot complica atunci când vorbim de comparații între scoruri medii, diferențe între grupuri etc. Dar pentru toate acestea, ce cred că trebuie reținut este așa: că gradul de omogenitate intra-clasă diferă în funcție de tipul de indicator analizat (de exemplu, variabile demografice, performanță școlară sau caracteristici psihosociale), iar din acest motiv DEFF nu este constant, ci specific fiecărei variabile. În consecință, erorile standard și intervalele de încredere pot fi calculate separat pentru fiecare indicator, utilizând metode adecvate pentru eșantioane complexe, și nu pot fi reduse la o marjă de eroare unică pentru întregul studiu.

    Mă mai întreabă unii colegi: de ce pe astfel de rapoarte nu pui și aceste marje de eroare … o să vin cu o postare separata despre asta – dar în esență (anticipez aici): de fiecare dată când am făcut rapoartele prea sofisticate din punct de vedere tehnic, am generat mai multă confuzie decât înțelegere. E un ”sweet spot” care cred că trebuie atins în aceste rapoarte și aici am crezut eu că este, unde îl vedem acum.

    Prev Post

    Cranney, J., Nolan, S. A., Job, R., Goedeke, S., Machin, M. A., Gullifer, J., Narciss, S., de Souza, L. K., Jia, F., Foster, L., Hulme, J. A., Iliescu, D., Ju, X., Kojima, H., Kumar, A., Tchombe, T. M. S., Waitoki, W., Reyes, M. E. S., Boeta Madera, V. (in press). Collaborative processes in the development of the International Competences for Undergraduate Psychology (ICUP) Model. International Journal of Psychology.

    Next Post

    In memoriam Prof. Filaret ”Fil” Sîntion

    Categories