+ - 0:00:00
Notes for current slide
Notes for next slide

Metoda reprezentacyjna

Minimalna liczebność próby

© Łukasz Wawrowski

1 / 28

Wprowadzenie

Link do ankiet: https://pollev.com/lukaszw470

2 / 28
3 / 28
4 / 28
5 / 28

Minimalna liczebność próby

Minimalna liczebność próby (MLP) informuje ile jednostek należy przebadać, aby maksymalny błąd oszacowania (na poziomie ufności 1α) wyniósł co najwyżej d.

Przy większej liczbie jednostek oszacowanie będzie bardziej trafne (przedział ufności będzie węższy). Z drugiej strony koszty badania rosną wraz ze wzrostem liczebności próby.

Szukamy kompromisu pomiędzy dokładnością, a liczbą badanych jednostek.

Wyznaczoną wartość zawsze zaokrąglamy w górę.

6 / 28

Podejście kosztowe

Badane jest tyle jednostek na ile pozwala założony budżet.

n=budżetkoszty stałekoszt jednostkowy

Przykład:

n=25000500020=1000

W tym podejściu nie bierzemy pod uwagę błędu oszacowania.

7 / 28

Podejścia oparte o przedział ufności

Do wyznaczenia minimalnej liczebności niezbędne jest ustalenie:

  • poziomu istotności (i związanego z nim poziomu prawdopodobieństwa) - α
  • maksymalnego dopuszczalnego błędu pomiaru - d
  • odsetek/odchylenie standardowe z badania pilotażowego - p0 lub σ

Zakładamy, że wielkość populacji jest nieskończona - nie wpływa to znacząco na wyniki, a upraszcza obliczenia.

Kalkulator minimalnej liczebności próby

8 / 28

Przedział ufności dla średniej

P{X¯z(1α/2)σn<m<X¯+z(1α/2)σn}=1α gdzie:

  • m - prawdziwa wartość średniej w populacji,
  • X¯ - estymator średniej z próby,
  • z(1α/2) - kwantyl rozkładu normalnego obliczony dla poziomu istotności α,
  • σ - znane odchylenie standardowe,
  • n - liczebność próby.

Błąd oszacowania to wynik odejmowania i dodawania od i do średniej z próby.

9 / 28

Przedział ufności dla średniej

P{X¯z(1α/2)σn<m<X¯+z(1α/2)σn}=1α gdzie:

  • m - prawdziwa wartość średniej w populacji,
  • X¯ - estymator średniej z próby,
  • z(1α/2) - kwantyl rozkładu normalnego obliczony dla poziomu istotności α,
  • σ - znane odchylenie standardowe,
  • n - liczebność próby.

Błąd oszacowania to wynik odejmowania i dodawania od i do średniej z próby.

Przykładowo: przedział ufności czasu pracy w ciągu tygodnia wynosi (35,45) godzin. Zatem średnia z próby wynosi 40 godzin, a błąd 5 godzin.

9 / 28

MLP - wyprowadzenie

P{X¯z(1α/2)σn<m<X¯+z(1α/2)σn}=1α Za błąd odpowiada:

z(1α/2)σn

Chcemy, żeby błąd był mniejszy od tego wyrażenia:

dz(1α/2)σn Zatem po przekształceniach:

nz(1α/2)σd Otrzymujemy wzór na minimalną liczebność próby:

n(z(1α/2)σd)2

10 / 28

MLP - szacowanie średniej (I)

Znane odchylenie standardowe w populacji.

n(z(1α/2)σd)2

gdzie:

  • z1α/2 - kwantyl rozkładu normalnego obliczony dla poziomu istotności α
  • σ - odchylenie standardowe w populacji
  • d - maksymalny dopuszczalny błąd pomiaru
11 / 28

MLP - szacowanie średniej (II)

Nieznane odchylenie standardowe w populacji.

n(t(1α/2,n01)sd)2

gdzie:

  • t(1α/2,n01) - kwantyl rozkładu t-Studenta obliczony dla poziomu istotności α i dla stopni swobody n01
  • n0 - wielkość próby w badaniu pilotażowym
  • s - odchylenie standardowe w badaniu pilotażowym
  • d - maksymalny dopuszczalny błąd pomiaru
12 / 28

MLP - szacowanie odsetka (I)

Znany szacunkowy odsetek.

nz(1α/2)2p0(1p0)d2

gdzie:

  • z1α/2 - kwantyl rozkładu normalnego obliczony dla poziomu istotności α
  • p0 - znany szacunkowy odsetek
  • d - maksymalny dopuszczalny błąd pomiaru
13 / 28

MLP - szacowanie odsetka (II)

Nieznany szacunkowy odsetek.

nz(1α/2)21d2

gdzie:

  • z1α/2 - kwantyl rozkładu normalnego obliczony dla poziomu istotności α
  • d - maksymalny dopuszczalny błąd pomiaru
14 / 28

Wartości kwantyli N(0,1)

Prawdopodobieństwo Poziom istotności Kwantyl rozkł. norm.
99% (0,99) 0,01 2,58
95% (0,95) 0,05 1,96
90% (0,90) 0,10 1,64

Wyznaczanie wartości kwantyli w R:

  • qnorm(p = 1-alfa/2)
  • qt(p = 1-alfa/2, df = n0-1)

Wyznaczanie wartości kwantyli w Excelu:

  • ROZKŁ.NORMALNY.S.ODWR(1-alfa/2)
  • ROZKŁ.T.ODWR(1-alfa/2;n0-1) lub ROZKŁ.T.ODWR.DS(alfa;n0-1)

Wyznaczanie wartości kwantyli w Google Sheets:

  • NORMSINV(1-alfa/2)
  • TINV(alfa, n0-1)
15 / 28

Przykładowe wartości

źródło

Uzyskane wielkości dotyczą populacji ogółem. Jeżeli chcemy przedstawić wyniki np. w podziale miasto/wieś to należy MLP pomnożyć przez 2, a dla wykształcenia (podstawowe/średnie/wyższe) przez 3, itd.

16 / 28

MLP - szacowanie odsetka (I)

17 / 28

MLP - maksymalne wartości

d alfa maksimum_n
0.01 0.01 16588
0.01 0.05 9604
0.01 0.10 6764
0.03 0.01 1844
0.03 0.05 1068
0.03 0.10 752
0.05 0.01 664
0.05 0.05 385
0.05 0.10 271
18 / 28

Przykład

Chcemy oszacować odsetek mieszkańców Poznania, którzy są zadowoleni z życia zakładając błąd badania równy 3% i prawdopodobieństwo 95%.

19 / 28

Przykład

Chcemy oszacować odsetek mieszkańców Poznania, którzy są zadowoleni z życia zakładając błąd badania równy 3% i prawdopodobieństwo 95%.

Według Badania Spójności Społecznej w 2018 roku zadowolonych z życia było 73% polaków (GUS 2020)

19 / 28

Dane

  • błąd badania d: 0.03

  • prawdopodobieństwo: 0.95

  • alfa: 1 - 0.95 = 0.05

  • szacunkowy odsetek p0: 0.73

20 / 28

Eksperyment z losowaniem

  1. Generujemy wektor zawierający odpowiedzi w populacji N

  2. Losujemy próbę o wielkości n

  3. Sprawdzamy czy w wylosowanej próbie odpowiedzi są takie jak w populacji

21 / 28

Losowanie próby

set.seed(123)
N <- 535946
m <- round(0.73*N)
zadowoleni <- rep(1, m)
niezadowoleni <- rep(0, N-m)
populacja <- c(zadowoleni, niezadowoleni)
summary(populacja)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.00 1.00 0.73 1.00 1.00
n <- 842
proba <- sample(x = populacja, size = n)
mean(proba)
## [1] 0.719715
22 / 28

Symulacja wielokrotnego losowania

wyniki <- numeric(1000)
for(losowanie in 1:1000){
proba <- sample(x = populacja, size = n)
wyniki[losowanie] <- mean(proba)
}
summary(wyniki)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.6805 0.7197 0.7304 0.7296 0.7387 0.7767
mean(wyniki > 0.7 & wyniki < 0.76)
## [1] 0.954
23 / 28

MLP w badaniu gospodarstw domowych

Designing Household Survey Samples: Practical Guidelines

nhz1α/22p0(1p0)fkpn¯d2

  • z1α/2 - kwantyl rozkładu normalnego obliczony dla poziomu istotności α
  • p0 - znany szacunkowy odsetek
  • f - efekt metody doboru próby (domyślnie 2)
  • k - mnożnik uwzględniający wskaźnik braków odpowiedzi
  • p - odsetek populacji, którego dotyczy p0
  • n¯ - średnia wielkość gospodarstwa
  • d - maksymalny dopuszczalny błąd pomiaru
24 / 28
25 / 28
26 / 28
27 / 28

Pytania?

28 / 28

Wprowadzenie

Link do ankiet: https://pollev.com/lukaszw470

2 / 28
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow