Metoda reprezentacyjnaMinimalna liczebność próby© Łukasz Wawrowski1 / 28

Wprowadzenie

Link do ankiet: https://pollev.com/lukaszw470

2 / 28

3 / 28

4 / 28

5 / 28

Minimalna liczebność próby

Minimalna liczebność próby (MLP) informuje ile jednostek należy przebadać, aby maksymalny błąd oszacowania (na poziomie ufności $1 - α$ ) wyniósł co najwyżej $d$ .

Przy większej liczbie jednostek oszacowanie będzie bardziej trafne (przedział ufności będzie węższy). Z drugiej strony koszty badania rosną wraz ze wzrostem liczebności próby.

Szukamy kompromisu pomiędzy dokładnością, a liczbą badanych jednostek.

Wyznaczoną wartość zawsze zaokrąglamy w górę.

6 / 28

Podejście kosztowe

Badane jest tyle jednostek na ile pozwala założony budżet.

$n = \frac{budżet - koszty stałe}{koszt jednostkowy}$

Przykład:

$n = \frac{25000 - 5000}{20} = 1000$

W tym podejściu nie bierzemy pod uwagę błędu oszacowania.

7 / 28

Podejścia oparte o przedział ufności

Do wyznaczenia minimalnej liczebności niezbędne jest ustalenie:

poziomu istotności (i związanego z nim poziomu prawdopodobieństwa) - $α$
maksymalnego dopuszczalnego błędu pomiaru - $d$
odsetek/odchylenie standardowe z badania pilotażowego - $p_{0}$ lub $σ$

Zakładamy, że wielkość populacji jest nieskończona - nie wpływa to znacząco na wyniki, a upraszcza obliczenia.

Kalkulator minimalnej liczebności próby

8 / 28

Przedział ufności dla średniej

$P {\bar{X} - z_{(1 - α / 2)} \frac{σ}{\sqrt{n}} < m < \bar{X} + z_{(1 - α / 2)} \frac{σ}{\sqrt{n}}} = 1 - α$ gdzie:

$m$ - prawdziwa wartość średniej w populacji,
$\bar{X}$ - estymator średniej z próby,
$z_{(1 - α / 2)}$ - kwantyl rozkładu normalnego obliczony dla poziomu istotności $α$ ,
$σ$ - znane odchylenie standardowe,
$n$ - liczebność próby.

Błąd oszacowania to wynik odejmowania i dodawania od i do średniej z próby.

9 / 28

Przedział ufności dla średniej

$P {\bar{X} - z_{(1 - α / 2)} \frac{σ}{\sqrt{n}} < m < \bar{X} + z_{(1 - α / 2)} \frac{σ}{\sqrt{n}}} = 1 - α$ gdzie:

$m$ - prawdziwa wartość średniej w populacji,
$\bar{X}$ - estymator średniej z próby,
$z_{(1 - α / 2)}$ - kwantyl rozkładu normalnego obliczony dla poziomu istotności $α$ ,
$σ$ - znane odchylenie standardowe,
$n$ - liczebność próby.

Błąd oszacowania to wynik odejmowania i dodawania od i do średniej z próby.

Przykładowo: przedział ufności czasu pracy w ciągu tygodnia wynosi $(35, 45)$ godzin. Zatem średnia z próby wynosi 40 godzin, a błąd 5 godzin.

9 / 28

MLP - wyprowadzenie

$P {\bar{X} - z_{(1 - α / 2)} \frac{σ}{\sqrt{n}} < m < \bar{X} + z_{(1 - α / 2)} \frac{σ}{\sqrt{n}}} = 1 - α$ Za błąd odpowiada:

$z_{(1 - α / 2)} \frac{σ}{\sqrt{n}}$

Chcemy, żeby błąd był mniejszy od tego wyrażenia:

$d \geq z_{(1 - α / 2)} \frac{σ}{\sqrt{n}}$ Zatem po przekształceniach:

$\sqrt{n} \geq z_{(1 - α / 2)} \frac{σ}{d}$ Otrzymujemy wzór na minimalną liczebność próby:

$n \geq {(z_{(1 - α / 2)} \frac{σ}{d})}^{2}$

10 / 28

MLP - szacowanie średniej (I)

Znane odchylenie standardowe w populacji.

$n \geq {(z_{(1 - α / 2)} \cdot \frac{σ}{d})}^{2}$

gdzie:

$z_{1 - α / 2}$ - kwantyl rozkładu normalnego obliczony dla poziomu istotności $α$
$σ$ - odchylenie standardowe w populacji
$d$ - maksymalny dopuszczalny błąd pomiaru

11 / 28

MLP - szacowanie średniej (II)

Nieznane odchylenie standardowe w populacji.

$n \geq {(t_{(1 - α / 2, n_{0} - 1)} \cdot \frac{s}{d})}^{2}$

gdzie:

$t_{(1 - α / 2, n_{0} - 1)}$ - kwantyl rozkładu t-Studenta obliczony dla poziomu istotności $α$ i dla stopni swobody $n_{0} - 1$
$n_{0}$ - wielkość próby w badaniu pilotażowym
$s$ - odchylenie standardowe w badaniu pilotażowym
$d$ - maksymalny dopuszczalny błąd pomiaru

12 / 28

MLP - szacowanie odsetka (I)

Znany szacunkowy odsetek.

$n \geq z_{(1 - α / 2)}^{2} \cdot \frac{p_{0} (1 - p_{0})}{d^{2}}$

gdzie:

$z_{1 - α / 2}$ - kwantyl rozkładu normalnego obliczony dla poziomu istotności $α$
$p_{0}$ - znany szacunkowy odsetek
$d$ - maksymalny dopuszczalny błąd pomiaru

13 / 28

MLP - szacowanie odsetka (II)

Nieznany szacunkowy odsetek.

$n \geq z_{(1 - α / 2)}^{2} \cdot \frac{1}{d^{2}}$

gdzie:

$z_{1 - α / 2}$ - kwantyl rozkładu normalnego obliczony dla poziomu istotności $α$
$d$ - maksymalny dopuszczalny błąd pomiaru

14 / 28

Wartości kwantyli N(0,1)

Prawdopodobieństwo	Poziom istotności	Kwantyl rozkł. norm.
99% (0,99)	0,01	2,58
95% (0,95)	0,05	1,96
90% (0,90)	0,10	1,64

Wyznaczanie wartości kwantyli w R:

qnorm(p = 1-alfa/2)
qt(p = 1-alfa/2, df = n0-1)

Wyznaczanie wartości kwantyli w Excelu:

ROZKŁ.NORMALNY.S.ODWR(1-alfa/2)
ROZKŁ.T.ODWR(1-alfa/2;n0-1) lub ROZKŁ.T.ODWR.DS(alfa;n0-1)

Wyznaczanie wartości kwantyli w Google Sheets:

NORMSINV(1-alfa/2)
TINV(alfa, n0-1)

15 / 28

Przykładowe wartości

źródło

Uzyskane wielkości dotyczą populacji ogółem. Jeżeli chcemy przedstawić wyniki np. w podziale miasto/wieś to należy MLP pomnożyć przez 2, a dla wykształcenia (podstawowe/średnie/wyższe) przez 3, itd.

16 / 28

MLP - szacowanie odsetka (I)

17 / 28

MLP - maksymalne wartości

d
alfa
maksimum_n


0.01
0.01
16588

0.01
0.05
9604

0.01
0.10
6764

0.03
0.01
1844

0.03
0.05
1068

0.03
0.10
752

0.05
0.01
664

0.05
0.05
385

0.05
0.10
271

18 / 28

d	alfa	maksimum_n
0.01	0.01	16588
0.01	0.05	9604
0.01	0.10	6764
0.03	0.01	1844
0.03	0.05	1068
0.03	0.10	752
0.05	0.01	664
0.05	0.05	385
0.05	0.10	271

Przykład

Chcemy oszacować odsetek mieszkańców Poznania, którzy są zadowoleni z życia zakładając błąd badania równy 3% i prawdopodobieństwo 95%.

19 / 28

Przykład

Chcemy oszacować odsetek mieszkańców Poznania, którzy są zadowoleni z życia zakładając błąd badania równy 3% i prawdopodobieństwo 95%.

Według Badania Spójności Społecznej w 2018 roku zadowolonych z życia było 73% polaków (GUS 2020)

19 / 28

Dane

błąd badania $d$ : 0.03
prawdopodobieństwo: 0.95
alfa: 1 - 0.95 = 0.05
szacunkowy odsetek $p_{0}$ : 0.73

20 / 28

Eksperyment z losowaniem

Generujemy wektor zawierający odpowiedzi w populacji $N$
Losujemy próbę o wielkości $n$
Sprawdzamy czy w wylosowanej próbie odpowiedzi są takie jak w populacji

21 / 28

Losowanie próby

set.seed(123)
N <- 535946
m <- round(0.73*N)
zadowoleni <- rep(1, m)
niezadowoleni <- rep(0, N-m)
populacja <- c(zadowoleni, niezadowoleni)
summary(populacja)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00    1.00    0.73    1.00    1.00

n <- 842
proba <- sample(x = populacja, size = n)
mean(proba)

## [1] 0.719715

22 / 28

Symulacja wielokrotnego losowania

wyniki <- numeric(1000)
for(losowanie in 1:1000){
  proba <- sample(x = populacja, size = n)
  wyniki[losowanie] <- mean(proba)
}
summary(wyniki)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.6805  0.7197  0.7304  0.7296  0.7387  0.7767

mean(wyniki > 0.7 & wyniki < 0.76)

## [1] 0.954

23 / 28

MLP w badaniu gospodarstw domowych

Designing Household Survey Samples: Practical Guidelines

$n_{h} \geq \frac{z_{1 - α / 2}^{2} p_{0} (1 - p_{0}) f k}{p \bar{n} d^{2}}$

$z_{1 - α / 2}$ - kwantyl rozkładu normalnego obliczony dla poziomu istotności $α$
$p_{0}$ - znany szacunkowy odsetek
$f$ - efekt metody doboru próby (domyślnie 2)
$k$ - mnożnik uwzględniający wskaźnik braków odpowiedzi
$p$ - odsetek populacji, którego dotyczy $p_{0}$
$\bar{n}$ - średnia wielkość gospodarstwa
$d$ - maksymalny dopuszczalny błąd pomiaru

24 / 28

25 / 28

26 / 28

27 / 28

Pytania?28 / 28

↑, ←, Pg Up, k	Go to previous slide
↓, →, Pg Dn, Space, j	Go to next slide
Home	Go to first slide
End	Go to last slide
Number + Return	Go to specific slide
b / m / f	Toggle blackout / mirrored / fullscreen mode
c	Clone slideshow
p	Toggle presenter mode
t	Restart the presentation timer
?, h	Toggle this help

Metoda reprezentacyjna

Minimalna liczebność próby

© Łukasz Wawrowski

Wprowadzenie

Minimalna liczebność próby

Podejście kosztowe

Podejścia oparte o przedział ufności

Przedział ufności dla średniej

Przedział ufności dla średniej

MLP - wyprowadzenie

MLP - szacowanie średniej (I)

MLP - szacowanie średniej (II)

MLP - szacowanie odsetka (I)

MLP - szacowanie odsetka (II)

Wartości kwantyli N(0,1)

Przykładowe wartości

MLP - szacowanie odsetka (I)

MLP - maksymalne wartości

Przykład

Przykład

Dane

Eksperyment z losowaniem

Losowanie próby

Symulacja wielokrotnego losowania

MLP w badaniu gospodarstw domowych

Pytania?

Wprowadzenie

Help