+ - 0:00:00
Notes for current slide
Notes for next slide

Metody przetwarzania
i analizy danych

Testy statystyczne

© Łukasz Wawrowski

1 / 23

Testowanie hipotez

  1. Sformułowanie dwóch wykluczających się hipotez - zerowej \(H_0\) oraz alternatywnej \(H_1\)

  2. Wybór odpowiedniego testu statystycznego

  3. Określenie dopuszczalnego prawdopodobieństwo popełnienia błędu I rodzaju (czyli poziomu istotności \(\alpha\))

  4. Podjęcie decyzji

2 / 23

Wartość p

3 / 23

Testy statystyczne

4 / 23

Testy statystyczne

Skala nominalna - nieparametryczne Skala porządkowa - nieparametryczne Skala ilorazowa - parametryczne
Jedna próba Test zgodności \(\chi^2\) - prop.test() Test zgodności Shapiro-Wilka - shapiro.test(), Test Wilcoxona - wilcox.test() Test t - t.test()
Dwie próby niezależne Test niezależności \(\chi^2\) - chisq.test(), Test zgodności \(\chi^2\) - prop.test() Test Flignera-Killeena - fligner.test(), Test Manna-Whitneya - wilcox.test() Test F - var.test(), Test t - t.test()
Dwie próby zależne Test McNemara - mcnemar.test() Test Wilcoxona - wilcox.test() Test t - t.test()
K prób niezależnych Test zgodności \(\chi^2\) - chisq.test() Test Flignera-Killeena - fligner.test(), Test Kruskala-Wallisa - kruskal.test() Test Bartletta - bartlett.test(), ANOVA - aov()
5 / 23

źródło

6 / 23

Test niezależności \(\chi^2\)

Za pomocą testu niezależności \(\chi^2\) można sprawdzić czy pomiędzy dwiema cechami jakościowymi występuje zależność.

  • \(H_0:\) zmienne są niezależne,

  • \(H_1:\) zmienne nie są niezależne.

Funkcja chisq.test() z pakietu stats:

  • tabela kontyngencji utworzona za pomocą funkcji table()
7 / 23

Zadanie

Czy pomiędzy płcią, a grupami bieżącego wynagrodzenia zdefiniowanymi przez medianę istnieje zależność?

05:00
8 / 23

Test proporcji

Test proporcji pozwala odpowiedzieć na pytanie czy odsetki w jednej, dwóch lub więcej grupach różnią się od siebie istotnie.

  • \(H_0: p_1=p_2\)

  • \(H_1: p_1 \neq p_2\) lub \(H_1: p_1 > p_2\) lub \(H_1: p_1 < p_2\)

Funkcja prop.test z pakietu stats:

  • x - licznik badanych odsetków

  • n - mianownik badanych odsetków

9 / 23

Przykład

Wysunięto przypuszczenie, że palacze papierosów stanowią jednakowy odsetek wśród mężczyzn i kobiet. W celu sprawdzenia tej hipotezy wylosowano 500 mężczyn i 600 kobiet. Okazało się, że wśród mężczyzn było 200 palaczy, a wśród kobiet 250.

10 / 23

Przykład

Wysunięto przypuszczenie, że palacze papierosów stanowią jednakowy odsetek wśród mężczyzn i kobiet. W celu sprawdzenia tej hipotezy wylosowano 500 mężczyn i 600 kobiet. Okazało się, że wśród mężczyzn było 200 palaczy, a wśród kobiet 250.

prop.test(x = c(200,250), n = c(500,600))
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(200, 250) out of c(500, 600)
## X-squared = 0.24824, df = 1, p-value = 0.6183
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.07680992 0.04347659
## sample estimates:
## prop 1 prop 2
## 0.4000000 0.4166667
10 / 23

Zadanie

W pewnym powiecie na 119 przedsiębiorstw z sekcji PKD C i 174 z sekcji F w badaniu DG 1 wzięło odpowiednio 14 i 24 przedsiębiorstwa. Na poziomie istotności 0,05 zweryfikuj hipotezę, że odsetek przedsiębiorstw biorących udział w badaniu różni się pomiędzy sekcjami PKD.

05:00
11 / 23

Test normalności

Najpopularniejszym testem jest test Shapiro-Wilka:

  • \(H_0: F(x) = F_0(x)\) - rozkład cechy ma rozkład normalny

  • \(H_1: F(x) \neq F_0(x)\) - rozkład cechy nie ma rozkładu normalnego

Funkcja shapiro.test() z pakietu stats:

  • x - badana cecha

Maksymalna liczba obserwacji to 5000. Dla większej liczby test Kołmogorova-Smirnova (ks.test()) porównujący dwa rozkłady.

12 / 23

Wykres kwantyl-kwantyl

set.seed(128)
df <- data.frame(norm = rnorm(50))
ggplot(df, aes(sample = norm)) +
stat_qq() +
stat_qq_line()

13 / 23

Zadanie

Czy cecha bieżące wynagrodzenie ma rozkład normalny? Sprawdź za pomocą odpowiedniego testu oraz wykresu kwantyl-kwantyl.

05:00
14 / 23

Test wariancji

Jeśli chcemy sprawdzić homogeniczność wariancji w więcej niż dwóch grupach to należy skorzystać z testu Bartletta:

  • \(H_0: s^2_1=s^2_2= s^2_3 =...=s^2_k\)

  • \(H_1: \exists_{i,j\in\{1,..,k\}} \; s^2_i \neq s^2_j\)

Funkcja bartlett.test() z pakietu stats:

  • jako wzór z tyldą zmienna_analizowana ~ zmienna_grupująca.
15 / 23

Próby zależne i niezależne

Próby zależne (paired)

Analizowane są te same jednostki, ale różne cechy.

Próby niezależne (unpaired)

Analizowane są różne jednostki, ale ta sama cecha.

16 / 23

Test t-średnich

Porównanie wartości średnich:

  • \(H_0: m_1 = m_2\)

  • \(H_1: m_1 \neq m_2\) lub \(H_1: m_1 < m_2\) lub \(H_1: m_1 > m_2\)

Funkcja t.test()

  • jako wzór z tyldą zmienna_analizowana ~ zmienna_grupująca

  • data - zbiór danych

  • paired = TRUE - dodatkowy argument dla prób zależnych

17 / 23

Test Wilcoxona

Test Wilcoxona jest nieparametryczną wersją testu t.

  • \(H_0: F_1=F_2\)

  • \(H_1: F_1 \neq F_2\)

Funkcja wilcox.test() - argumenty takie jak w przypadku funkcji t.test().

18 / 23

Zadanie

Sprawdź czy wynagrodzenie różni się w zależności od płci.

05:00
19 / 23

ANOVA

W przypadku większej liczby grup stosuje się jednoczynnikową analizę wariancji (ANOVA).

  • \(H_0: m_1 = m_2 = m_3 = ... = m_k\)

  • \(H_1: \exists_{i,j\in\{1,..,k\}} \; m_i \neq m_j\)

Funkcja aov().

  • wzór z tyldą zmienna_analizowana ~ zmienna_grupująca

  • data - zbiór danych

Funkcja TukeyHSD() przeprowadza test post-hoc w przypadku istotnych różnic.

20 / 23

Test Kruskala-Wallisa

Test Kruskala-Wallisa jest nieparametrycznym odpowiednikiem ANOVA.

  • \(H_0: F_1=F_2=F_3=...=F_k\)

  • \(H_1: \exists_{i,j\in\{1,..,k\}} \; F_i \neq F_j\)

Funkcja kruskal.test() - argumenty takie jak w przypadku funkcji aov().

21 / 23

Zadanie

Sprawdź czy wynagrodzenie różni się w zależności od kategorii pracownika.

05:00
22 / 23

Pytania?

23 / 23

Testowanie hipotez

  1. Sformułowanie dwóch wykluczających się hipotez - zerowej \(H_0\) oraz alternatywnej \(H_1\)

  2. Wybór odpowiedniego testu statystycznego

  3. Określenie dopuszczalnego prawdopodobieństwo popełnienia błędu I rodzaju (czyli poziomu istotności \(\alpha\))

  4. Podjęcie decyzji

2 / 23
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow