+ - 0:00:00
Notes for current slide
Notes for next slide

Metody przetwarzania
i analizy danych

Testy statystyczne

© Łukasz Wawrowski

1 / 20

Zadanie

10:00

Na podstawie pliku smog:

  • wczytaj zbiór danych.

  • stwórz nową zmienną pm10_poziom, która będzie przyjmowała wartość "w normie" dla pm10 < 50 i "podwyższony" dla wartości pm10 >= 50.

  • stwórz nową zmienną tmin_zero, która będzie przyjmowała wartości "poniżej zera" dla tmin_daily < 0 i "powyżej zera" dla tmin_daily > 0.

  • przygotuj wykres punktowy przedstawiający minimalną i maksymalną temperaturę.

  • utwórz nowy zbiór danych o nazwie smog2017, który będzie zawierał informacje tylko z roku 2017.

2 / 20

Testowanie hipotez

  1. Sformułowanie dwóch wykluczających się hipotez - zerowej H0 oraz alternatywnej H1

  2. Wybór odpowiedniego testu statystycznego

  3. Określenie dopuszczalnego prawdopodobieństwo popełnienia błędu I rodzaju (czyli poziomu istotności α)

  4. Podjęcie decyzji

3 / 20

Wartość p

4 / 20

Testy statystyczne

5 / 20

Testy statystyczne

Skala nominalna - nieparametryczne Skala porządkowa - nieparametryczne Skala ilorazowa - parametryczne
Jedna próba Test zgodności χ2 Test zgodności Shapiro-Wilka, Test Wilcoxona Test t
Dwie próby niezależne Test niezależności χ2, Test zgodności χ2 Test Flignera-Killeena, Test Manna-Whitneya Test F, Test t
Dwie próby zależne Test McNemara Test Wilcoxona Test t
K prób niezależnych Test zgodności χ2 Test Flignera-Killeena, Test Kruskala-Wallisa Test Bartletta, ANOVA
6 / 20

źródło

7 / 20

Test niezależności χ2

Za pomocą testu niezależności χ2 można sprawdzić czy pomiędzy dwiema cechami jakościowymi występuje zależność.

  • H0: zmienne są niezależne,

  • H1: zmienne nie są niezależne.

8 / 20

Test proporcji

Test proporcji pozwala odpowiedzieć na pytanie czy odsetki w jednej, dwóch lub więcej grupach różnią się od siebie istotnie.

  • H0:p1=p2

  • H1:p1p2 lub H1:p1>p2 lub H1:p1<p2

9 / 20

Test normalności

Najpopularniejszym testem jest test Shapiro-Wilka:

  • H0:F(x)=F0(x) - rozkład cechy ma rozkład normalny

  • H1:F(x)F0(x) - rozkład cechy nie ma rozkładu normalnego

Maksymalna liczba obserwacji to 5000. Dla większej liczby test Kołmogorova-Smirnova porównujący dwa rozkłady.

10 / 20

Wykres kwantyl-kwantyl

set.seed(128)
df <- data.frame(norm = rnorm(50))
ggplot(df, aes(sample = norm)) +
stat_qq() +
stat_qq_line()

11 / 20

Test wariancji

Jeśli chcemy sprawdzić homogeniczność wariancji w więcej niż dwóch grupach to należy skorzystać z testu Bartletta:

  • H0:s12=s22=s32=...=sk2

  • H1:i,j{1,..,k}si2sj2

12 / 20

Próby zależne i niezależne

Próby zależne (paired)

Analizowane są te same jednostki, ale różne cechy.

Próby niezależne (unpaired)

Analizowane są różne jednostki, ale ta sama cecha.

13 / 20

Test t-średnich

Porównanie wartości średnich:

  • H0:m1=m2

  • H1:m1m2 lub H1:m1<m2 lub H1:m1>m2

14 / 20

Test Wilcoxona

Test Wilcoxona jest nieparametryczną wersją testu t dla prób zależnych.

  • H0:F1=F2

  • H1:F1F2

15 / 20

Test Manna-Whitneya

Test Manna-Whitneya jest nieparametryczną wersją testu t dla prób niezależnych.

  • H0:F1=F2

  • H1:F1F2

16 / 20

ANOVA

W przypadku większej liczby grup stosuje się jednoczynnikową analizę wariancji (ANOVA).

  • H0:m1=m2=m3=...=mk

  • H1:i,j{1,..,k}mimj

17 / 20

Test Kruskala-Wallisa

Test Kruskala-Wallisa jest nieparametrycznym odpowiednikiem ANOVA.

  • H0:F1=F2=F3=...=Fk

  • H1:i,j{1,..,k}FiFj

18 / 20

Zadanie

10:00

Zweryfikuj czy pomiędzy poziomem pm10 w latach 2015-2019 występowała istotna różnica.

19 / 20

Pytania?

20 / 20

Zadanie

10:00

Na podstawie pliku smog:

  • wczytaj zbiór danych.

  • stwórz nową zmienną pm10_poziom, która będzie przyjmowała wartość "w normie" dla pm10 < 50 i "podwyższony" dla wartości pm10 >= 50.

  • stwórz nową zmienną tmin_zero, która będzie przyjmowała wartości "poniżej zera" dla tmin_daily < 0 i "powyżej zera" dla tmin_daily > 0.

  • przygotuj wykres punktowy przedstawiający minimalną i maksymalną temperaturę.

  • utwórz nowy zbiór danych o nazwie smog2017, który będzie zawierał informacje tylko z roku 2017.

2 / 20
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow