3  Analiza struktury

Kompleksowa analiza struktury oznacza wyczerpujący opis cech zbiorowości statystycznej. Do charakterystyk najczęściej wykorzystywanych przy opisie struktury zbiorowości należą:

Analiza struktury bazuje na dwóch typach miar:

Celem analizy struktury jest dostarczenie kilku liczb, które w łatwy sposób pozwolą na opis i porównania badanych cech.

Dominanta czyli najczęściej występująca wartość. Inaczej moda, modalna, tryb (w Excelu - kalka językowa z angielskiego słowa mode. Wartość dominanty można ustalić jedynie dla rozkładów jednomodalnych.

W Excelu jest funkcja:

jednak dla rozkładów wielomodalnych zwróci ona pierwszą modalną.

3.1 Miary klasyczne

Najpopularniejszym przedstawicielem miar klasycznych jest średnia arytmetyczna. Wyrażona jest wzorem:

x¯=i=1NxiN,

gdzie:

  • x¯ - symbol średniej arytmetycznej,
  • xi - wariant cechy mierzalnej,
  • N - liczebność badanej zbiorowości.

Co sprawia, że średnia jest tak powszechną i uniwersalną miarą? Jest to liczba, która ma najwięcej wspólnego z każdą wartością cechy w zbiorowości. Innymi słowy, odległość wartości cechy od średniej jest najmniejsza z możliwych.

Przykładowo, dane są oceny jednego ze studentów: 3, 4, 5, 3+, 2, 4, 3

Na powyższym wykresie punkty oznaczają kolejne oceny, natomiast średnia została zaznaczona kolorem czerwonym - wynosi ona 3,5.

Jako miarę odległości poszczególnych ocen od średniej możemy przyjąć wartość bezwzględną różnicy danej oceny i średniej. W tej sytuacji pierwsza ocena różni się od średniej o 0,5, druga ocena także, natomiast trzecia o 1,5, itd. Po zsumowaniu tych wartości otrzymujemy sumę odchyleń równą 5. Jest to najmniejsza wartość jaką jesteśmy w stanie otrzymać. Jeżeli stwierdzimy, że w naszym mniemaniu wartość 3,55 jest lepszą miarą przeciętną to suma odchyleń będzie już większa i wyniesie 5.05.

W Excelu istnieje funkcja:

  • ŚREDNIA.

Średnia stanowi także dobrą miarę jeśli chcemy porównać jakieś grupy. Co jednak zrobić w sytuacji, kiedy przykładowo dwaj studenci mają identyczne średnie ocen? Czy to oznacza, że ich oceny są także takie same? Taka sytuacja może się zdarzyć, ale występuje dosyć rzadko. Poniżej zostały przedstawione oceny dwóch studentów, którzy mają identyczną średnią.

To co możemy zauważyć gołym okiem to fakt, że oceny studenta nr 2 są bliżej średniej. Miarą zróżnicowania cechy jest wariancja dana formułą:

s2=1Ni=1N(xix¯)2

gdzie:

  • s2 - symbol wariancji,
  • x¯ - średnia arytmetyczna w zbiorowości,
  • xi - wariant cechy mierzalnej,
  • N - liczebność badanej zbiorowości.

Jeżeli przeanalizujemy wzór na wariancję jest on bardzo logiczny. W pierwszym kroku liczymy odchylenia wartości cechy od średniej. Następnie otrzymane wartości podnosimy do kwadratu w celu uniknięcia wartości ujemnych, a następnie wszystko uśredniamy. Możemy zatem powiedzieć, że wariancja jest średnią kwadratów odchyleń wartości od średniej.

Wariancja ocen pierwszego studenta wynosi 0.79, natomiast drugiego 0.14. Na podstawie tej miary jesteśmy w stanie stwierdzić, że większe zróżnicowanie ocen występuje u pierwszego studenta. Nie możemy jednak powiedzieć jak bardzo się różnią ponieważ wariancji nie jesteśmy w stanie zinterpretować. Wynika to z faktu, że wynik wariancji jest podawany w jednostkach do kwadratu, co zwykle jest pozbawione sensu.

W Excelu dysponujemy dwiema funkcjami do wyliczenia wariancji:

  • WARIANCJA.POP (we wzorze znajduje się 1N),
  • WARIANCJA.PRÓBKI (we wzorze znajduje się 1N1).

W zależności od tego czy mamy informację o populacji czy tylko próbie powinniśmy stosować odpowiednią formułę. Podczas zajęć przyjmujemy, że dysponujemy całą populacją i będziemy stosować odpowiednie funkcje.

Pierwiastek z wariancji czyli odchylenie standardowe umożliwia liczbowe określenie zróżnicowania. Informuje o ile jednostki zbiorowości różnią się średnio od średniej. W interpretacji odchylenia standardowego musimy pamiętać o pojawiającym się dwa razy słowie średnia. Pierwsze dotyczy średniej zastosowanej we wzorze na wariancje, a drugie określa policzoną wcześniej średnią arytmetyczną.

O pierwszym studencie powiemy, że jego oceny różnią się średnio od średniej o 0.89 oceny, natomiast oceny drugiego studenta odchylają się średnio od średniej o 0.37 oceny.

Podobnie jak w przypadku wariancji w Excelu znajdują się dwie funkcje do wyznaczania odchylenia standardowego:

  • ODCH.STAND.POPUL,
  • ODCH.STANDARD.PRÓBKI.

Jeśli średnie są takie same to do oceny zróżnicowania wystarczy odchylenie standardowe. Sytuacja się jednak komplikuje w przypadku występowania różnic pomiędzy średnimi. Jak zatem porównać zróżnicowanie cech, które mają różne średnie i odchylenia standardowe?

Przeprowadzono eksperyment, w którym 100 osobom zmierzono długość ręki i nogi.

Średnia długość nogi wynosiła 102.97 cm, a odchylenie standardowe 9.24 cm. Z kolei długość ręki charakteryzowała się wartością 74.78 cm z odchyleniem standardowym rzędu 9.33 cm. Ocena zróżnicowania cech o różnych średnich jest możliwe z wykorzystaniem klasycznego współczynnika zmienności:

Vs=sx¯100,

gdzie:

  • s - odchylenie standardowe,
  • x¯ - średnia arytmetyczna.

Współczynnik zmienności wyrażony jest w procentach i można przyjąć kilka umownych progów:

  • 0%-20% - cecha mało zróżnicowana,
  • 21%-40% - cecha umiarkowanie zróżnicowana,
  • 41%-60% - cecha silnie zróżnicowana,
  • powyżej 60% - cecha bardzo silnie zróżnicowana.

Oczywiście wszystko zależy od tego jaką cechę analizujemy i jakie jest jej typowe zróżnicowanie.

Obliczając wartość współczynnika zmienności dla długości nogi otrzymamy 8.97%, natomiast dla długości ręki 12.48%. Na tej podstawie możemy stwierdzić, że długość ręki charakteryzuje się większym zróżnicowaniem.

Klasyczny współczynnik zmienności nie ma oprogramowanej odpowiedniej funkcji w Excelu. Można natomiast w prosty sposób tę wartość obliczyć.

Odchylenie standardowe oraz średnią zestawiamy ze sobą także podczas wyznaczania typowego obszaru zmienności:

x¯s<xtyp<x¯+s

Zgodnie z definicją w tym przedziale mieści się około 2/3 wszystkich jednostek analizowanej cechy.

Typowy obszar zmienności dla długości nogi to przedział od 93.73 cm do 112.21 cm i w rzeczywistości zawiera 74% obserwacji.

Patrz też: Reguła trzech sigm.

Do kompletnego opisu struktury brakuje tylko miar określających asymetrię oraz skupienie wokół średniej. Klasyczny współczynnik asymetrii nazywany także trzecim momentem centralnym albo skośnością jest wyrażony wzorem:

α3=1Ni=1N(xix¯)3s3,

gdzie:

  • α3 - symbol klasycznego współczynnika asymetrii,
  • s - odchylenie standardowe w zbiorowości,
  • x¯ - średnia arytmetyczna w zbiorowości,
  • xi - wariant cechy mierzalnej,
  • N - liczebność badanej zbiorowości.

Pozwala określić czy rozkład cechy jest:

  • symetryczny - rozkład jest symetryczny, α3=0,
  • lewostronnie asymetryczny - wydłużone lewe ramię rozkładu, α3<0,
  • prawostronnie asymetryczny - wydłużone prawe ramię rozkładu, α3>0.

Skośność dla długości nogi wynosi 0.1134617, co oznacza, że rozkład długości nóg cechuje się lekką prawostronną asymetrią.

W Excelu znajduje się funkcja o nazwie:

  • SKOŚNOŚĆ.

Skupienie wokół średniej definiuje klasyczny współczynnik koncentracji, inaczej czwarty moment centralny lub kurtoza:

α4=1Ni=1N(xix¯)4s4,

gdzie:

  • α4 - symbol klasycznego współczynnika koncentracji,
  • s - odchylenie standardowe w zbiorowości,
  • x¯ - średnia arytmetyczna w zbiorowości,
  • xi - wariant cechy mierzalnej,
  • N - liczebność badanej zbiorowości.

Pozwala określić czy rozkład cechy jest:

  • normalny - α4=3,
  • spłaszczony - wartości nie są mocno skoncentrowane wokół średniej, α4<3,
  • wysmukły - wartości są mocno skoncentrowane wokół średniej, α4>3.

Niektóre programy zamiast kurtozy wyznaczają tzw. eksces:

Ex=α43

Wówczas wartość tej miary interpretujemy przyjmując za punkt odniesienia wartość 0.

Kurtoza dla długości nogi wynosi 6.4025412, co oznacza, że rozkład długości nóg jest wysmukły.

W Excelu znajduje się funkcja o nazwie:

  • KURTOZA.

W rzeczywistości wynikiem działania tej funkcji jest eksces. W interpretacji zatem wynik odnosimy do wartości 0.

Do wyznaczenia powyższych miar można także wykorzystać dodatek programu Excel: Analiza danych znajdujący się po prawej stronie we wstążce DANE. Jeśli nie widzimy tego dodatku to klikamy Przycisk pakietu Office w lewym górnym rogu ekranu, następnie Opcje. W nowym oknie przechodzimy do Dodatki i na dole okna przycisk Przejdź. Zaznaczamy Analysis ToolPak i wybieramy OK.

Przykład

Wykorzystując zbiór danych na temat sklepów Rossmann przeprowadzimy kompleksową analizę porównawczą struktury sprzedaży w dwóch wybranych sklepach. Pierwszy ze sklepów (id=1) posiada asortyment podstawowy i jest typu c, natomiast drugi (id=7) posiada asortyment rozszerzony i jest typu a. W pierwszym kroku zobaczmy jak wygląda rozkład analizowanej cechy po wyeliminowaniu dni, w którym sklep był zamknięty.

Już na pierwszy rzut oka widać różnice w rozkładzie sprzedaży dla poszczególnych sklepów. Pierwszy z rozkładów jest bardziej wysmukły, natomiast w drugim przypadku obserwujemy wyższe wartości sprzedaży. Z wykorzystaniem miar klasycznych dokonamy analizy sprzedaży.

Sklep_1 Sklep_7
n 303.00 305.00
x_sr 4730.72 8975.03
s 1057.28 2487.50
v_s 22.35 27.72
alpha_3 1.00 0.58
alpha_4 4.53 2.83

3.2 Miary pozycyjne

Podstawowe miary pozycyjne nie są obliczane z wykorzystaniem wszystkich obserwacji, jak ma to miejsce w przypadku miar klasycznych, tylko szukamy obserwacji która wskazuje wartość wybranej miary pozycyjnej. Najpopularniejszą z miar pozycyjnych jest mediana (kwartyl 2, wartość środkowa, Q2), która wyznacza wartość dla której 50% jednostek zbiorowości ma wartości cechy niższe bądź równe medianie, a 50% równe bądź wyższe od mediany.

Medianę wyznacza się poprzez posortowanie wartości cechy rosnąco i wybór wartości środkowej (jeśli N jest nieparzyste) lub średniej z wartości środkowych (jeśli N jest parzyste).

Zaletą mediany jest mniejsza wrażliwość na obserwacje odstające. Rozważmy przypadek wynagrodzeń w pewnych przedsiębiorstwach:

W firmie A wynagrodzenia pracowników nie są zróżnicowane, ale nie występują pomiędzy nimi zbyt duże różnice. Średnia pensja (kolor czerwony) wynosi 3357 zł, natomiast mediana (kolor niebieski) odpowiada wynagrodzeniom 7 i 8 pracownika - 3500 zł. Można powiedzieć, że obie wartości dobrze odzwierciedlają realne zarobki pracowników. Z kolei w firmie B nierówności dochodowe są znacznie większe, możliwe że zestawiono wynagrodzenia pracowników szeregowych oraz kadry zarządzającej. Średnia wynosząca 3104 zł nie oddaje prawdziwych zarobków ani pierwszej ani drugiej grupy. Natomiast wartość mediany wynosząca 2525 zł jest bardziej odporna na wartości odstające. Mediana wynagrodzenia w firmie B oznacza, że 50% pracowników otrzymuje pensję w wysokości 2525 zł lub mniej, natomiast drugie 50% zatrudnionych uzyskuje wynagrodzenie w wysokości 2525 zł lub więcej.

W Excelu możemy skorzystać z funkcji:

  • MEDIANA(wartości cechy),
  • KWARTYL.PRZEDZ.ZAMK(wartości cechy, 2).

Mediana podzieliła nam jednostki zbiorowości na dwie połowy. Jeśli podzielimy pierwszą połową ponownie na pół otrzymamy wartość kwartyla pierwszego (dolnego), który informuje, że 25% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu Q1, a 75% równe bądź wyższe od tego kwartyla. Z kolei po podzieleniu drugiej połowy obserwacji uzyskujemy wartość kwartyla trzeciego (górnego), który informuje, że 75% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi trzeciemu Q3, a 25% równe bądź wyższe od tego kwartyla.

Do wyznaczenia wartości kwartyli w Excelu korzystamy z funkcji:

  • KWARTYL.PRZEDZ.ZAMK(wartości cechy, numer kwartyla),

gdzie numer kwartyla to:

  • 0 - minimum,
  • 1 - kwartyl dolny,
  • 2 - mediana,
  • 3 - kwartyl górny,
  • 4 - maksimum.

W firmie A kwartyl dolny wynagrodzeń wyniósł 2550 zł, co oznacza, że 25% pracowników uzyskuje pensją równą bądź niższą niż 2550 zł, a 75% równą bądź wyższą niż 2550. Z kolei 75% pracowników otrzymuje wynagrodzenie mniejsze lub równe 4038 zł, a 25% większe bądź równe 4038 zł. W firmie B kwartyl pierwszy jest równy 2238 zł, a trzeci 4350 zł.

Wartości kwartyli można przedstawić na wykresie pudełkowym (ang. boxplot):

W miarach pozycyjnych opartych na kwartylach zróżnicowanie wartości od mediany mierzy odchylenie ćwiartkowe:

Q=(Q3Q1)2

gdzie:

  • Q - symbol odchylenia ćwiartkowego,
  • Q1 - kwartyl pierwszy,
  • Q3 - kwartyl trzeci.

Mierzy ono przeciętne odchylenie wartości cechy zbiorowości od mediany u 50% środkowych jednostek - między kwartylem dolnym i górnym. Przykładowo w firmie A przeciętne odchylenie wynagrodzenia od mediany wynosi 744 zł.

Zestawienie ochylenia ćwiartkowego oraz mediany pozwala na obliczenie pozycyjnego współczynnika zmienności:

VQ=QQ2100

gdzie:

  • VQ - symbol pozycyjnego współczynnika zmienności,
  • Q - odchylenie ćwiartkowe,
  • Q2 - mediana.

Podobnie jak w przypadku klasycznego współczynnika zmienności korzystamy z umownych progów dotyczących zróżnicowania. W firmie A pozycyjny współczynnik zmienności był równy 21% co oznacza, że wynagrodzenia w tej firmie cechowały się umiarkowanym zróżnicowaniem, natomiast w firmie B było to 42% czyli silne zróżnicowanie wynagrodzeń.

Ostatnią miarą opartą na kwartylach jest pozycyjny współczynnik asymetrii, który określa kierunek i siłę asymetrii jednostek znajdujących się między pierwszym i trzecim kwartylem:

AQ=(Q1+Q32Q2)(2Q)

gdzie:

  • AQ — symbol pozycyjnego współczynnika asymetrii,
  • Q1 — kwartyl pierwszy,
  • Q3 — kwartyl trzeci,
  • Q2 — mediana,
  • Q — odchylenie ćwiartkowe.

Interpretacja pozycyjnego współczynnika asymetrii przebiega identycznie jak w przypadku klasycznego współczynnika asymetrii:

  • symetryczny - mediana pomiędzy wartościami kwartyli dolnego i górnego, AQ=0,
  • lewostronnie asymetryczny - mediana bliżej wartości kwartyla górnego, AQ<0,
  • prawostronnie asymetryczny - mediana bliżej wartości kwartyla dolnego, AQ>0.

Tę informację możemy także odczytać z wykresu pudełkowego, określając umiejscowienie mediany względem pozostałych kwartyli:

W firmie A pozycyjny współczynnik asymetrii był równy -0.28, co pociąga za sobą informację o asymetrii lewostronnej, natomiast w firmie B występowała asymetria prawostronna (0.73).

Przykład

Wyznaczmy miary pozycyjne dla dwóch sklepów Rossmann analizowanych wcześciej:

Sklep_1 Sklep_7
n 303.00 305.00
q1 3908.00 7129.00
q2 4607.00 8592.00
q3 5286.00 10681.00
q 689.00 1776.00
v_q 14.96 20.67
aq -0.01 0.18

Zadania

Przeprowadzić kompleksową analizę struktury sprzedaży/liczby klientów dla poszczególnych dni tygodnia.

3.3 Szereg jednostkowy i przedziałowy

Nie zawsze dysponujemy danymi zebranymi w szeregu prostym. W opracowaniach statystycznych dane publikowane są w postaci szeregów jednostkowych oraz przedziałowych. W tej części opracowania skupimy się na analizie struktury takich danych.

3.3.1 Szereg jednostkowy

W przypadku szeregu jednostkowego możliwe jest odtworzenie szeregu prostego bądź zastosowanie wzorów, w których odpowiednio przeważymy obserwacje. Odpowiednimi wagami będą liczebności.

x¯=1Ni=1Nxini

s2=1Ni=1N(xix¯)2ni

α3=1Ni=1N(xix¯)3nis3

α4=1Ni=1N(xix¯)4nis4

gdzie:

  • x¯ - średnia arytmetyczna w zbiorowości,
  • s - odchylenie standardowe w zbiorowości,
  • α3 - symbol klasycznego współczynnika asymetrii,
  • α4 - symbol klasycznego współczynnika koncentracji,
  • xi - wariant cechy mierzalnej,
  • ni - liczba obserwacji dla wariantu,
  • N - liczebność badanej zbiorowości.

3.3.2 Szereg przedziałowy

W przypadku szeregu przedziałowego przeprowadzanie analizy struktury nie jest już takie oczywiste. Nie mamy jednoznacznie określonego wariantu cechy. W związku z tym wyznaczamy środek przedziału klasowego i tą wartość traktujemy jako wariant cechy. Z takiego podejścia do sprawy wynikają dwie istotne kwestie:

  • poniższe wzory możemy zastosować wyłącznie do analizy szeregów rozdzielczych przedziałowych zamkniętych o równych przedziałach klasowych,
  • sposób utworzenia szeregu rozdzielczego będzie miał wpływ na precyzję wyników.

x¯=1Ni=1Nxini

s2=1Ni=1N(xix¯)2ni

α3=1Ni=1N(xix¯)3nis3

α4=1Ni=1N(xix¯)4nis4

gdzie:

  • x¯ - średnia arytmetyczna w zbiorowości,
  • s - odchylenie standardowe w zbiorowości,
  • α3 - symbol klasycznego współczynnika asymetrii,
  • α4 - symbol klasycznego współczynnika koncentracji,
  • xi - środek przedziału klasowego dla wariantu cechy,
  • ni - liczba obserwacji dla wariantu,
  • N - liczebność badanej zbiorowości.

Przy założeniu, że dominanta znajduje się w najliczniejszym przedziale możemy zastosować poniższy wzór:

D=xD+nDnD12nDnD1nD+1cD

gdzie:

  • D - symbol dominanty,
  • xD - początek przedziału, w którym znajduje się dominanta,
  • nD - liczebność najliczniejszego przedziału,
  • nD1 - liczebność przedziału wcześniejszego niż najliczniejszy,
  • nD+1 - liczebność przedziału późniejszego niż najliczniejszy,
  • cD - rozpiętość najliczniejszego przedziału.

Dla szeregu rozdzielczego możemy także wyznaczyć wartości kwartyli stosując wzory interpolacyjne:

Q1=xQ1+N4cumQ11nQ1cQ1

gdzie:

  • Q1 - oznaczenie kwartyla pierwszego,
  • N - liczebność badanej zbiorowości,
  • xQ1 - początek przedziału, w którym znajduje się kwartyl pierwszy,
  • cumQ11 - skumulowana liczebność z przedziału wcześniejszego niż ten, który zawiera kwartyl pierwszy,
  • nQ1 - liczebność przedziału zawierającego kwartyl pierwszy,
  • cQ1 - rozpiętość przedziału zawierającego kwartyl pierwszy.

Q2=xQ2+N2cumQ21nQ2cQ2

gdzie:

  • Q2 - oznaczenie mediany,
  • N - liczebność badanej zbiorowości,
  • xQ2 - początek przedziału, w którym znajduje się mediana,
  • cumQ21 - skumulowana liczebność z przedziału wcześniejszego niż ten, który zawiera mediana,
  • nQ2 - liczebność przedziału zawierającego medianę,
  • cQ2 - rozpiętość przedziału zawierającego medianę.

Q3=xQ3+3N4cumQ31nQ3cQ3

gdzie:

  • Q3 - oznaczenie kwartyla trzeciego,
  • N - liczebność badanej zbiorowości,
  • xQ3 - początek przedziału, w którym znajduje się kwartyl trzeci,
  • cumQ31 - skumulowana liczebność z przedziału wcześniejszego niż ten, który zawiera kwartyl trzeci,
  • nQ3 - liczebność przedziału zawierającego kwartyl trzeci,
  • cQ3 - rozpiętość przedziału zawierającego kwartyl trzeci.

Po wyznaczeniu wartości kwartyli pozostałe miary liczymy w tradycyjny sposób.

3.4 Podsumowanie miar

3.4.1 Schemat

Analiza struktury w zależności od typu szeregu

3.4.2 Miary klasyczne

Miara Oznaczenie Wzór Interpretacja i wykorzystanie Funkcja w Excelu
Średnia arytmetyczna x¯ i=1NxiN Wartość przeciętna ŚREDNIA(x)
Średnia harmoniczna x¯h ni=1N1xi Wartość przeciętna ŚREDNIA.GEOMETRYCZNA(x)
Średnia geometryczna x¯g x1x2...xN Wartość przeciętna ŚREDNIA.HARMONICZNA(x)
Odchylenie przeciętne (średnie) d 1Nxix¯ O ile wszystkie jednostki badanej zbiorowości różnią się średnio ze względu na wartość zmiennej od średniej arytmetycznej tej zmiennej ODCH.ŚREDNIE(x)
Odchylenie kwadratowe d2 i=1N(xix¯)2 Kwadrat odchylenia przeciętnego ODCH.KWADRATOWE(x)
Odchylenie standardowe (dla populacji) s i=1N(xix¯)2N O ile przeciętnie odchylają się wartości od średniej ODCH.STAND.POPUL(x)
Odchylenie standardowe (dla próby) s i=1N(xix¯)2N1 O ile przeciętnie odchylają się wartości od średniej ODCH.STANDARD.PRÓBKI(x)
Wariancja (dla populacji) s2 i=1N(xix¯)2N Informuje o zróżnicowaniu populacji WARIANCJA.POP(x)
Wariancja (dla próby) s2 i=1N(xix¯)2N1 Informuje o zróżnicowaniu próby WARIANCJA.PRÓBKI(x)
Rozstęp R max(x)min(x) Empiryczny obszar zmienności, wartość maksymalna cechy x minus wartość minimalna tej cechy
Typowy obszar zmienności x¯s<xtyp<x¯+s Informuje o relatywnym zróżnicowaniu populacji (próby). Zwykle wykorzystujemy do porównań dwóch lub więcej grup.
Współczynnik zmienności Vx sx¯ Informuje o relatywnym zróżnicowaniu populacji (próby). Zwykle wykorzystujemy do porównań dwóch lub więcej grup. Wyrażamy w procentach.
Współczynnik asymetrii α3 1Ni=1N(xix¯)3s3 Pozwala zidentyfikować czy rozkład jest symetryczny lub asymetryczny SKOŚNOŚĆ(x)
Współczynnik koncentracji α4 1Ni=1N(xix¯)4s4 Pozwala zidentyfikować czy rozkład jest wysmukły czy spłaszczony KURTOZA(x)
Eksces Ex α43 Pozwala zidentyfikować czy rozkład jest wysmukły czy spłaszczony (porównujemy do 0)

3.4.3 Miary pozycyjne

Miara Oznaczenie Wzór Interpretacja i wykorzystanie Funkcja w Excelu
Kwartyl 1 Q1 Dzieli populację na dwie części w stosunku 25 / 75 KWARTYL.PRZEDZ.ZAMK(x,1)
Kwartyl 2, Mediana Q2,Me Dzieli populację na dwie części w stosunku 50 / 50 KWARTYL.PRZEDZ.ZAMK(,2) lub MEDIANA(x)
Kwartyl 3 Q3 Dzieli populację na dwie części w stosunku 75 / 25 KWARTYL.PRZEDZ.ZAMK(x,3)
Odchylenie ćwiartkowe Q Q=Q3Q12 Mierzy ono przeciętne odchylenie wartości cechy zbiorowości od mediany
Pozycyjny współczynnik zmienności VQ QMe Mierzy przeciętne zróżnicowanie cechy
Pozycyjny współczynnik asymetrii AQ Q1+Q32Me2Q Mierzy (a)symetrię rozkładu

3.5 Przedziały ufności

Dotychczas analizowane dane dotyczyły populacji, zatem obliczone wartości statystyk można uznać za precyzyjne i nieobciążone błędem. Natomiast większość prowadzonych badań ogranicza się do analizy jedynie fragmentu populacji. Wówczas, oprócz obliczenia interesującej nas miary ważne jest także podanie możliwego błędu. Popularną praktyką jest obliczanie przedziałów ufności, które prezentują zakres, w którym z określonym prawdopodobieństwem znajduje się prawdziwa wartość parametru. Zwykle bierze się pod uwagę następujące prawdopodobieństwa: 90%, 95% i 99%, niemniej można wybrać dowolną wartość z przedziału 0-100%. We wzorach operuje się pojęciem poziomu istotności oznaczanym przez α.

Skupimy się na wyznaczaniu następujących przedziałów ufności:

  • dla średniej w populacji normalnym ze znanym odchyleniem standardowym,
  • dla średniej w populacji normalnym z nieznanym odchyleniem standardowym dla małej próby,
  • dla średniej w populacji normalnym z nieznanym odchyleniem standardowym dla dużej próby,
  • dla odsetka (proporcji, frakcji).

W każdym przypadku będziemy musieli wyznaczyć kwantyl rozkładu, który odpowiada przyjętemu poziomowi praw