+ - 0:00:00
Notes for current slide
Notes for next slide

Metody przetwarzania
i analizy danych

Grupowanie

© Łukasz Wawrowski

1 / 19

Podział metod

Uczenie nadzorowane - końcowy wynik jest znany

  • klasyfikacja

  • regresja

Uczenie nienadzorowane - końcowy wynik nie jest znany

  • grupowanie obiektów

  • grupowanie cech

2 / 19

Podział metod

3 / 19

Grupowanie

Metoda iteracyjna:

Metoda hierarchiczna:

4 / 19

Idea

Liczenie odległości pomiędzy analizowanymi obiektami.

Cechy opisujące obiekty mogą być wyrażone w różnych jednostkach np. w segmentacji klientów:

  • wiek w latach

  • wydatki na zakupy

  • liczba wizyt w sklepie

W związku z tym konieczna jest normalizacja cech czyli pozbawienie ich mian.

Najpopularniejszą metodą normalizacji jest standaryzacja:

z=xx¯s

gdzie: x¯ - średnia, s - odchylenie standardowe.

5 / 19

Standaryzacja

6 / 19

Metoda k-średnich

  1. Wskaż liczbę grup k.

  2. Wybierz dowolne k punktów jako centra grup.

  3. Przypisz każdą z obserwacji do najbliższego centroidu.

  4. Oblicz nowe centrum grupy.

  5. Przypisz każdą z obserwacji do nowych centroidów. Jeśli któraś obserwacja zmieniła grupę - przejdź do kroków nr 3 i 4, a w przeciwnym przypadku zakończ algorytm.

7 / 19

Metoda k-średnich

źródło

8 / 19

Przykład

Segementacja klientów sklepu w oparciu o następujące dane:

  • klientID - identyfikator klienta

  • plec - płeć

  • wiek - wiek

  • roczny_dochod - roczny dochód wyrażony w tys. dolarów

  • wskaznik_wydatkow - klasyfikacja sklepu od 1 do 100

9 / 19

Zadanie

Dokonaj grupowania danych dotyczących 32 samochodów według następujących zmiennych: pojemność, przebieg, lata oraz cena.

10:00
10 / 19

Metoda hierarchiczna

  1. Każda obserwacji stanowi jedną z N pojedynczych grup.

  2. Na podstawie macierzy odległości połącz dwie najbliżej leżące obserwacje w jedną grupę.

  3. Połącz dwa najbliżej siebie leżące grupy w jedną.

  4. Powtórz kroki nr 2 i 3, aż do uzyskania jednej grupy.

11 / 19

Dendrogram

źródło

12 / 19

Zadanie

Do danych z poprzedniego zadania zastosuj metodę hierarchiczną.

10:00
13 / 19

Inne algorytmy grupowania

Algorytmów grupowania jest bardzo wiele.

Niektóre z nich mają na celu wykrywanie anomalii, dzieląc dane zawsze na dwie grupy - obserwacji nietypowych oraz typowych.

14 / 19

Redukcja wymiarów

Wiele narzędzi do wizualizacji wyników można znaleźć w pakiecie factoextra.

16 / 19

Paradoks Simpsona

Efekt działania kilku grup wydaje się odwrócony, kiedy grupy są połączone.

17 / 19

Paradoks Simpsona

Efekt działania kilku grup wydaje się odwrócony, kiedy grupy są połączone.

  • Nabór na Uniwersytecie w Berekley w 1951 roku: spośród kandydatów przyjęto 45% mężczyzn i 30% kobiet.

  • Uniwersytet został oskarżony o seksizm i sprawa została skierowana do sądu.

17 / 19

Zbiór palmerpenguins

Zbiór danych na temat pingwinów

18 / 19

Pytania?

19 / 19

Podział metod

Uczenie nadzorowane - końcowy wynik jest znany

  • klasyfikacja

  • regresja

Uczenie nienadzorowane - końcowy wynik nie jest znany

  • grupowanie obiektów

  • grupowanie cech

2 / 19
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow