Seminarium dyplomowe 2025/2026

Terminy seminarium

10.04 (piątek) 18:00-20:15 (3h)
17.05 (niedziela) 16:15-18:30 (3h)
6.06 (sobota) 17:00-18:30 (2h)
21.06 (niedziela) 16:15-18:30 (3h)

Obrony:

04.07.2026 (sobota)
12.09.2026 (sobota)

Minimalne wymagania techniczne pracy

Każda praca dyplomowa powinna zawierać:

Opis problemu badawczego
- jasno sformułowane pytanie badawcze
- uzasadnienie wyboru problemu
Opis zbioru danych
- źródło danych
- liczba obserwacji
- liczba cech
- opis zmiennych
Eksploracyjną analizę danych (EDA)
- statystyki opisowe
- wizualizacje danych
- identyfikacja braków danych i wartości odstających
Zastosowanie co najmniej dwóch metod analitycznych, np.:
- modele klasyfikacyjne
- modele regresyjne
- metody klasteryzacji
- metody detekcji anomalii
Porównanie metod
- metryki jakości (np. accuracy, F1, RMSE)
- interpretacja wyników
Interpretację wyników
- znaczenie praktyczne
- ograniczenia analizy

Konspekt pracy dyplomowej

Wstęp
Rozdział 1. Opis badanego zjawiska
Rozdział 2. Zastosowana metodyka badawcza
Rozdział 3. Zastosowanie metod do zjawiska i otrzymane wyniki
Zakończenie
Bibliografia

Strategia pisania pracy dyplomowej

Wybór problemu badawczego
Analiza obecnego stanu wiedzy na podstawie np.
Wybór zbioru danych i przeprowadzenie analiz
Opisanie rezultatów oraz części teoretycznych

Przykładowe źródła danych oraz tematy prac

Wykrywanie anomalii z wykorzystaniem analizy behawioralnej
Zastosowanie LLM w cyberbezpieczeństwie
Analiza danych pogodowych https://danepubliczne.imgw.pl/pl/introduction, https://python.plainenglish.io/weather-prediction-with-machine-learning-90e04d86cea7
Analiza sentymentu tekstów np. z google news
Predykcja autora tekstu, predykcja gatunku książki na podstawie opisu fabuły z Wikipedii https://vgherard.github.io/posts/2024-04-25-grammar-as-a-biometric-for-authorship-verification/
Analiza zmian w wynikach egzaminów https://mapa.wyniki.edu.pl/MapaEgzaminow/
Weryfikacja dostępności zasobów rządowych - webscraping i sprawdzanie linków
Dane od Meta https://ai.meta.com/ai-for-good/datasets/
Analiza danych przestrzennych https://rpubs.com/Pytlarz_Kapral/1269465
Analiza danych audio https://004822.xyz/pl/audio-analysis/
Zadania z Olimpiady AI https://github.com/OlimpiadaAI
https://www.kaggle.com/datasets
https://huggingface.co/datasets
https://registry.opendata.aws/
https://zenodo.org/
https://data.europa.eu
https://archive.ics.uci.edu
https://data.gov.pl

Tematy prac dyplomowych z poprzednich lat

Analiza korelacji między atrybutami akustycznymi a popularnością utworów muzycznych na platformie Spotify
Analiza przestrzenna rozmieszczenia parkometrów w Poznaniu w strefach płatnego parkowania
Nierówności regionalne w wynikach matury 2024 – analiza geograficzna i społeczna
Analiza wynagrodzeń absolwentów polskich uczelni w zależności od dziedziny i roku ukończenia studiów przy użyciu narzędzi Big Data
Analiza porównawcza repozytoriów GitHub w kontekście adopcji i charakterystyki procesów CI/CD z wykorzystaniem GitHub Actions
Identyfikacja czynników wpływających na sprzedaż mieszkań w Polsce – analiza na poziomie powiatowym w latach 2013–2023
Wydźwięk artykułów dotyczących Centralnego Portu Komunikacyjnego - analiza sentymentu na podstawie Google News
Analiza sentymentu w recenzjach produktów na Amazonie
Wyjaśnienia kontrfaktyczne z wykorzystaniem symulacji Monte Carlo
Wykorzystanie metod n-gramów w analizie wzorców utworów nadawanych przez polskie stacje radiowe
Analiza danych sprzedażowych H&M z zastosowaniem systemu rekomendacji produktów

Zasady korzystania z modeli językowych (LLM)

Modele językowe (np. ChatGPT, Claude, Gemini) mogą być wykorzystywane jako narzędzia wspomagające, ale nie jako źródło gotowej pracy.

Dozwolone zastosowania

Modele językowe mogą być używane do:

Wyszukiwania literatury

Przykłady zastosowań:

generowanie listy słów kluczowych
wyszukiwanie artykułów naukowych
streszczanie artykułów
porównywanie metod

Pomocy w pisaniu tekstu

Możliwe zastosowania:

poprawa stylu językowego
parafrazowanie tekstu
sprawdzanie poprawności językowej
tłumaczenia

Niedozwolone:

kopiowanie wygenerowanego tekstu bez weryfikacji
generowanie całych rozdziałów bez zrozumienia treści

Wyjaśniania metod analitycznych

Modele mogą pomagać w:

interpretacji wyników
wyjaśnianiu działania algorytmów
proponowaniu metryk oceny

Tworzenia kodu

Dozwolone:

generowanie fragmentów kodu
debugowanie
optymalizacja kodu

Wymagane:

pełne zrozumienie działania kodu
samodzielna modyfikacja kodu

Niedozwolone zastosowania

Nie wolno:

generować całej pracy dyplomowej
kopiować tekstów bez sprawdzenia źródeł
cytować nieistniejących publikacji
przedstawiać wygenerowanych treści jako własnych badań

Wymóg transparentności

Jeśli model językowy był używany, należy to zaznaczyć w pracy.

Przykładowa formuła do umieszczenia w pracy:

W pracy wykorzystano model językowy do wsparcia wyszukiwania literatury, poprawy stylistycznej tekstu oraz generowania przykładowych fragmentów kodu. Wszystkie wyniki analiz oraz interpretacje zostały wykonane samodzielnie przez autora.

Dodatkowe rekomendacje (z doświadczenia promotorskiego)

Wymagania formalne

minimalna liczba stron: 30
minimalna liczba źródeł: 15 (pakiety R i python też mogą być cytowane)
podpisy pod wykresami i tabelami

Rekomendacje techniczne

stworzenie repozytorium na github np. https://github.com/BartoszM-Analyst/End-to-End-Modern-Data-Platform-Lakehouse-Architecture
wykorzystanie quarto do generowania tekstu pracy np. https://github.com/lwawrowski/thesis-quarto