A visual introduction to machine learning

Model Tuning and the Bias-Variance Tradeoff

Klasyfikacja

Zbiory danych

  1. Dataset of homes in San Francisco and New York
  • in_sf - budynek znajduje się w San Francisco
  • beds - liczba sypialni
  • bath - liczba łazienek
  • price - cena
  • year_built - rok budowy
  • sqft - powierzchnia
  • price_per_sqft - cena za stopę kwadratową
  • elevation - wysokość nad poziomem morza
  1. Social Network Ads
  • User ID - identyfikator użytkownika
  • Gender - płeć
  • Age - wiek
  • EstimatedSalary - pensja
  • Purchased - dokonał zakupu
  1. Paralyzed Veterans Mail Campaign Info: KDD Cup 1998 Data

  1. Synthetic Financial Datasets For Fraud Detection Info: Kaggle
  • step – jednostka czasu
  • type – typ transakcji
  • amount – kwota transakcji
  • nameOrig – id klienta rozpoczynającego transakcję
  • oldbalanceOrg – saldo przed transakcją
  • newbalanceOrg – saldo po transakcji
  • nameDest – id odbiorcy transakcji
  • oldbalanceDest – saldo przed transakcją
  • newbalanceDest – saldo po transakcji
  • isFraud – transakcja jest oszustwem
  • isFlaggedFraud – oznaczenie oszustwa przez prosty model

Grupowanie

Zbiory danych

  1. Klienci
  • klientID - identyfikator klienta
  • plec - płeć
  • wiek - wiek
  • roczny_dochod - roczny dochód wyrażony w tys. dolarów
  • wskaznik_wydatkow - klasyfikacja sklepu od 1 do 100
  1. Census2000
  • ID - kod pocztowy regionu
  • LOCX - długość geograficzna
  • LOCY - szerokość geograficzna
  • MEANHHSZ - średnia wielkość gospodarstwa domowego w regionie
  • MEDHHINC - mediana dochodu gospodarstwa domowego w regionie
  • REGDENS - percentyl gęstości zaludnienia (1 - najniższy percentyl, 100 - najwyższy percentyl)
  • REGPOP - populacja w regionie
  1. Sprzedaż spodni roboczych

  1. Credit Card Dataset Info: Kaggle
  • CUST_ID : Identification of Credit Card holder (Categorical)
  • BALANCE : Balance amount left in their account to make purchases
  • BALANCE_FREQUENCY : How frequently the Balance is updated, score between 0 and 1 (1 = frequently updated, 0 = not frequently updated)
  • PURCHASES : Amount of purchases made from account
  • ONEOFF_PURCHASES : Maximum purchase amount done in one-go
  • INSTALLMENTS_PURCHASES : Amount of purchase done in installment
  • CASH_ADVANCE : Cash in advance given by the user
  • PURCHASES_FREQUENCY : How frequently the Purchases are being made, score between 0 and 1 (1 = frequently purchased, 0 = not frequently purchased)
  • ONEOFFPURCHASESFREQUENCY : How frequently Purchases are happening in one-go (1 = frequently purchased, 0 = not frequently purchased)
  • PURCHASESINSTALLMENTSFREQUENCY : How frequently purchases in installments are being done (1 = frequently done, 0 = not frequently done)
  • CASHADVANCEFREQUENCY : How frequently the cash in advance being paid
  • CASHADVANCETRX : Number of Transactions made with “Cash in Advanced”
  • PURCHASES_TRX : Numbe of purchase transactions made
  • CREDIT_LIMIT : Limit of Credit Card for user
  • PAYMENTS : Amount of Payment done by user
  • MINIMUM_PAYMENTS : Minimum amount of payments made by user
  • PRCFULLPAYMENT : Percent of full payment paid by user
  • TENURE : Tenure of credit card service for user

Prognozowanie

Zbiory danych

  1. Jakość powietrza i pogoda w Warszawie Grudzień 2017 Styczeń 2018
  • czas - data
  • pm25 - poziom PM2.5 (\(\mu g\))
  • pm10 - poziom PM10 (\(\mu g\))
  • temp - temperatura (\(^{\circ}\)C)
  • wilgotnosc - wilgotność (%)
  • wiatr - prędkość wiatru (m/s)
  • chmury - pokrycie nieba przez chmury (oktanty)
  1. Beijing PM2.5 Info: UCI MLR
  • No: row number
  • year: year of data in this row
  • month: month of data in this row
  • day: day of data in this row
  • hour: hour of data in this row
  • pm2.5: PM2.5 concentration (\(\mu g/m^3\))
  • DEWP: Dew Point
  • TEMP: Temperature
  • PRES: Pressure (hPa)
  • cbwd: Combined wind direction
  • Iws: Cumulated wind speed (m/s)
  • Is: Cumulated hours of snow
  • Ir: Cumulated hours of rain

Metody

Grupowanie