Dubinska analiza i otkrivanje znanja iz podataka

Ovo su web stranice kolegija Dubinska analiza i otkrivanje znanja iz podataka kojeg slušaju studenti:

  • prve godine diplomskog studija Računarstvo i matematika, modul podatkovno inženjerstvo

Kolegij se održava u ljetnom semestru, a nastava se sastoji od tri sata predavanja svakog tjedna.

Način polaganja

Od studenta se očekuje da sudjeluje u nastavi, piše ispite, te napravi i prezentira projektni zadatak.

Načini stjecanja bodova te njihova raspodjela su sljedeći:

  • 30% - projektni zadatak
  • 70% - ispit
Raspodjela bodova izražena je u obliku postotka kojeg maksimalni bodovi ostvareni na određeni način čine u zbroju svih mogućih bodova.

Ne postoji nikakva međusobna uvjetovanost ni minimalni uvjeti za pojedine provjere znanja. Iznimno dobro napravljeni projektni zadaci mogu nositi i dodatne bodove.

Projektni zadatak neće se ponavljati, a ispit će se održati u svakom ispitnom terminu.

Tablica ocjena:
  • 50-59% ... dovoljan (2)
  • 60-74%... dobar (3)
  • 75-87%... vrlo dobar (4)
  • 88-100% ... izvrstan (5)

Sadržaj kolegija

  • Uvod. O dubinskoj analizi podataka i ulaznim tabularnim podacima. Ciljevi dubinske analize podataka, tipovi zadataka, vrste problema, specifičnosti tabularnih podataka.
  • Osnovne mjere dubinske analize podataka i teorije informacija. Ponavljanje nekih bitnijih definicija iz statistike (varijanca, očekivanje i slično). Definicija entropije, dobiti informacija, mjere zajedničke informacije. Osnovne mjere evaluacije modela (često korištene i kod dubinske analize podataka), točnost, preciznost itd.
  • Uvod u stabla odlučivanja. Opis modela stabla odlučivanja, treniranje modela, stvaranje predviđanja. Evaluacija modela.
  • Konstrukcija pravila. Opis skupova pravila, treniranje, cilj, evaluacija.
  • Traženje podgrupa. Opis problema, algoritam za traženje podgrupa, evaluacija, primjene.
  • Traženje iznimnih modela. Opis problema, algoritam za traženje iznimnih modela, analiza dobivenog znanja.
  • Zatvoreni i frekventni skupovi objekata. Algoritmi za stvaranje zatvorenih i frekventnih skupova objekata, ciljevi, znanje koje mogu otkriti.
  • Asocijacijska pravila. Opis problema i algoritma za stvaranje asocijacijskih pravila, primjene i analiza otkrivenog znanja.
  • Konceptualno klasteriranje. Osnovno o klasteriranju. Opis problema konceptualnog klasteriranja uz navođenje razlika od osnovnog zadatka klasteriranja, osnovni algoritam za konceptualno klasteriranje, analiza dobivenog znanja.
  • Traženje redeskripcija. Opis problema, najpoznatijih pristupa i analiza dobivenog znanja.
  • Osnove postprocesiranja i vizualizacije podataka. Analiza dobivenih modela, skupova pravila, vizualizacija ulaznih podataka i rezultata.

Glavna literatura

  • Lior Rokach, Data mining and knowledge discovery handbook, Springer, New York, 2005, poveznica.
  • Johannes Furnkranz, Dragan Gamberger, Nada Lavrač, Foundations of Rule Learning, Springer Science & Business Media, 2012, poveznica na poglavlje (dostupno u knjižnici).
  • Esther Galbrun, Pauli Miettinen, Redescription mining, Springer, Cham, 2017 (dostupno u knjižnici).
  • Aggarwal, Data mining: the textbook. Springer, New York, 2015, poveznica.
  • Nada Lavrač et al. Subgroup Discovery with CN2-SD, Journal of Machine learning research, 2004, poveznica.
  • Duivesteijn, Wouter, Ad J. Feelders, and Arno Knobbe, Exceptional Model Mining: Supervised descriptive local pattern mining with complex target concepts. Data Mining and Knowledge Discovery, 2016, (obratiti se predavaču).
  • Airel P. Suarez, Jose F. Martinez-Trinidad, Jesus A. Carrasco-Ochoa, A review of conceptual clustering algorithms, Artificial Intelligence Reviews, 2019, (obratiti se predavaču).
  • Jake VanderPlas, Python Data Science Handbook, poveznica.

Dodatna literatura

  • Pruning Decision Trees, poveznica.
  • Classification and Regression trees, poveznica.
  • Top-down induction of clustering trees, poveznica.
  • Tree ensemble for predicting structured outputs, (obratiti se predavaču).
  • QUEST-algorithm, poveznica.
  • XGBoost: A Scalable Tree Boosting System, poveznica.
  • Claus O. Wilke, Fundamentals of Data Visualization, poveznica.
  • Free Books by Allen B. Downey, poveznica.
  • Wes McKinney, Python for Data Analysis, poveznica.