Ovo su web stranice kolegija Dubinska analiza i otkrivanje znanja iz podataka kojeg slušaju studenti:
- prve godine diplomskog studija Računarstvo i matematika, modul podatkovno inženjerstvo
Kolegij se održava u ljetnom semestru, a nastava se sastoji od tri sata predavanja svakog tjedna.
Način polaganja
Od studenta se očekuje da sudjeluje u nastavi, piše ispite, te napravi i prezentira projektni zadatak.
Načini stjecanja bodova te njihova raspodjela su sljedeći:
- 30% - projektni zadatak
- 70% - ispit
Ne postoji nikakva međusobna uvjetovanost ni minimalni uvjeti za pojedine provjere znanja. Iznimno dobro napravljeni projektni zadaci mogu nositi i dodatne bodove.
Projektni zadatak neće se ponavljati, a ispit će se održati u svakom ispitnom terminu.
- 50-59% ... dovoljan (2)
- 60-74%... dobar (3)
- 75-87%... vrlo dobar (4)
- 88-100% ... izvrstan (5)
Sadržaj kolegija
- Uvod. O dubinskoj analizi podataka i ulaznim tabularnim podacima. Ciljevi dubinske analize podataka, tipovi zadataka, vrste problema, specifičnosti tabularnih podataka.
- Osnovne mjere dubinske analize podataka i teorije informacija. Ponavljanje nekih bitnijih definicija iz statistike (varijanca, očekivanje i slično). Definicija entropije, dobiti informacija, mjere zajedničke informacije. Osnovne mjere evaluacije modela (često korištene i kod dubinske analize podataka), točnost, preciznost itd.
- Uvod u stabla odlučivanja. Opis modela stabla odlučivanja, treniranje modela, stvaranje predviđanja. Evaluacija modela.
- Konstrukcija pravila. Opis skupova pravila, treniranje, cilj, evaluacija.
- Traženje podgrupa. Opis problema, algoritam za traženje podgrupa, evaluacija, primjene.
- Traženje iznimnih modela. Opis problema, algoritam za traženje iznimnih modela, analiza dobivenog znanja.
- Zatvoreni i frekventni skupovi objekata. Algoritmi za stvaranje zatvorenih i frekventnih skupova objekata, ciljevi, znanje koje mogu otkriti.
- Asocijacijska pravila. Opis problema i algoritma za stvaranje asocijacijskih pravila, primjene i analiza otkrivenog znanja.
- Konceptualno klasteriranje. Osnovno o klasteriranju. Opis problema konceptualnog klasteriranja uz navođenje razlika od osnovnog zadatka klasteriranja, osnovni algoritam za konceptualno klasteriranje, analiza dobivenog znanja.
- Traženje redeskripcija. Opis problema, najpoznatijih pristupa i analiza dobivenog znanja.
- Osnove postprocesiranja i vizualizacije podataka. Analiza dobivenih modela, skupova pravila, vizualizacija ulaznih podataka i rezultata.
Glavna literatura
- Lior Rokach, Data mining and knowledge discovery handbook, Springer, New York, 2005, poveznica.
- Johannes Furnkranz, Dragan Gamberger, Nada Lavrač, Foundations of Rule Learning, Springer Science & Business Media, 2012, poveznica na poglavlje (dostupno u knjižnici).
- Esther Galbrun, Pauli Miettinen, Redescription mining, Springer, Cham, 2017 (dostupno u knjižnici).
- Aggarwal, Data mining: the textbook. Springer, New York, 2015, poveznica.
- Nada Lavrač et al. Subgroup Discovery with CN2-SD, Journal of Machine learning research, 2004, poveznica.
- Duivesteijn, Wouter, Ad J. Feelders, and Arno Knobbe, Exceptional Model Mining: Supervised descriptive local pattern mining with complex target concepts. Data Mining and Knowledge Discovery, 2016, (obratiti se predavaču).
- Airel P. Suarez, Jose F. Martinez-Trinidad, Jesus A. Carrasco-Ochoa, A review of conceptual clustering algorithms, Artificial Intelligence Reviews, 2019, (obratiti se predavaču).
- Jake VanderPlas, Python Data Science Handbook, poveznica.
Dodatna literatura
- Pruning Decision Trees, poveznica.
- Classification and Regression trees, poveznica.
- Top-down induction of clustering trees, poveznica.
- Tree ensemble for predicting structured outputs, (obratiti se predavaču).
- QUEST-algorithm, poveznica.
- XGBoost: A Scalable Tree Boosting System, poveznica.
- Claus O. Wilke, Fundamentals of Data Visualization, poveznica.
- Free Books by Allen B. Downey, poveznica.
- Wes McKinney, Python for Data Analysis, poveznica.