Naziv kolegija: Pretraživanje obavijesti i obrada prirodnog jezika
Nastavnik: prof. dr. sc. Tomislava Lauc
ECTS-bodovi: 3
Jezik: hrvatski
Trajanje: jedan semestar
Status: obavezni izborni
Oblik nastave: 1 sat predavanja, 1 sat vježbi
Uvjeti: Nema
Ispit: usmeni
Sadržaj:
Kolegij obrađuje niz postupaka obrade prirodnog jezika upotrebljivih u području pretraživanja teksta. Na početku se uvode osnovni koncepti poput opojavničenja, indeksiranja i težinskog faktoriranja te se nastavlja sa složenijim zadacima obrade jezika poput morfološke normalizacije (korjenovanja i lematizacije) te procjene sličnosti dokumenata i klasifikacije dokumenata. Uvodi se više paradigmi pretraživanja informacija, među ostalim i model vektorskog prostora te vjerojatnosni model pretraživanja informacija. Kolegij završava praktičnim zadatkom primjene paradigme nadziranog strojnog učenja na klasifikaciju dokumenata uz evaluaciju i usporedbu više skupova postavki.
Cilj - opće i specifične kompetencije:
Studenti savladavaju osnovne zadatke obrade prirodnog jezika s primjenom u pretraživanju informacija kao što su opojavničenje, izrada invertnog indeksa, TF-IDF težinsko faktoriranje, vektorizacija dokumenta, kosinusna sličnost između vektora, korjenovanje i lematizacija. Upoznaju se s dvije paradigme pretraživanja informacija: modelom vektorskog prostora i vjerojatnosnim modelom pretraživanja informacija. Konačno, studenti savladavaju osnove nadziranog strojnog učenja te njegove evaluacije na zadatku klasifikacije dokumenata.
Literatura:
C. D. Manning, P. Raghavan, H. Schütze (2008.), Introduction to Information Retrieval, Cambridge University Press (odabrana poglavlja)