Naziv kolegija: Pretraživanje obavijesti i obrada prirodnog jezika

Nastavnik: prof. dr. sc. Tomislava Lauc

ECTS-bodovi: 3

Jezik: hrvatski

Trajanje: jedan semestar

Status: obavezni izborni

Oblik nastave: 1 sat predavanja, 1 sat vježbi

Uvjeti: Nema

Ispit: usmeni

 

Sadržaj:

Kolegij obrađuje niz postupaka obrade prirodnog jezika upotrebljivih u području pretraživanja teksta. Na početku se uvode osnovni koncepti poput opojavničenja, indeksiranja i težinskog faktoriranja te se nastavlja sa složenijim zadacima obrade jezika poput morfološke normalizacije (korjenovanja i lematizacije) te procjene sličnosti dokumenata i klasifikacije dokumenata. Uvodi se više paradigmi pretraživanja informacija, među ostalim i model vektorskog prostora te vjerojatnosni model pretraživanja informacija. Kolegij završava praktičnim zadatkom primjene paradigme nadziranog strojnog učenja na klasifikaciju dokumenata uz evaluaciju i usporedbu više skupova postavki.

 Cilj -  opće i specifične kompetencije:

Studenti savladavaju osnovne zadatke obrade prirodnog jezika s primjenom u pretraživanju informacija kao što su opojavničenje, izrada invertnog indeksa, TF-IDF težinsko faktoriranje, vektorizacija dokumenta, kosinusna sličnost između vektora, korjenovanje i lematizacija. Upoznaju se s dvije paradigme pretraživanja informacija: modelom vektorskog prostora i vjerojatnosnim modelom pretraživanja informacija. Konačno, studenti savladavaju osnove nadziranog strojnog učenja te njegove evaluacije na zadatku klasifikacije dokumenata.

Literatura:

C. D. Manning, P. Raghavan, H. Schütze (2008.), Introduction to Information Retrieval, Cambridge University Press (odabrana poglavlja)