Naziv kolegija: Pretraživanje obavijesti i obrada prirodnog jezika

Nastavnik: prof. dr. sc. Tomislava Lauc

ECTS-bodovi: 3

Jezik: hrvatski

Trajanje: jedan semestar

Status: obavezni izborni

Oblik nastave: 1 sat predavanja, 1 sat vježbi

Uvjeti: Nema

Ispit: Tjedni zadaci i završni ispit

 

Sadržaj:

 

Kolegij obrađuje niz postupaka obrade prirodnog jezika upotrebljivih u području pretraživanja teksta. Na početku se kolegija uvode osnovni koncepti poput opojavničenja, indeksiranja i težinskog faktoriranja te se nastavlja sa složenijim zadacima obrade jezika poput morfološke normalizacije (korjenovanja i lematizacije) te procjene sličnosti dokumenata. Uvodi se više paradigmi pretraživanja informacija, među ostalim i model vektorskog prostora te vjerojatnosni model pretraživanja informacija. Kolegij završava praktičnim zadatkom primjene paradigme nadziranog strojnog učenja, točnije multnomijalnog naivnog Bayesovog klasifikatora, na klasifikaciju dokumenata uz evaluaciju i usporedbu više skupova postavki.

 

Cilj -  opće i specifične kompetencije:

 

Studenti savladavaju osnovne zadatke obrade prirodnog jezika s primjenom u pretraživanju informacija kao što su opojavničenje, izrada invertnog indeksa, TF-IDF težinsko faktoriranje, vektorizacija dokumenta, kosinusna sličnost između vektora, korjenovanje i lematizacija. Upoznaju se s dvije paradigme pretraživanja informacija: modelom vektorskog prostora i vjerojatnosnim modelom pretraživanja informacija. Konačno, studenti savladavaju osnove nadziranog strojnog učenja te njegove evaluacije na zadatku klasifikacije dokumenata.

 

Literatura:

 

https://omega.ffzg.hr/course/view.php?id=37