Naziv kolegija: Uvod u obradu prirodnog jezika

Nastavnik: prof. dr. sc. Nives Mikelić Preradović

ECTS-bodovi: 6

Jezik: hrvatski

Trajanje: 1 semestar

Status: obvezan izborni

Oblik nastave: 2 sata predavanja i 2 sata vježbi

Uvjeti: nema uvjeta

Ispit: pismeni

 

Sadržaj:

Pojam «prirodan» odnosi se na jezik koji ljudi govore, primjerice hrvatski, engleski, njemački, itd., za razliku od umjetnih jezika kao što su to programski jezici. Obrada prirodnog jezika koristi se za izradu korisničkih sučelja gdje računalu prirodnim jezikom kažemo što želimo da učini. Koristi se i kod usvajanja znanja te pretraživanja informacija, gdje računalo mora pronaći relevantne prirodnojezične informacije te kod prijevoda s jednog prirodnog jezika na drugi. Kolegij daje uvod u obradu prirodnog jezika s osnovnim ciljem proučavanja korištenja prirodnog jezika iz računalne perspektive. Kolegij obuhvaća regularne izraze, morfosintaktičku analizu i semantičku interpretaciju jezika. 

 

Cilj – opće i specifične kompetencije:

 

Student treba razumjeti vodeće trendove i sustave za obradu prirodnog jezika. Također, treba razumjeti pojmove računalne fonologije, morfologije, sintakse i semantike te primjerima demonstrirati poznavanje tih područja. Praktičnim radom na tjednim zadatcima tijekom semestra ovladat će konkretnom primjenom teorijskog znanja da bi na kraju semestra mogao opisati jednostavni sustav koji se temelji na bilo kojoj od razina obrade prirodnog jezika.

 

 

Sadržaj kolegija (podjela po tjednima):

 

    1. Uvodno predavanje. O kolegiju. Ciljevi obrade prirodnog jezika. Interdisciplinarnost: računalna znanost, lingvistika, logika, umjetna inteligencija, neurolingvistika, strojno učenje. 
    2. Fonetika i fonologija: obrada govora i pismo.
    3. Odnos pisma i jezika. Kodiranje pisma. ASCII. Unicode.
    4. Prirodni jezici i pretraživanje: Booleovi operatori. Google operatori. Semantičke tražilice.
    5. Regularni izrazi u obradi prirodnog jezika.
    6. Regularni izrazi i pretraživanje korpusa. Pojavnica, različnica, obličnica. Formiranje CQL upita.
    7. Morfologija: osnove morfologije hrvatskog i engleskog jezika. Derivacijska i oblična morfologija.
    8. Morfologija, automati i pretvornici: morfološki analizatori i generatori oblika. Algoritam implementacije morfoloških pravila. 
    9. Računalna sintaksa, višeznačnost, kategorije sintagmi. 
    10. Racunalna sintaksa: sintakticka stabla i parsiranje.
    11. Generativne gramatike. Bezokolinska gramatika. 
    12. Provjernici pravopisa i gramatike. Analiza n-grama.
    13. Osnove teorije vjerojatnosti. Uvjetovana vjerojatnost. Bayesov teorem. Predviđanje i označavanje riječi u tekstu / korpusu.
    14. Označavanje riječi temeljeno na pravilima. Stohastičko označavanje. Kombinirano označavanje
    15. Uvod u semantiku prirodnog jezika.

Literatura:

Osnovna:

 1. Mikelić Preradović, Nives; Berać, Monika; Boras, Damir. Learner Corpus of Croatian as a Second and Foreign Language // Multidisciplinary Approaches to Multilingualism / Cergol Kovačević, Kristina ; Udier, Sanda Lucija (ur.). Frankfurt am Main, Germany : Peter Lang, 2015. Str. 107-126.

2. Tepeš Golubić, Lidija; Mikelić Preradović, Nives; Boras, Damir. Semi-automatic detection of germanisms in Croatian newspaper texts // Human Language Technologies as a Challenge for Computer Science and Linguistics / Vetulani, Zygmunt ; Uszkoreit, Hans (ur.). Poznan, Poland: Fundacja Uniwersytetu im. A. Mickiewicza, 2013. Str. 173-177.

3. Ljubešić, Nikola; Esplà-Gomis, Miquel; Klubička, Filip;  Mikelić Preradović, Nives. Predicting Inflectional Paradigms and Lemmata of Unknown Words for Semi-automatic Expansion of Morphological Lexicons. Proceedings of Recent Advances in Natural Language Processing (RANLP 2015).Hissar, Bulgaria: Association for Computational Linguistics, 2015, str. 379-387.

4. Šojat, Krešimir; Mikelić Preradović, Nives; Tadić, Marko. Generation of Verbal Stems in Derivationally Rich Language // Proceedings of the Eigth International Conference on Language Resources and Evaluation (LREC'12) / Calzolari, Nicoletta ; Choukri, Khalid ; Declerck, Thierry ; Ugur Dogan, Mehmet ; Maegaard, Bente ; Mariani, Joseph ; Odijk, Jan ; Piperidis, Stelios (ur.). Istanbul: European Language Resources Association (ELRA), 2012.

5. Ljubesic, Nikola; Mikelić, Nives; Boras, Damir. Language identification: how to distinguish similar languages? // Proceedings of the 29th International Conference on Information Technology Interfaces / Budin, Leo; Lužar-Stiffler, Vesna ; Bekić, Zoran ; Hljuz Dobrić, Vesna (eds). Zagreb: SRCE, 2007.

6. Marko Tadić. Jezične tehnologije i hrvatski jezik. Exlibris, Zagreb 2003.

 

Dopunska:

 1.         Marko Tadic. Problemi računalne obrade imeničnih oblika u hrvatskome. Suvremena lingvistika 34, (1992), str. 301-308.

2.         Marko Tadic. Building the Croatian Morphological Lexicon. Proceedings of the EACL2003 Workshop on Morphological Processing of Slavic Languages (Budimpešta 2003), ACL, str. 41-46.

3.         Robert Dale, Hermann Moisl and Harold Somers, eds. Handbook of Natural Langauge Processing. MIT Press, 2000.

4.         Lucja M. Iwanska and Stuart C. Shapiro, eds. Natural Language Processing and Knowledge Representation. MIT Press, 2000.

5.Roland R. Hausser. Foundations of Computational Linguistics: Human-Computer Communication in Natural Language. Springer Verlag, 2001.