Naziv kolegija: Jezični inženjering

Nastavnik: prof. dr. sc. Nives Mikelić Preradović

ECTS-bodovi: 6

Jezik: hrvatski

Trajanje: 1 semestar

Status: obvezan za jednopredmetni studij, izborni za dvopredmetni studij

Oblik nastave: 1 sat predavanja, 1 sat seminara i 2 sata vježbi

Uvjeti: NEMA

Ispit: pismeni


Sadržaj:
Cilj predmeta je podučiti studente razlikovanju jezičnih alata i jezičnih resursa. Studenti će se upoznati s karakteristikama jezičnih alata na glasovnoj/fonemskoj/grafemskoj razini, razini riječi, sintaktičkoj razini, semantičkoj razini te pragmatičkoj razini te posebice sa složenim komercijalnim alatima. Detaljnije će se upoznati i s jezičnim resursima za hrvatski jezik (računalni korpusi, učenički korpusi i valencijski leksikon). Nadalje, cilj kolegija je pružiti studentima teoretsko i praktično znanje u oblikovanju jezičnog resursa. Tijekom semestra će raditi na projektu izrade jezičnog resursa na kojem će moći ispuniti sve očekivane ishode učenja. Studenti će imati priliku raditi na jednom od 2 projekta: izradi i označavanju CroLTeC-a (učeničkog korpusa hrvatskog kao stranog jezika) ili CroVallex-a (valencijskog leksikona hrvatskih glagola).Studenti će se upoznati s automatskom analizom ljudskog jezika od strane računalnih algoritama te ih koristiti za pretvorbu jednog jezičnog oblika u drugi, ali i za parsiranje jezika u strukturirani oblik.


Cilj – opće i specifične kompetencije:

Studenti će steći teoretsko i praktično znanje u oblikovanju i označavanju jezičnog resursa (CroLTeC ili CroVallex). Tijekom semestra će raditi na projektu izrade jezičnog resursa (korpusa) na kojem će moći:

a) prepoznati značajke koje razlikuju sustave prirodnog jezika od ostalih inteligentnih sustava;

b) pokazati detaljno poznavanje pristupa izradi jezičnog resursa za hrvatski jezik

c) upoznati razliku u sintaktičkom i semantičkom pristupu izradi leksičkih resursa za različite prirodne jezike (WordNet, FrameNet, Crovallex, VerbNet, PropBank)

d) vrednovati postojeće sustave za različite prirodne jezike

 


Sadržaj kolegija (podjela po tjednima):

  1. Uvodno predavanje. Opis kolegija i uvjeti. Pregled područja i ciljevi.
  2. Jezični resursi i alati. MULTEXT-EAST morfosintaktičke specifikacije.
  3. Jezični alati: 4 razine.
  4. Jezični resursi: leksikoni. Sintaktički i semantički pristup izradi leksičkih resursa.
  5. Jezični resursi: učenički korpusi - svjetski projekti izrade učeničkih korpusa. 
  6. Učenički korpus CroLTeC. 
  7. Jezični resursi - višejezični korpusi EU.  
  8. Važnost valencijskog leksikona za računalnu obradu jezika.  
  9. Valencijski leksikon: CROVALLEX- valencijski leksikon glagola hrvatskog jezika.. 
  10. Svjetski projekti izrade valencijskih leksikona.
  11. Leksikon/rječnik vs. papirnati / ljudski/ strojni tezaurus.
  12. E-leksikografija i računalna leksikografija.
  13. Obrada diskursa i obrada dijaloga.
  14. Dijaloški sustavi s inicijativom sustava. Dijaloški sustavi s inicijativom korisnika.

 

Osnovna literatura:

1. Mikelić Preradović, Nives; Berać, Monika; Boras, Damir. Learner Corpus of Croatian as a Second and Foreign Language // Multidisciplinary Approaches to Multilingualism / Cergol Kovačević, Kristina ; Udier, Sanda Lucija (ur.). Frankfurt am Main, Germany : Peter Lang, 2015. Str. 107-126.

2. Mikelić Preradović, Nives. CROVALLEX Valencijski leksikon glagola hrvatskoga jezika. Zagreb: Zavod za informacijske studije Odsjeka za informacijske i komunikacijske znanosti Filozofskog fakulteta Sveučilišta u Zagrebu, 2014 (monografija).

3. Mikelić Preradović, Nives; Boras, Damir. Semi-automatic Verb Valence Frame Assignment through VerbNet Classification // Lecture notes in Computer Science / Habernal, Ivan ; Matoušek, Václav (ur.). Heidelberg : Springer, 2013. Str. 492-500.

4. Mikelić Preradović, Nives; Boras, Damir. Knowledge-Driven Multilingual Event Detection Using Cross-Lingual Subcategorization Frames // Human Language Technologies as a Challenge for Computer Science and Linguistics / Vetulani, Zygmunt ; Uszkoreit, Hans (ur.). Poznan, Poland: Fundacja Uniwersytetu im. A. Mickiewicza, 2013. Str. 214-218.

5. Mikelić Preradović, Nives; Boras, Damir; Lauc, Tomislava. Motion Event in Croatian, English, German and Italian Concerning Path Prefixes and Prepositions // Lecture Notes in Computer Science / Habernal, Ivan; Matoušek, Václav (ur.). Heidelberg : Springer, 2013. Str. 335-342.

6. Mikelić Preradović, Nives. Semantic classification of verbs in CROVALLEX // RECENT ADVANCES in COMPUTER ENGINEERING and APPLICATIONS. Proceedings of the 4th WSEAS International Conference on COMPUTER ENGINEERING and APPLICATIONS (CEA '10). / Lagakos, Stephen ; Perlovsky, Leonid ; Jha, Manoj ; Covaci, Brindusa ; Zaharim, Azama ; Mastorakis, Nikos (ur.). Harvard University, Cambridge, USA : WSEAS Press, 2010. Str. 53-59.

 

Dopunska:

1. Copestake, Ann. Analysing Sentences, Noel Burton-Roberts, Longman, 1997.

2. Allen, James. Natural Language Understanding. Redwood, CA: Benjamin, 1995.

3. Marko Tadić i Božo Bekavac. Preparation of POS tagging of Croatian using CLaRK System. Proceedings of RANLP2003 Conference (Borovets 2003), Bugarska akademija znanosti, str. 455-459

4. Marko Tadić i Krešimir Šojat. Finding Multiword Term Candidates in Croatian. Proceedings of RANLP2003 Conference (Borovets 2003), Bugarska akademija znanosti, str. 102-107

5. Evans, Roger; and Gerald Gazdar. DATR: a Language for Lexical Knowledge Representation. Computational Linguistics 22 (2).167-216.

6. Pinker, Steven. The Language Instinct. London: Penguin, 1994.

7. Marko Tadić. Jezične tehnologije i hrvatski jezik. Exlibris, Zagreb 2003.