Naslovnica

Naziv kolegija: Modeliranje jezika upravljano gramatikama

Predavač: doc.dr.sc. Kristina Kocijan

ECTS bodovi: 6

Status: izborni

Oblik nastave: 1 sat predavanje + 1 sat seminara + 2 sata vježbi

Uvjeti: 'Uvod u obradu prirodnog jezika' i 'Uvod u formalne jezike i automate'

Ispit: pismeni, seminarski, praktični

 

Sadržaj: Uvodne napomene. Automati i pretvarači konačnih stanja. Rekurzivne mreže prijelaza. Regularni izrazi (Perl). Bezokolinske gramatike. Izrada gramatika uz pomoć grafova i pravila (lokalne gramatike, flektivne gramatike, derivacijske gramatike). Leksička analiza. Sintaksna analiza (razdjelnici i parseri). Uklanjanje višeznačnosti. Vrednovanje sustava za analizu. Upiti nad tekstom, konkordancije. Obrada jezika u kontekstu Velikih podataka (Big Data).

 

Ishodi učenja: Nakon uspješnog savladavanja kolegija, studenti će moći: 

  • definirati i prepoznati automate i pretvarače konačnih stanja,
  • definirati, objasniti i oprimjeriti gramatike izrađene uz pomoć pravila i grafova,
  • samostalno izraditi, obrazložiti i primijeniti regularni izraz u Perl-u i NooJ-u,
  • samostalno postaviti jednostavne i složene upite nad tekstom koristeći regularne izraze i grafičke gramatike,
  • samostalno i/ili timskim radom izraditi, obrazložiti i primijeniti gramatiku izrađenu uz pomoć grafova,
  • samostalno i/ili timskim radom izraditi sustav za analizu pisanog teksta na bilo kojem jeziku,
  • valorizirati postojeći ili samostalno izrađen sustav za analizu pisanog teksta.


Literatura:

  1. Steven Abney: Parsing by Chunks, u Principle-Based Parsing,(eds.) R. Berwick, S.Abney, C. Tenny, Kluwer Academic Publishers, 257-278, 1991.
  2. Steven Abney: Partial Parsing via Finite-State Cascades, u Workshop on Robust Parsing, (eds.) J. Carroll, ESSLLI'96, 8-15, 1996.
  3. Steven Abney: Part-of-Speech Tagging and Partial Parsing, u Corpus-Based Methods in Language and Speech, (eds.) K. Church, S. Young, G. Bloothooft, Kluwer Academic Publishers, Dordrecht, 1996.
  4. James Allen: Natural Language Understanding, 2nd edition, The Benjamin Cummings Publishing Company, Inc., Redwood City, 1995. (u knjižnici)
  5. Kenneth R. Beesley, Lauri Karttunen: Finite Morphology, CSLI Publications, Stanford, 2003. (u knjižnici)
  6. John Carroll: Parsing, u The Oxford Handbook of Computational Linguistics, Ruslan Mitkov (ed.), Oxford University Press, Oxford, 233-248, 2003. (u knjižnici)
  7. David Clemenceau: Finite-State Morphology: Inflections and Derivations in a Single Framework Using Dictionaries and Rules, u Finite-State Language Processing, (eds.) E. Roche, Y. Schabes, The MIT Press, London, 67–98, 1997.
  8. Zdravko Dovedan, Formalni jezici: sintaksna analiza, Zavod za informacijske studije, 2003.
  9. Maurice Gross: Local Grammars and their representation by finite automata, u Data, Description, Discourse: Papers on the English Language in honour of John McH sinclair, (ed.) M. Hoey, 26-38, 1993.
  10. Maurice Gross: The Construction of Local Grammars, u Finite-State Language Processing, (eds.) E. Roche, Y. Schabes, MIT Press, London, 329-354, 1997.
  11. Dick Grune, Ceriel Jacobs: Parsing Techniques: A Practical Guide, Ellis Horwood Limited, West Sussex, 1998.
  12. Udo Hahn, Geert Adriaens: Parallel Natural Language Processing: Background and Overview, u Parallel Natural Language Processing, ed. G. Adriaens, U. Hahn, Ablex Publishing Corporation, New Yersey, 1-134, 1994.
  13. James E. Hoard: Language understanding and the emerging alignment of linguistics and natural language processing, u Using Computers in Linguistics: A Practical Guide, (eds) J. Lawler, H. Aristar Dry, Routledge, London, 197-230, 1998. (u knjižnici)
  14. Daniel Jurafsky, James H. Martin: Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Prentice Hall, New Jersey, 2000. (u knjižnici)
  15. Lauri Karttunen: Finite-State Technology, u The Oxford Handbook of Computational Linguistics, Ruslan Mitkov (ed.), Oxford University Press, Oxford, 339-357, 2003. (u knjižnici)
  16. Emmanuel Roche: Parsing with Finite-State Transducers, u Finite-State Language Processing, (eds.) E. Roche, Y. Schabes, The MIT Press, London, 241 – 282, 1997.
  17. Max D.Silberztein:NooJ, 2009.
  18. Atro Voutilainen:Designing a (Finite-State) Parsing Grammar, u Finite-State Language Processing, (eds.) E. Roche, Y. Schabes, The MIT Press, London, 283 – 310, 1997.
  19. Kristina Vučković, Marko Tadić, Zdravko Dovedan:Rule Based Chunker for Croatian, u Proceeding of the Sixth International Conference on Language Resources and Evaluation LREC 2008, Marakeš: ELRA, 2008.
  20. Kristina Vučković, Nives Mikelić Preradović, Zdravko Dovedan: Verb Valency Enhanced Croatian Lexicon, u Proceedings of NooJ 2008, Budimpešta, Mađarska, 2008.

 

Naziv kolegija: Prijevodne memorije kao prevodilački alati

Nastavnik: prof. dr. sc. Sanja Seljan

Izvođači: Sanja Seljan, Ivan Dunđer

ECTS-bodovi:    5

Jezik: hrvatski

Trajanje: jedan semestar / diplomski studij / sedmi ili deveti semestar

Status: obavezni za jednopredmetnu informatiku istraživački i nastavnički, izborni za ostale na Odsjeku i Fakultetu

Oblik nastave:  1 sat predavanja, 1 sat seminara, 1 sat vježbi

Uvjeti: nema uvjeta

Ispit: pismeni/usmeni + seminar + vježbe

 

Sadržaj
Računalno potpomognuto prevođenje - Uloga i primjena prijevodnih memorija, ograničenja, prednosti – Formati - Izrada i održavanje prijevodnih memorija – Izrada i održavanje glosara – Segmentacija teksta – Sravnjivanje tekstova - Izgradnja prijevodnih memorija, analiza, evaluacija – Primjena različitih alata za izgranju prijevodnih memorija - Integriranost prijevodnih memorija s drugim izvorima – Analiza postojećih izvora (prijevodne memorije, terminološke baze, konkordancije, glosari) koji se koriste u EU i primjena za hrvatskih jezik - Analiza izvora u EU za službene jezika - Primjena različitog softvera za izradu prijevodnih memorija ovisno o dostupu (SDL, GeoWorkz, Wordfast, Atril, memoQ ili dr.) - Primjena alata za ekstrakciju terminologije, analiza i evaluacija - Primjena alata za lokalizaciju - Vježbe na razlicitim tekstovima – Korištenje, primjena i prenošenja znanja iz upravljanja integriranim prevodilačkim sustavima -Kritičko prosuđivanje u području poslovnih mogućnosti - Seminarski rad, prikaz provedenog istraživanja 

 

Način izvođenja nastave:

- klasično i primjenom sustava za e-učenje

    • Predavanja – teorijski dio
    • Vježbe – kroz samostalne zadatke
    • Seminar – kroz samostalni ili timski rad

 

Ocjenjivanje

Pohađanje nastave

Izvršeni zadaci na vježbama

Seminarski rad

Pismeni/ usmeni

 

Praćenje kvalitete i uspješnosti predmeta

Provjera kvalitete i uspješnosti izvedbe predmeta vršit će se kombiniranjem unutrašnje i vanjske evaluacije. Unutrašnja evaluacija se može provesti metodom ankete na kraju semestra, kroz interes studenata za dodatni angažman (sudjelovanje u istraživanjima, završni rad, praksa). Vanjska evaluacija može se provesti prisustvovanjem kolega s drugih odsjeka ili institucija/kompanija, sudjelovanjem na skupovima/ kongresima, mišljenjem djelatnika kompanija kod kojih se provodi praksa te sveukupnom ocjenom predmeta i nastavnika.

 

Obvezna literatura:

1. Seljan, Sanja et al. Computational Language Analysis: Computer-Assisted Translation and e-Language Learning. Zagreb: Zavod za informacijske studije, 2012. V+360 str.   (odabrana poglavlja)

2. Seljan, Sanja; Pavuna, Damir. Translation Memory Database in the Translation Process // Proceedings of the 17th International Conference on Info rmation and Intelligent Systems IIS 2006. Varaždin : FOI, 2006, 327-332

3. Seljan, Sanja; Tadić, Marko; Agić, Željko; Šnajder, Jan; Dalbelo Bašić, Bojana; Osmann; Vjekoslav. Corpus Aligner (CorAl) Evaluation on English-Croatian Parallel Corpora. Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC’10), Malta

4.Seljan, Sanja; Gašpar, Angelina; Pavuna, Damir. Sentence Alignment as the Basis For Translation Memory Database. // INFuture2007-The Future of Information Sciences: Digital Info rmation and Heritage. Zagreb: Odsjek za informacijske znanosti, Filozofski fakultet, 2007, 299-311

5. Cruz-Lara, S; Bellalem, N; Ducret, J; Kramer, I.Interoperability between translation memories and localization tools by using the MultiLingual Information Framework, EAMT 2006.

6. Sandrini, Peter. Localization and Translation. MuTra Journal, Vol. 02, 2008
7. The DGT Multilingual Translation Memory of the Acquis Communautaire: DGT-TM
8.  DGT of EU: Translation Tools and Workflow, 2007.

9.The DGT Multilingual Translation Memory of the Acquis Communautaire: DGT-TM

10.SDL Trados Studio 2014 

 

Dopunska literatura:

1. Seljan, Sanja. Translation Technology as Challenge in Education an Business. Informatologia 44 (2011), 4, 279-286

2. Brkić, Marija; Seljan, Sanja; Bašić Mikulić, Božena. Using Translation Memory to Speed up Translation Process // The Future of Information Sciences: INFuture 2009 - Digital Resources and Knowledge Sharing Zagreb : Odsjek za informacijske znanosti, 2009, 353-363

3. Kučiš, Vlasta; Seljan, Sanja; Klasnić, Ksenija. Evaluation of Electronic Translation Tools Through Quality Parameters // The Future of Information Sciences: INFuture2009 - Digital Resources and Knowledge Sharing. Zagreb : Odsjek za informacijske znanosti, 2009, 341-351.

4. Seljan, Sanja; Agić, Željko; Tadić, Marko. Evaluating Sentence Alignment on Croatian-English Parallel Corpora // Proceedings of the 6th International Conference on Formal Approaches to South Slavic and Balkan Languages. Zagreb : Croatian Language Technologies Society, 2008, 101-108

5. Localization Guide – Multilingual Computing, 2009.

6. Jost Zetzshe: A Translator's Tool Box—A Computer Primer for Translators, International Writer's Group, 2014.

7. Francie Gow. Metrics for Evaluating Translation Memory Software, 2003. (MA thesis, Ottawa, Kanada)

8. A Compact Data Structure for Searchable Translation Memories. EAMT 2005, 59–65

9. Austermühl, Frank. Electronic Tools for Translators. Manchester: St. Jerome. 2005.

10. TM Survey (latest version) 

11. Muñoz Sánchez, P. Electronic Tools for Translators in the 21st Century, 2006.

12. Translation Service of the EU: Translating for Multilingual Community, 2002. 

13. EAGLES – Evaluation of NLP Systems – Benchmarking translation memories

14. LISA OSCAR Standards - Translation Memory 

15. Seljan, S.; Gašpar, A. Primjena prevoditeljskih alata u EU i potreba za hrvatskim tehnologijama. Jezična politika i jezična stvarnost / Language Policy and Language Reality. Zagreb: HDPL, 2009, 617-625.

16. Seljan, Sanja; Agić, Željko; Tadić, Marko. Evaluating Sentence Alignment on Croatian-English Parallel Corpora // Proceedings of the 6th International Conference on Formal Approaches to South Slavic and Balkan Languages. Zagreb : Croatian Language Technologies Society, 2008, 101-108

 

Organizacije/ udruge/institucije/ izvori:

LISA OSCAR Standards

CAT Tools

LREC

Translatum  - Computer-Aided Translation
Multilingual
EAMT European Association for Machine Translation
ELSNET European Network of Exellence in Human Language Technologies
AMTA Association for Machine Translation in the Americas