Naslovnica

Naziv kolegija: Modeliranje jezika upravljano gramatikama

Predavač: doc.dr.sc. Kristina Kocijan

ECTS bodovi: 6

Status: izborni

Oblik nastave: 1 sat predavanje + 1 sat seminara + 2 sata vježbi

Uvjeti: 'Uvod u obradu prirodnog jezika' i 'Uvod u formalne jezike i automate'

Ispit: pismeni, seminarski, praktični

 

Sadržaj: Uvodne napomene. Automati i pretvarači konačnih stanja. Rekurzivne mreže prijelaza. Regularni izrazi (Perl). Bezokolinske gramatike. Izrada gramatika uz pomoć grafova i pravila (lokalne gramatike, flektivne gramatike, derivacijske gramatike). Leksička analiza. Sintaksna analiza (razdjelnici i parseri). Uklanjanje višeznačnosti. Vrednovanje sustava za analizu. Upiti nad tekstom, konkordancije. Obrada jezika u kontekstu Velikih podataka (Big Data).

 

Ishodi učenja: Nakon uspješnog savladavanja kolegija, studenti će moći: 

  • definirati i prepoznati automate i pretvarače konačnih stanja,
  • definirati, objasniti i oprimjeriti gramatike izrađene uz pomoć pravila i grafova,
  • samostalno izraditi, obrazložiti i primijeniti regularni izraz u Perl-u i NooJ-u,
  • samostalno postaviti jednostavne i složene upite nad tekstom koristeći regularne izraze i grafičke gramatike,
  • samostalno i/ili timskim radom izraditi, obrazložiti i primijeniti gramatiku izrađenu uz pomoć grafova,
  • samostalno i/ili timskim radom izraditi sustav za analizu pisanog teksta na bilo kojem jeziku,
  • valorizirati postojeći ili samostalno izrađen sustav za analizu pisanog teksta.


Literatura:

  1. Steven Abney: Parsing by Chunks, u Principle-Based Parsing,(eds.) R. Berwick, S.Abney, C. Tenny, Kluwer Academic Publishers, 257-278, 1991.
  2. Steven Abney: Partial Parsing via Finite-State Cascades, u Workshop on Robust Parsing, (eds.) J. Carroll, ESSLLI'96, 8-15, 1996.
  3. Steven Abney: Part-of-Speech Tagging and Partial Parsing, u Corpus-Based Methods in Language and Speech, (eds.) K. Church, S. Young, G. Bloothooft, Kluwer Academic Publishers, Dordrecht, 1996.
  4. James Allen: Natural Language Understanding, 2nd edition, The Benjamin Cummings Publishing Company, Inc., Redwood City, 1995. (u knjižnici)
  5. Kenneth R. Beesley, Lauri Karttunen: Finite Morphology, CSLI Publications, Stanford, 2003. (u knjižnici)
  6. John Carroll: Parsing, u The Oxford Handbook of Computational Linguistics, Ruslan Mitkov (ed.), Oxford University Press, Oxford, 233-248, 2003. (u knjižnici)
  7. David Clemenceau: Finite-State Morphology: Inflections and Derivations in a Single Framework Using Dictionaries and Rules, u Finite-State Language Processing, (eds.) E. Roche, Y. Schabes, The MIT Press, London, 67–98, 1997.
  8. Zdravko Dovedan, Formalni jezici: sintaksna analiza, Zavod za informacijske studije, 2003.
  9. Maurice Gross: Local Grammars and their representation by finite automata, u Data, Description, Discourse: Papers on the English Language in honour of John McH sinclair, (ed.) M. Hoey, 26-38, 1993.
  10. Maurice Gross: The Construction of Local Grammars, u Finite-State Language Processing, (eds.) E. Roche, Y. Schabes, MIT Press, London, 329-354, 1997.
  11. Dick Grune, Ceriel Jacobs: Parsing Techniques: A Practical Guide, Ellis Horwood Limited, West Sussex, 1998.
  12. Udo Hahn, Geert Adriaens: Parallel Natural Language Processing: Background and Overview, u Parallel Natural Language Processing, ed. G. Adriaens, U. Hahn, Ablex Publishing Corporation, New Yersey, 1-134, 1994.
  13. James E. Hoard: Language understanding and the emerging alignment of linguistics and natural language processing, u Using Computers in Linguistics: A Practical Guide, (eds) J. Lawler, H. Aristar Dry, Routledge, London, 197-230, 1998. (u knjižnici)
  14. Daniel Jurafsky, James H. Martin: Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Prentice Hall, New Jersey, 2000. (u knjižnici)
  15. Lauri Karttunen: Finite-State Technology, u The Oxford Handbook of Computational Linguistics, Ruslan Mitkov (ed.), Oxford University Press, Oxford, 339-357, 2003. (u knjižnici)
  16. Emmanuel Roche: Parsing with Finite-State Transducers, u Finite-State Language Processing, (eds.) E. Roche, Y. Schabes, The MIT Press, London, 241 – 282, 1997.
  17. Max D.Silberztein:NooJ, 2009.
  18. Atro Voutilainen:Designing a (Finite-State) Parsing Grammar, u Finite-State Language Processing, (eds.) E. Roche, Y. Schabes, The MIT Press, London, 283 – 310, 1997.
  19. Kristina Vučković, Marko Tadić, Zdravko Dovedan:Rule Based Chunker for Croatian, u Proceeding of the Sixth International Conference on Language Resources and Evaluation LREC 2008, Marakeš: ELRA, 2008.
  20. Kristina Vučković, Nives Mikelić Preradović, Zdravko Dovedan: Verb Valency Enhanced Croatian Lexicon, u Proceedings of NooJ 2008, Budimpešta, Mađarska, 2008.

 

Naziv kolegija: Prijevodne memorije kao prevodilački alati

Nastavnik: prof. dr. sc. Sanja Seljan

Izvođači: Sanja Seljan, Ivan Dunđer

ECTS-bodovi:    5

Jezik: hrvatski

Trajanje: jedan semestar / diplomski studij / sedmi ili deveti semestar

Status: obavezni za jednopredmetnu informatiku istraživački i nastavnički, izborni za ostale na Odsjeku i Fakultetu

Oblik nastave:  1 sat predavanja, 1 sat seminara, 1 sat vježbi

Uvjeti: nema uvjeta

Ispit: pismeni/usmeni + seminar + vježbe

 

Sadržaj
Računalno potpomognuto prevođenje - Uloga i primjena prijevodnih memorija, ograničenja, prednosti – Formati - Izrada i održavanje prijevodnih memorija – Izrada i održavanje glosara – Segmentacija teksta – Sravnjivanje tekstova - Izgradnja prijevodnih memorija, analiza, evaluacija – Primjena različitih alata za izgranju prijevodnih memorija - Integriranost prijevodnih memorija s drugim izvorima – Analiza postojećih izvora (prijevodne memorije, terminološke baze, konkordancije, glosari) koji se koriste u EU i primjena za hrvatskih jezik - Analiza izvora u EU za službene jezika - Primjena različitog softvera za izradu prijevodnih memorija ovisno o dostupu (SDL, GeoWorkz, Wordfast, Atril, memoQ ili dr.) - Primjena alata za ekstrakciju terminologije, analiza i evaluacija - Primjena alata za lokalizaciju - Vježbe na razlicitim tekstovima – Korištenje, primjena i prenošenja znanja iz upravljanja integriranim prevodilačkim sustavima -Kritičko prosuđivanje u području poslovnih mogućnosti - Seminarski rad, prikaz provedenog istraživanja 

 

Način izvođenja nastave:

- klasično i primjenom sustava za e-učenje

    • Predavanja – teorijski dio
    • Vježbe – kroz samostalne zadatke
    • Seminar – kroz samostalni ili timski rad

 

Ocjenjivanje

Pohađanje nastave

Izvršeni zadaci na vježbama

Seminarski rad

Pismeni/ usmeni

 

Praćenje kvalitete i uspješnosti predmeta

Provjera kvalitete i uspješnosti izvedbe predmeta vršit će se kombiniranjem unutrašnje i vanjske evaluacije. Unutrašnja evaluacija se može provesti metodom ankete na kraju semestra, kroz interes studenata za dodatni angažman (sudjelovanje u istraživanjima, završni rad, praksa). Vanjska evaluacija može se provesti prisustvovanjem kolega s drugih odsjeka ili institucija/kompanija, sudjelovanjem na skupovima/ kongresima, mišljenjem djelatnika kompanija kod kojih se provodi praksa te sveukupnom ocjenom predmeta i nastavnika.

 

Obvezna literatura:

1. Seljan, Sanja et al. Computational Language Analysis: Computer-Assisted Translation and e-Language Learning. Zagreb: Zavod za informacijske studije, 2012. V+360 str.   (odabrana poglavlja)

2. Seljan, Sanja; Pavuna, Damir. Translation Memory Database in the Translation Process // Proceedings of the 17th International Conference on Info rmation and Intelligent Systems IIS 2006. Varaždin : FOI, 2006, 327-332

3. Seljan, Sanja; Tadić, Marko; Agić, Željko; Šnajder, Jan; Dalbelo Bašić, Bojana; Osmann; Vjekoslav. Corpus Aligner (CorAl) Evaluation on English-Croatian Parallel Corpora. Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC’10), Malta

4.Seljan, Sanja; Gašpar, Angelina; Pavuna, Damir. Sentence Alignment as the Basis For Translation Memory Database. // INFuture2007-The Future of Information Sciences: Digital Info rmation and Heritage. Zagreb: Odsjek za informacijske znanosti, Filozofski fakultet, 2007, 299-311

5. Cruz-Lara, S; Bellalem, N; Ducret, J; Kramer, I.Interoperability between translation memories and localization tools by using the MultiLingual Information Framework, EAMT 2006.

6. Sandrini, Peter. Localization and Translation. MuTra Journal, Vol. 02, 2008
7. The DGT Multilingual Translation Memory of the Acquis Communautaire: DGT-TM
8.  DGT of EU: Translation Tools and Workflow, 2007.

9.The DGT Multilingual Translation Memory of the Acquis Communautaire: DGT-TM

10.SDL Trados Studio 2014 

 

Dopunska literatura:

1. Seljan, Sanja. Translation Technology as Challenge in Education an Business. Informatologia 44 (2011), 4, 279-286

2. Brkić, Marija; Seljan, Sanja; Bašić Mikulić, Božena. Using Translation Memory to Speed up Translation Process // The Future of Information Sciences: INFuture 2009 - Digital Resources and Knowledge Sharing Zagreb : Odsjek za informacijske znanosti, 2009, 353-363

3. Kučiš, Vlasta; Seljan, Sanja; Klasnić, Ksenija. Evaluation of Electronic Translation Tools Through Quality Parameters // The Future of Information Sciences: INFuture2009 - Digital Resources and Knowledge Sharing. Zagreb : Odsjek za informacijske znanosti, 2009, 341-351.

4. Seljan, Sanja; Agić, Željko; Tadić, Marko. Evaluating Sentence Alignment on Croatian-English Parallel Corpora // Proceedings of the 6th International Conference on Formal Approaches to South Slavic and Balkan Languages. Zagreb : Croatian Language Technologies Society, 2008, 101-108

5. Localization Guide – Multilingual Computing, 2009.

6. Jost Zetzshe: A Translator's Tool Box—A Computer Primer for Translators, International Writer's Group, 2014.

7. Francie Gow. Metrics for Evaluating Translation Memory Software, 2003. (MA thesis, Ottawa, Kanada)

8. A Compact Data Structure for Searchable Translation Memories. EAMT 2005, 59–65

9. Austermühl, Frank. Electronic Tools for Translators. Manchester: St. Jerome. 2005.

10. TM Survey (latest version) 

11. Muñoz Sánchez, P. Electronic Tools for Translators in the 21st Century, 2006.

12. Translation Service of the EU: Translating for Multilingual Community, 2002. 

13. EAGLES – Evaluation of NLP Systems – Benchmarking translation memories

14. LISA OSCAR Standards - Translation Memory 

15. Seljan, S.; Gašpar, A. Primjena prevoditeljskih alata u EU i potreba za hrvatskim tehnologijama. Jezična politika i jezična stvarnost / Language Policy and Language Reality. Zagreb: HDPL, 2009, 617-625.

16. Seljan, Sanja; Agić, Željko; Tadić, Marko. Evaluating Sentence Alignment on Croatian-English Parallel Corpora // Proceedings of the 6th International Conference on Formal Approaches to South Slavic and Balkan Languages. Zagreb : Croatian Language Technologies Society, 2008, 101-108

 

Organizacije/ udruge/institucije/ izvori:

LISA OSCAR Standards

CAT Tools

LREC

Translatum  - Computer-Aided Translation
Multilingual
EAMT European Association for Machine Translation
ELSNET European Network of Exellence in Human Language Technologies
AMTA Association for Machine Translation in the Americas

  • Hrvatski državni arhiv (od 1.6.2020. nadalje prima studente na praksu)kontakt za praksu: gđa. Vlatka Lemić Ova e-mail adresa je zaštićena od spambota. Potrebno je omogućiti JavaScript da je vidite.. http://www.arhiv.hr
    - rad na obradi arhivskog gradiva
  • Leksikografski zavod Miroslav Krleža (trenutno ne prima studente na praksu) kontakt za praksu: prof. dr. sc. Hrvoje Stančić, Ova e-mail adresa je zaštićena od spambota. Potrebno je omogućiti JavaScript da je vidite.
    - Digitalizacija izdanja Leksikografskog zavoda protočnim skenerima
    - Grafička obrada digitaliziranog gradiva (OCR, obrada slika itd.)
    - Priprema digitaliziranog i obrađenog gradiva za web
  • DAZ - Državni arhiv Zagreb, Opatička 29 (prima studente na praksu - 1 student u lipnju i dalje redovito od rujna 2020.)kontakt osoba u DAZ-u: gđa. Branka Molnar, Ova e-mail adresa je zaštićena od spambota. Potrebno je omogućiti JavaScript da je vidite. 01/4807-165
    - Upoznavanje arhiva kao informacijske institucije. Postupak arhivske obrade gradiva od identifikacije gradiva do izrade metapodataka.
    - Priprema materijala i postavljanje na web
    - Priprema izložbi
  • Hrvatski športski muzej, Praška 2 / II. kat, Zagreb (zbog oštećenja u potresu trenutno ne prima studente na praksu) Kontakt osoba: gđa. Đurđica Bojanić, v.d. ravnatelja, 01/4833-483, 098/409-327, Ova e-mail adresa je zaštićena od spambota. Potrebno je omogućiti JavaScript da je vidite. Prilikom javljanja mailom, pod cc. stavite i Ova e-mail adresa je zaštićena od spambota. Potrebno je omogućiti JavaScript da je vidite. (na znanje).
  • - obrada arhivkoga gradiva
    - obrada knjižničnog fonda
  • Hrvatske ceste, arhiv, Vončinina 3, Zagreb, (trenutno ne prima studente na praksu)
    kontakt za praksu - voditelj centralnog arhiva g. Davor Bašić, prof.inf.-arhiv. Ova e-mail adresa je zaštićena od spambota. Potrebno je omogućiti JavaScript da je vidite., 01/4722-430.
    Prilikom javljanja mailom, pod cc. stavite i Ova e-mail adresa je zaštićena od spambota. Potrebno je omogućiti JavaScript da je vidite. (na znanje)
    - uvodno - pomoćni arhivski poslovi
    - popisivanje gradiva u sustav za upravljanje dokumentima (EMC Documentum)
    - skeniranje jednostavnijeg gradiva (ugovori ili zemljopisne karte)
  • KRAŠ, Ravnice 48, Zagreb, (prima studente na praksu od 15.6.2020., maksimalno dvije osobe istovremeno) kontakt osoba za praksu Draženko Kovač, Ova e-mail adresa je zaštićena od spambota. Potrebno je omogućiti JavaScript da je vidite. Prilikom javljanja mailom, pod cc. stavite i Ova e-mail adresa je zaštićena od spambota. Potrebno je omogućiti JavaScript da je vidite. (na znanje)
    1. Digitalizacija dokumentacije (priprema dokumentacije za digitalizaciju, skeniranje, pregled mikrografske opreme, indeksiranje, validacija podataka)
    2. Fizička pohrana dokumentacije (tehnologija barkodiranja, tehnologija rukovanja sadržajem građe, tehnologija smještaja građe)
    3. Izrada elaborata stanja arhivskog gradiva i arhiva (izrada elaborata, izrada fotoelaborata, popis gradiva)
  • Institut za povijest umjetnosti (IPU), Ulica grada Vukovara 68, Zagreb (od 21.5.2020. nadalje prima studente na praksu), kontakt za praksu: gđa. Lina Šojat, voditeljica knjižnice, Ova e-mail adresa je zaštićena od spambota. Potrebno je omogućiti JavaScript da je vidite.. Prilikom javljanja mailom, pod cc. stavite i Ova e-mail adresa je zaštićena od spambota. Potrebno je omogućiti JavaScript da je vidite. (na znanje)
    1. Digitalizacija dokumentacije (priprema dokumentacije za digitalizaciju, skeniranje, indeksiranje, validacija podataka)
    2. Fizička pohrana dokumentacije (tehnologija rukovanja sadržajem gradiva, tehnologija smještaja gradiva)
    3. Izrada obavijesnih pomagala i elaborata stanja arhivskog gradiva i arhiva

Studenti arhivistike mogu predložiti odrađivanje prakse i u nekom državnom arhivu koji nije naveden na ovome popisu (za popis državnih arhiva vidi: https://had-info.hr/arhivi-u-hrvatskoj), ali u tom slućaju je potrebno provjeriti može li predloženi državni arhiv primiti studente na praksu. U tom slućaju, radi daljnje koordinacije, najprije kontaktirajte prof. dr. sc. Hrvoja Stančića (Ova e-mail adresa je zaštićena od spambota. Potrebno je omogućiti JavaScript da je vidite.).


Studenti diplomskog studija informacijskih znanosti, smjer bibliotekarstvo koji trebaju odraditi praksu u knjižnici moraju se javiti prof. dr. Danieli Živković.

Prof. dr. sc. D. Živković ima konzultacije četvrtkom 10 - 12 sati ili je možete kontaktirati mailom na Ova e-mail adresa je zaštićena od spambota. Potrebno je omogućiti JavaScript da je vidite.
.



Knjižnice u kojima se odrađuje praksa su:

- Knjižnica Filozofskog fakulteta u Zagrebu,
- Nacionalna i sveučilišna knjižnica u Zagrebu,
- Knjižnice grada Zagreba,

- Knjižnica Hrvatske akademije znanosti i umjetnosti,
- Hrvatska knjižnica za slijepe.