Naslovnica

Predavači: dr. sc. Nikola Ljubešić, doc., dr. sc. Petra Bago, doc.

ECTS bodovi 6

Trajanje: 1 semestar

Status: obvezan za jednopredmetni studij

Oblik nastave: 2 sata predavanja + 2 sata vježbi

Uvjeti: nema uvjeta

Ispit: pismeni i usmeni

 

Sadržaj:

Studenti se upoznaju s osnovnim metodama automatske obrade tekstualnih podataka na razini niza podataka, odnosno poruke kodirane prirodnim jezikom.
U teorijskom se dijelu kolegija upoznaju nači ni kodiranja teksta kao i najčešći datotečni formati zapisa teksta. Nadalje se daje uvod u osnove statističke obrade jezika te primjere statističkog modeliranja jezika.
Praktični se dio sastoji od upoznavanja osnova programiranja u interpretiranom jeziku Python, programiranja nad sekvencijalnim tipovima podataka, struktura, regularnih izraza, računanja čestotnih razdioba sekvenci te primjera izgradnje jezičnih statističkih modela s primjenom.
Prvim se kolokvijem provjerava usvajanje osnova programiranja u Pythonu. Završni zadatak predstavlja potvrdu usvojenosti elemenata kolegija uvedenima tijekom semestra.

 

Cilj - opće i specifične kompetencije:

Studenti moraju upoznati osnovne metode računalne pohrane i obrade teksta. Također moraju svladati osnovne metode statističke analize jezičnog uzorka kao i primjere modeliranja jezika za rješavanje primjera stvarnih problema.

 

Praćenje kvalitete i uspješnosti predmeta:

Provjera kvalitete i uspješnosti izvedbe predmeta vršit će se kombiniranjem unutrašnje i vanjske evaluacije. Unutrašnju evaluaciju činit će nastavnici i studenti. Evaluacija će se provesti metodom ankete na kraju semestra. Vanjsku evaluaciju realizirat ćemo prisustvovanjem kolega na predmetu i njihovom ocjenom predmeta i nastavnika.

 

Sadržaj kolegija (podjela po tjednima):

1. Uvodno predavanje. Opis kolegija. Programski jezik Python
2. Osnove kodiranja teksta. Osnove programiranja u Pythonu
3. Kodne stranice stalne duljine zapisa. Osnovne strukture podataka u Pythonu
4. Unicode i oblici kodiranja Unicode standarda. Rad s teksualnim datotekama u Pythonu
5. Rad s modulom codecs, rad s modulima
6. Računanje čestotnih razdioba
7. Prvi kolokvij
8. Osnove regularnih izraza
9. Napredni regularni izrazi
10. Čestotne razdiobe n-grama znakova i riječi
11. Osnove modeliranja jezika
12. Završni zadatak
13. Završni zadatak
14. Završni zadatak

 

Literatura:

1. Python Documentation. http://docs.python.org (20.02.2010.)
2. Jurafsky, Daniel; Martin, James H. Speech and Language Processing (2nd Edition). New Jersey: Prentice Hall, 2008.

 

Dopunska literatura:

1. Bird, Steven; Klein, Ewan, Loper, Edward. Natural Language Processing with Python. O'Reilly Media, 1999.
2. Tadić, Marko. Jezične tehnologije i hrvatski jezik. Zagreb: Ex libris, 2003.
3. Manning, Christopher D.; Schuetze, Hinrich. Foundations of Statistical Natural Language Processing. The MIT Press, 2002.