Naziv kolegija: Automatsko sažimanje teksta

Nositelj: dr. sc. Nives Mikelić Preradović, izv. prof.

Izvođač: dr. sc. Nives Mikelić Preradović, izv. prof.

ECTS-bodovi: 10

Jezik: Hrvatski (engleski po potrebi)

Trajanje: jedan semestar, zimski

Status: izborni kolegij

 

Cilj kolegija:

 

Cilj kolegija je pružiti uvid u aktualna istraživanja i metode automatskog i poluautomatskog sažimanja različitih tipova teksta, od znanstvenih publikacija do novinskih članaka. Kolegij će dati pregled nekomercijalnih sustava za sažimanje teksta, ponuditi tipologiju sažetaka te  karakteristike profesionalnog ljudskog sažimanja, kao i značajke kvalitetnog ljudskog sažetka.

Obradit će se povijest sažimanja, pretraživanja i crpljenja informacija te pregled klasičnih metoda automatskog generiranja računalnog profesionalnog sažetka.

 

Sadržaj kolegija:

 

Automatsko sažimanje teksta područje je koje integrira metode profesionalnog sažimanja, strojnog učenja, strojnog prevođenja i pretraživanja informacija. Moguća primjena u raznim sustavima od internetskih tražilica do automatiziranja izrade preporuka proizvoda sve više doprinosi povećanju interesa za to područje obrade prirodnog jezika. Izrada sustava za sažimanje teksta zahtijeva dobro razumijevanje procesa profesionalnog sažimanja te svojstava prirodnog jezika. Kolegij obuhvaća teorijske koncepte koje ljudski stručnjaci koriste u sažimanju teksta, ali i automatske metode sažimanja i vrednovanja sažetaka. Bit će razrađeni svi koraci u izgradnji sofisticiranog automatskog sustava za sažimanje teksta na hrvatskom i engleskom jeziku. Također, bit će izložena saznanja o automatskoj izradi sažetaka ekstrakcijom rečenica (“plitkim” značajkama i njihovim kombinacijama: statistički istaknute riječi, riječi istaknute po njihovom položaju, riječi iz indikativnih fraza i riječi specifične za područje) i apstrahiranjem (dublji pristup). Konačno, raspravit će se teorija automatskog sažimanja grupe dokumenata te sažimanje crpljenjem informacija iz teksta.

 

Obveze studenata:

Napisati seminarski rad koji će biti oblikovan kao znanstveni rad (na hrvatskom ili engleskom jeziku) u kojem će eksperimentirati s nekoliko sustava za automatsko sažimanje teksta i usporediti njihove rezultate te se osvrnuti na tehnike i pristupe automatskom i ljudskom sažimanju o kojima je bilo riječi na predavanju.

 

Obavezna literatura:

 

1. Mani, Inderjeet. Automatic Summarization. John Benjamins Publishing Company. 2001.

2. Marcu, D. The Theory and Practice of Discourse Parsing and Summarization. MIT Press. 2000.

3.Preradović Mikelić, Nives; Lauc, Tomislava; Boras, Damir. CROXMLSUM – the System for XML Document Summarization in Croatian. // International Journal of Mathematics and Computers in Simulation. 1 (2007) , 1; 81-89.

4. Preradović Mikelić, Nives; Lauc, Tomislava; Boras, Damir. Text Summarization of XML documents in Croatian // Modern Topics of Computer Science. Proceedings of 2nd WSEAS International Conference on COMPUTER ENGINEERING and APPLICATIONS (CEA '08) / Grebennikov, A. and Zemliak, A. (ur.). WSEAS Press, 2008. 143 -148.

Dopunska literatura:

1. Barzilay, R. and M. Elhadad. 1997. Using Lexical Chains for Text Summarization. In Proceedings of the Workshop on Intelligent Scalable Text Summarization at the ACL/EACL Conference, 10–17. Madrid, Spain.

2.Boguraev B. and C. Kennedy, 1997. Salience-based Content Characterization of Text Documents. In Proceedings of the Workshop on Intelligent Scalable Text Summarization at the ACL/EACL Conference, 2–9. Madrid, Spain.

3. Edmundson, H.P. 1968. New Methods in Automatic Extraction.  Journal of the ACM 16(2), 264–285.

4.Elhadad, M. 1992.  Using Argumentation to Control Lexical Choice: A Functional Unification-Based Approach.  Ph.D. diss, Columbia University.

5.Endres-Niggemeyer, B.  1998. Summarizing Information. New York: Springer-Verlag.

6.Jing, H., R. Barzilay, K. McKeown, and M. Elhadad. 1998. Summarization Evaluation Methods: Experiments and Analysis. In Working Notes of the AAAI’98 Spring Symposium on Intelligent Text Summarization, 60–68. Stanford, CA.

7.Kupiec, J., J. Pedersen, and F. Chen. 1995.  A Trainable Document Summarizer. In Proceedings of the Eighteenth Annual International ACM Conference on Research and Development in Information Retrieval (SIGIR), 68–73. Seattle, WA.

8.Lin, C-Y. 1995. Topic Identification by Concept Generalization. In Proceedings of the Thirty-third Conference of the Association of Computational Linguistics (ACL-95), 308–310.  Boston, MA.

9.Mani, I., E. Bloedorn, and B. Gates. 1998. Using Cohesion and Coherence Models for Text Summarization. In Working Notes of the AAAI’98 Spring Symposium on Intelligent Text Summarization, 69–76. Stanford, CA.

10.Mann, W.C. and S.A. Thompson. 1988. Rhetorical Structure Theory: Toward a Functional Theory of Text Organization. Text 8(3), 243–281. Also available as USC/Information Sciences Institute Research Report RR-87-190.

11.Marcu, D. 1997. The Rhetorical Parsing, Summarization, and Generation of Natural Language Texts.  Ph.D. diss. University of Toronto.

12.Spark Jones, K. 1997.  Invited keynote address, Workshop on Intelligent Scalable Text Summarization. ACL/EACL Conference. Madrid, Spain

13.Teufel, S. and M. Moens.  1997.  Sentence Extraction as a Classification Task. In Proceedings of the Workshop on Intelligent Scalable Summarization. ACL/EACL Conference, 58–65. Madrid, Spain.