Radionice

Projekt Obrada prirodnog jezika u domeni zdravstva počeo je 2017. godine. 

Osnovne financije dobivene su iz Sveučilišnih potpora (2017., 2018., 2019., 2021.).

O projektu

21. stoljeće karakterizira ogromna količina nestrukturiranih podataka koji predstavljaju pravi izazov iz perspektive računalne obrade prirodnog jezika. Mogućnost obrade i strojnog razumijevanja nestrukturiranih podataka doprinosi poboljšanim analitičkim sposobnostima u medicinskoj skrbi, kako na individualnoj razini tako i na onoj makro razini.

Osnovni cilj

Osnovni je cilj projekta definirati jezične modele na leksičkoj i sintaktičkoj razini jezika koji se pojavljuju u domeni zdravstva, ovisno o tipu korpusa (npr. farmaceutski opis lijekova ili liječničke anamneze). Za njegovu izvodivost potrebno je računalno opisati jezik zdravstvene domene koji se koristi u Hrvatskoj (uključujući hrvatsku, latinsku, grčku i englesku terminologiju te njihovu kombinaciju), kako bi se potom moglo pristupiti izradi gramatičkih modela i algoritama za prepoznavanje i označavanje medicinskih entiteta (složena anatomska terminologija, kemijski elementi i spojevi, doziranje lijekova, parovi [osoba-bolest] iz obiteljske anamneze) u nestrukturiranim tekstualnim zapisima.

Doprinos projekta

Doprinos projekta bit će u proširivanju specijaliziranih rječnika iz domene zdravstva te u izradi novih jezičnih resursa koji će se moći koristiti za obradu prirodnog jezika u ovoj domeni. Pripremljeni resursi dat će se na upotrebu široj znanstvenoj zajednici za daljnja istraživanja u području medicine, u strojno potpomognutom prevođenju, obradi latinskih tekstova i sl.

Nije zanemariv i doprinos ostvaren kroz napredak i profesionalno usavršavanje svih sudionika projekta, počevši od studenata preddiplomskog i diplomskog studija kojima će ovo biti uvod u istraživačku izobrazbu, do interdisciplinarne suradnje kolega iz područja informacijskih i komunikacijskih znanosti, lingvistike te latinskog i grčkog jezika.

Suradnici 

(po abecednom poretku)

  1. dr.sc. Božo Bekavac, docent
  2. dr.sc. Maria Pia di Buono
  3. dr.sc. Zdravko Dovedan Han, redoviti profesor
  4. dr.sc. Vedran Juričić, docent
  5. dr.sc. Kristina Kocijan, izv. profesorica (voditeljica projekta)
  6. dr.sc. Vjera Lopina, viša asistentica
  7. dr.sc. Linda Mijić, docentica
  8. dr.sc. Krešimir Šojat, docent

Suradnici - studenti*

(po abecednom poretku)

  1. Mateja Barić (2020 - 2021)
  2. Silvia Kurolt (2017 - )
  3. Iva Ledinščak (2020 - )
  4. Rahela Ljuban (2017 - 2018)
  5. Karla Melisa Mišić (2020 - )
  6. Dario Poljak (2017 - )
  7. Kristina Valjak (2017 - 2018)
  8. Helena Viher (2017 - 2018)

* Pozivaju se zainteresirani studenti na sudjelovanje u projektu Obrada prirodnog jezika u domeni zdravstva uz mogućnost ispunjavanja obaveze studentske prakse. U sklopu prakse pomoći ćete u pripremi tekstova za obradu, a steći ćete i iskustvo rada sa SketchEngine platformom i NLP alatom NooJ te se praktičnim radom pobliže upoznati s domenom obrade jezika.

Korpus

Osnovni korpus MedCor, sastoji se od 6 500 dokumenata s farmaceutskim uputama o lijekovima dostupnim u Hrvatskoj. S obzirom na njegovu veličinu, korpus je podijeljen u tri manja pod-korpusa, prvi od kojih je MedCorA s 2 232 dokumenta i približno 72 milijuna pojavnica. Unutar MedCorA pod-korpusa, dokumenti su imenovani prema svojoj ATK oznaci (Anatomsko Terapijsko Kemijska klasifikacija). 

Koristeći NooJ alat za obradu prirodnog jezika, dodane su semantičke oznake za pripadnost medicinskoj domeni [+MED] te odgovarajućoj pod-domeni. Oznake se ručno provjeravaju prije nego se  označeni dokumenti dodaju u korpus CMC - Croatian Medical Corpus na SketchEngine Platformi. Ritam dodavanja dokumenata prikazan je u Tablici 1.

Table 1. Napredak označavanja korpusa
Početno slovo naziva dokumenta prema ATK notaciji Broj obrađenih dokumenata /od ukupno dokumenata Broj riječi Datum dostupnosti na SketchEnginu 
 A 12 / 41 35 017  06.11.2020. 
 B      
 C      
 D      
 G      
 H      
 J      
L      
M 17 / 24 76 700   28.01.2021. 
N      
R      
S      
V 11 / 11 33 233   06.11.2020. 
ukupno dokumenata 40 144 950 28.01.2021.

 

Radovi objavljeni u sklopu projekta

Referenca  Sažetak

1. Kocijan, Kristina; Šojat, Krešimir; Kurolt, Silvia; Mijić. (2021).
Multiword Expressions in the Medical Domain: Who Carries the Domain-Specific Meaning.
In: Bekavac, B., Kocijan, K., Silberztein, M., Šojat, K. (eds.) Formalising Natural Languages: Applications to Natural Language Processing and Digital Humanities.Communications in Computer and Information Science, 987 . Springer, Cham, pp. 49-60. 

doi:10.1007/978-3-030-70629-6_5 

This paper is a continuation of work in natural language processing in the medical domain for Croatian. After we have annotated single nouns from our corpus consisting of pharmaceutical instructions for medicaments, we are shifting the focus to multiword expressions (MWEs). The project still relies on the nouns from the previous step to detect MWEs where the noun is the main carrier of the medical meaning. However, in cases where the main noun is more general and not directly associated with the medical domain (e.g., bubrežna funkcija ‘kidney function’), we use the power of NooJ morphology grammar to check if the preceding adjective root is associated with the noun found in the main dictionary and annotated as a medical domain noun. Thus, we are checking if the adjective (endoskopski ‘endoscopic’) has a corresponding noun (endoskopija ‘endoscopy’) that is already marked in the NooJ dictionary as a noun belonging to the medical domain. In such cases, we assume that the adjective belongs to the same domain as the noun and that the attribute for the medical domain can be inherited, not only for the adjective, but for the entire MWE as well.

The project hopes to help with the automatic extraction and annotation of single adjectives from the medical domain, but also to help identify medical MWEs. Additionally, we wanted to learn more about who carries the domain-specific meaning in Croatian MWEs.

2. Kocijan, Kristina; Kurolt, Silvia; Mijić, Linda. (2020).
Building Croatian Medical Dictionary from Medical Corpus.
Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje, 46 (2), pp. 765-782. https://doi.org/10.31724/rihjj.46.2.17

 Osnovni je cilj ovoga projekta definiranje leksičkih i sintaktičkih jezičnih modela koji se pojavljuju u području medicine, a ovisno o vrsti korpusa. U prvoj fazi projekta prikupljeni su tekstovi koji čine medicinski korpus A – MedCorA (2232 farmaceutske upute za lijekove dostupne u Hrvatskoj). Nazivlje je iz korpusa analizirano, a potom su definirane semantičke poddomene (anatomija, stanja, mikroorganizmi, kemija itd.) unutar medicinske domene. Semantičke su oznake dodane u rječnik, gdje su poslužile kao osnova za drugu fazu projekta u kojoj su izrađene i NooJ morfološke gramatike za prepoznavanje i označavanje latinizama kao i latinskih izraza koji se koriste hrvatskim padežnim nastavcima.
Pripremljeni resursi stavljaju se na raspolaganje široj znanstvenoj zajednici putem SketchEnginea za daljnja istraživanja u području obrade jezika i medicine, omogućujući pritom nova istraživanja i razvoj algoritama za, među ostalim, klasifikaciju medicinskih dokumenata, pronalaženje podataka u medicinskim tekstovima, prevođenje medicinske dokumentacije, a uzimajući u obzir kvalitetu i pouzdanost podataka, ali i terminološku varijabilnost.
3. Kocijan, Kristina; di Buono, Maria Pia; Mijić, Linda. (2019)
Detecting Latin-based Medical Terminology in Croatian Texts,
In: Mauro Mirto, I., Monteleone, M., Silberztein, M. (eds) Formalizing Natural Languages with NooJ 2018 and Its Natural Language Processing Applications. Communications in Computer and Information Science, 987 . Springer International Publishing, pp. 38-49.
 No matter what the main language of texts in the medical domain is, there is always an evidence of the usage of Latin-derived words and formative elements in terminology development. Generally speaking, this usage presents language-specific morpho-semantic behaviors in forming both technical-scientific and common-usage words. Nevertheless, this usage of Latin in Croatian medical texts does not seem consistent due to the fact that diferent mechanisms of word formation may be applied to the same term. In our pursuit to map all the diferent occurrences of the same concept to only one, we propose a model designed within NooJ and based on dictionaries and morphological grammars. Starting from the manual detection of nouns and their variations, we recognize some word formation mechanisms and develop grammars suitable to recognize Latinisms and Croatinized Latin medical terminology.