Projekt Obrada prirodnog jezika u domeni zdravstva počeo je 2017. godine.
Osnovne financije dobivene su iz Sveučilišnih potpora (2017., 2018., 2019., 2021.).
21. stoljeće karakterizira ogromna količina nestrukturiranih podataka koji predstavljaju pravi izazov iz perspektive računalne obrade prirodnog jezika. Mogućnost obrade i strojnog razumijevanja nestrukturiranih podataka doprinosi poboljšanim analitičkim sposobnostima u medicinskoj skrbi, kako na individualnoj razini tako i na onoj makro razini.
Osnovni je cilj projekta definirati jezične modele na leksičkoj i sintaktičkoj razini jezika koji se pojavljuju u domeni zdravstva, ovisno o tipu korpusa (npr. farmaceutski opis lijekova ili liječničke anamneze). Za njegovu izvodivost potrebno je računalno opisati jezik zdravstvene domene koji se koristi u Hrvatskoj (uključujući hrvatsku, latinsku, grčku i englesku terminologiju te njihovu kombinaciju), kako bi se potom moglo pristupiti izradi gramatičkih modela i algoritama za prepoznavanje i označavanje medicinskih entiteta (složena anatomska terminologija, kemijski elementi i spojevi, doziranje lijekova, parovi [osoba-bolest] iz obiteljske anamneze) u nestrukturiranim tekstualnim zapisima.
Doprinos projekta bit će u proširivanju specijaliziranih rječnika iz domene zdravstva te u izradi novih jezičnih resursa koji će se moći koristiti za obradu prirodnog jezika u ovoj domeni. Pripremljeni resursi dat će se na upotrebu široj znanstvenoj zajednici za daljnja istraživanja u području medicine, u strojno potpomognutom prevođenju, obradi latinskih tekstova i sl.
Nije zanemariv i doprinos ostvaren kroz napredak i profesionalno usavršavanje svih sudionika projekta, počevši od studenata preddiplomskog i diplomskog studija kojima će ovo biti uvod u istraživačku izobrazbu, do interdisciplinarne suradnje kolega iz područja informacijskih i komunikacijskih znanosti, lingvistike te latinskog i grčkog jezika.
(po abecednom poretku)
(po abecednom poretku)
* Pozivaju se zainteresirani studenti na sudjelovanje u projektu Obrada prirodnog jezika u domeni zdravstva uz mogućnost ispunjavanja obaveze studentske prakse. U sklopu prakse pomoći ćete u pripremi tekstova za obradu, a steći ćete i iskustvo rada sa SketchEngine platformom i NLP alatom NooJ te se praktičnim radom pobliže upoznati s domenom obrade jezika.
Osnovni korpus MedCor, sastoji se od 6 500 dokumenata s farmaceutskim uputama o lijekovima dostupnim u Hrvatskoj. S obzirom na njegovu veličinu, korpus je podijeljen u tri manja pod-korpusa, prvi od kojih je MedCorA s 2 232 dokumenta i približno 72 milijuna pojavnica. Unutar MedCorA pod-korpusa, dokumenti su imenovani prema svojoj ATK oznaci (Anatomsko Terapijsko Kemijska klasifikacija).
Koristeći NooJ alat za obradu prirodnog jezika, dodane su semantičke oznake za pripadnost medicinskoj domeni [+MED] te odgovarajućoj pod-domeni. Oznake se ručno provjeravaju prije nego se označeni dokumenti dodaju u korpus CMC - Croatian Medical Corpus na SketchEngine Platformi. Ritam dodavanja dokumenata prikazan je u Tablici 1.
Početno slovo naziva dokumenta prema ATK notaciji | Broj obrađenih dokumenata /od ukupno dokumenata | Broj riječi | Datum dostupnosti na SketchEnginu |
A | 12 / 41 | 35 017 | 06.11.2020. |
B | |||
C | |||
D | |||
G | |||
H | |||
J | |||
L | |||
M | 17 / 24 | 76 700 | 28.01.2021. |
N | |||
R | |||
S | |||
V | 11 / 11 | 33 233 | 06.11.2020. |
ukupno dokumenata | 40 | 144 950 | 28.01.2021. |
Referenca | Sažetak |
1. Kocijan, Kristina; Šojat, Krešimir; Kurolt, Silvia; Mijić. (2021). doi:10.1007/978-3-030-70629-6_5 |
This paper is a continuation of work in natural language processing in the medical domain for Croatian. After we have annotated single nouns from our corpus consisting of pharmaceutical instructions for medicaments, we are shifting the focus to multiword expressions (MWEs). The project still relies on the nouns from the previous step to detect MWEs where the noun is the main carrier of the medical meaning. However, in cases where the main noun is more general and not directly associated with the medical domain (e.g., bubrežna funkcija ‘kidney function’), we use the power of NooJ morphology grammar to check if the preceding adjective root is associated with the noun found in the main dictionary and annotated as a medical domain noun. Thus, we are checking if the adjective (endoskopski ‘endoscopic’) has a corresponding noun (endoskopija ‘endoscopy’) that is already marked in the NooJ dictionary as a noun belonging to the medical domain. In such cases, we assume that the adjective belongs to the same domain as the noun and that the attribute for the medical domain can be inherited, not only for the adjective, but for the entire MWE as well. The project hopes to help with the automatic extraction and annotation of single adjectives from the medical domain, but also to help identify medical MWEs. Additionally, we wanted to learn more about who carries the domain-specific meaning in Croatian MWEs. |
2. Kocijan, Kristina; Kurolt, Silvia; Mijić, Linda. (2020). |
Osnovni je cilj ovoga projekta definiranje leksičkih i sintaktičkih jezičnih modela koji se pojavljuju u području medicine, a ovisno o vrsti korpusa. U prvoj fazi projekta prikupljeni su tekstovi koji čine medicinski korpus A – MedCorA (2232 farmaceutske upute za lijekove dostupne u Hrvatskoj). Nazivlje je iz korpusa analizirano, a potom su definirane semantičke poddomene (anatomija, stanja, mikroorganizmi, kemija itd.) unutar medicinske domene. Semantičke su oznake dodane u rječnik, gdje su poslužile kao osnova za drugu fazu projekta u kojoj su izrađene i NooJ morfološke gramatike za prepoznavanje i označavanje latinizama kao i latinskih izraza koji se koriste hrvatskim padežnim nastavcima. Pripremljeni resursi stavljaju se na raspolaganje široj znanstvenoj zajednici putem SketchEnginea za daljnja istraživanja u području obrade jezika i medicine, omogućujući pritom nova istraživanja i razvoj algoritama za, među ostalim, klasifikaciju medicinskih dokumenata, pronalaženje podataka u medicinskim tekstovima, prevođenje medicinske dokumentacije, a uzimajući u obzir kvalitetu i pouzdanost podataka, ali i terminološku varijabilnost. |
3. Kocijan, Kristina; di Buono, Maria Pia; Mijić, Linda. (2019) Detecting Latin-based Medical Terminology in Croatian Texts, In: Mauro Mirto, I., Monteleone, M., Silberztein, M. (eds) Formalizing Natural Languages with NooJ 2018 and Its Natural Language Processing Applications. Communications in Computer and Information Science, 987 . Springer International Publishing, pp. 38-49. |
No matter what the main language of texts in the medical domain is, there is always an evidence of the usage of Latin-derived words and formative elements in terminology development. Generally speaking, this usage presents language-specific morpho-semantic behaviors in forming both technical-scientific and common-usage words. Nevertheless, this usage of Latin in Croatian medical texts does not seem consistent due to the fact that diferent mechanisms of word formation may be applied to the same term. In our pursuit to map all the diferent occurrences of the same concept to only one, we propose a model designed within NooJ and based on dictionaries and morphological grammars. Starting from the manual detection of nouns and their variations, we recognize some word formation mechanisms and develop grammars suitable to recognize Latinisms and Croatinized Latin medical terminology. |
ECIL
Europska konferencija o informacijskoj pismenosti - European Conference on Information Literacy (ECIL) serija je konferencija koju organiziraju Odsjek za upravljanje informacijama Sveučilišta Hacettepe iz Ankare, Odsjek za informacijske i komunikacijske znanosti Filozofskog fakulteta Sveučilišta u Zagrebu i Međunarodno udruženje za informacijsku pismenost (InLitAs).