Projekt Obrada prirodnog jezika u domeni zdravstva počeo je 2017. godine.
Osnovne financije dobivene su iz Sveučilišnih potpora (2017., 2018., 2019.).
O projektu
21. stoljeće karakterizira ogromna količina nestrukturiranih podataka koji predstavljaju pravi izazov iz perspektive računalne obrade prirodnog jezika. Mogućnost obrade i strojnog razumijevanja nestrukturiranih podataka doprinosi poboljšanim analitičkim sposobnostima u medicinskoj skrbi, kako na individualnoj razini tako i na onoj makro razini.
Osnovni cilj
Osnovni je cilj projekta definirati jezične modele na leksičkoj i sintaktičkoj razini jezika koji se pojavljuju u domeni zdravstva, ovisno o tipu korpusa (npr. farmaceutski opis lijekova ili liječničke anamneze). Za njegovu izvodivost potrebno je računalno opisati jezik zdravstvene domene koji se koristi u Hrvatskoj (uključujući hrvatsku, latinsku, grčku i englesku terminologiju te njihovu kombinaciju), kako bi se potom moglo pristupiti izradi gramatičkih modela i algoritama za prepoznavanje i označavanje medicinskih entiteta (složena anatomska terminologija, kemijski elementi i spojevi, doziranje lijekova, parovi [osoba-bolest] iz obiteljske anamneze) u nestrukturiranim tekstualnim zapisima.
Doprinos projekta
Doprinos projekta bit će u proširivanju specijaliziranih rječnika iz domene zdravstva te u izradi novih jezičnih resursa koji će se moći koristiti za obradu prirodnog jezika u ovoj domeni. Pripremljeni resursi dat će se na upotrebu široj znanstvenoj zajednici za daljnja istraživanja u području medicine, u strojno potpomognutom prevođenju, obradi latinskih tekstova i sl.
Nije zanemariv i doprinos ostvaren kroz napredak i profesionalno usavršavanje svih sudionika projekta, počevši od studenata preddiplomskog i diplomskog studija kojima će ovo biti uvod u istraživačku izobrazbu, do interdisciplinarne suradnje kolega iz područja informacijskih i komunikacijskih znanosti, lingvistike te latinskog i grčkog jezika.
Suradnici
(po abecednom poretku)
- dr.sc. Božo Bekavac, docent
- dr.sc. Maria Pia di Buono
- dr.sc. Zdravko Dovedan Han, redoviti profesor
- dr.sc. Kristina Kocijan, izv. profesorica (voditeljica projekta)
- dr.sc. Vjera Lopina, viša asistentica
- dr.sc. Linda Mijić, docentica
- dr.sc. Krešimir Šojat, docent
Suradnici - studenti*
(po abecednom poretku)
- Mateja Barić (2020 - )
- Silvia Kurolt (2017 - )
- Iva Ledin (2020 - )
- Rahela Ljuban (2017 - 2018)
- Karla Melisa Mišić (2020 - )
- Dario Poljak (2017 - )
- Kristina Valjak (2017 - 2018)
- Helena Viher (2017 - 2018)
* Pozivaju se zainteresirani studenti na sudjelovanje u projektu Obrada prirodnog jezika u domeni zdravstva uz mogućnost ispunjavanja obaveze studentske prakse. U sklopu prakse pomoći ćete u pripremi tekstova za obradu, a steći ćete i iskustvo rada sa SketchEngine platformom i NLP alatom NooJ te se praktičnim radom pobliže upoznati s domenom obrade jezika.
Korpus
Osnovni korpus MedCor, sastoji se od 6 500 dokumenata s farmaceutskim uputama o lijekovima dostupnim u Hrvatskoj. S obzirom na njegovu veličinu, korpus je podijeljen u tri manja pod-korpusa, prvi od kojih je MedCorA s 2 232 dokumenta i približno 72 milijuna pojavnica. Unutar MedCorA pod-korpusa, dokumenti su imenovani prema svojoj ATK oznaci (Anatomsko Terapijsko Kemijska klasifikacija).
Koristeći NooJ alat za obradu prirodnog jezika, dodane su semantičke oznake za pripadnost medicinskoj domeni [+MED] te odgovarajućoj pod-domeni. Oznake se ručno provjeravaju prije nego se označeni dokumenti dodaju u korpus CMC - Croatian Medical Corpus na SketchEngine Platformi. Ritam dodavanja dokumenata prikazan je u Tablici 1.
Početno slovo naziva dokumenta prema ATK notaciji | Broj obrađenih dokumenata /od ukupno dokumenata | Broj riječi | Datum dostupnosti na SketchEnginu |
A | 12 / 41 | 35 017 | 06.11.2020. |
B | |||
C | |||
D | |||
G | |||
H | |||
J | |||
L | |||
M | 17 / 24 | 76 700 | 28.01.2021. |
N | |||
R | |||
S | |||
V | 11 / 11 | 33 233 | 06.11.2020. |
ukupno dokumenata | 40 | 144 950 | 28.01.2021. |
Radovi objavljeni u sklopu projekta
Referenca | Sažetak |
1. Kocijan, Kristina; Kurolt, Silvia; Mijić, Linda. (2020). |
Osnovni je cilj ovoga projekta definiranje leksičkih i sintaktičkih jezičnih modela koji se pojavljuju u području medicine, a ovisno o vrsti korpusa. U prvoj fazi projekta prikupljeni su tekstovi koji čine medicinski korpus A – MedCorA (2232 farmaceutske upute za lijekove dostupne u Hrvatskoj). Nazivlje je iz korpusa analizirano, a potom su definirane semantičke poddomene (anatomija, stanja, mikroorganizmi, kemija itd.) unutar medicinske domene. Semantičke su oznake dodane u rječnik, gdje su poslužile kao osnova za drugu fazu projekta u kojoj su izrađene i NooJ morfološke gramatike za prepoznavanje i označavanje latinizama kao i latinskih izraza koji se koriste hrvatskim padežnim nastavcima. Pripremljeni resursi stavljaju se na raspolaganje široj znanstvenoj zajednici putem SketchEnginea za daljnja istraživanja u području obrade jezika i medicine, omogućujući pritom nova istraživanja i razvoj algoritama za, među ostalim, klasifikaciju medicinskih dokumenata, pronalaženje podataka u medicinskim tekstovima, prevođenje medicinske dokumentacije, a uzimajući u obzir kvalitetu i pouzdanost podataka, ali i terminološku varijabilnost. |
2. Kocijan, Kristina; di Buono, Maria Pia; Mijić, Linda. (2019) Detecting Latin-based Medical Terminology in Croatian Texts, In: Mauro Mirto, I., Monteleone, M., Silberztein, M. (eds) Formalizing Natural Languages with NooJ 2018 and Its Natural Language Processing Applications. Communications in Computer and Information Science, 987 . Springer International Publishing, pp. 38-49. |