Lematizare
Lematizarea reprezintă, în lingvistică, procesul de grupare a formelor flexionare ale unui cuvânt, astfel încât acestea să poată fi analizate ca o singură entitate, identificată prin lema cuvântului (forma sa de dicționar)[1].
În lingvistica computațională, lematizarea este procesul algoritmic de determinare a lemei unui cuvânt pe baza sensului intenționat. Spre deosebire de găsirea rădăcinii, lematizarea depinde de identificarea corectă a părții de vorbire și a sensului unui cuvânt într-o propoziție, precum și în contextul mai larg din jurul propoziției, precum propozițiile vecine sau chiar întregul document. Ca urmare, crearea de algorimti eficienți pentru lematizare este o arie de cercetare curentă[2][3][4].
Descriere
modificareÎn multe limbi, cuvintele apar în mai multe forme flexionare. De exemplu, în limba română, verbul „a merge” poate apărea ca „merg”, „mergeau”, „merseseși” sau „mersei”. Forma de bază, „merge”, care ar putea fi căutată în dicționar, este numită lema cuvântului. Asocierea dintre forma de bază și partea de vorbire este adesea numită un lexem al cuvântului.
Lematizarea este strâns legată de găsirea rădăcinii. Diferența este că un algoritm de identificare a rădăcinii funcționează pe un singur cuvânt, fără cunoștințe de context, și, prin urmare, nu poate diferenția între cuvinte care au semnificații diferite în funcție de partea de vorbire sau formă flexionară. Cu toate acestea, algoritmii de identificare a rădăcinii sunt de obicei mai ușor aplicat și au viteză de execuție mai mare. „Precizia” redusă poate fi irelevantă pentru unele aplicații. De exemplu, atunci când sunt utilizate în sistemele automatizate de căutare, identificarea rădăcinii îmbunătățește rapelul, comparativ cu lematizarea. În schimb, reduce precizia pentru astfel de sisteme[5].
Ca exemplu, cuvântul „ouă” poate fi fie forma de plural a unui substantiv („ou”), fie o formă conjugată a unui verb („a oua”), în funcție de context, precum în propozițiile „am cumpărat patru ouă” sau „găinile nu se ouă”. Spre deosebire de identificarea rădăcinii, lematizarea încearcă să selecteze lema corectă în funcție de context.
Mai mult, în unele cazuri lematizarea găsește legătura corectă, care poate fi ratată de identificarea rădăcinii. Atunci când alternanțele fonetice modifică rădăcina cuvintelor, doar căutarea în dicționar executată de lematizare duce la identificarea corectă a lemei, precum în cazul cuvintelor „toți”–„tuturor”, „muscă”–„muște” sau „carte”–„cărți”.
Algoritmi
modificareUn mod banal de a lematiza este simpla căutare în dicționar. Aceasta funcționează bine pentru forme flexionare simple, dar un sistem bazat pe reguli devine necesar pentru alte cazuri, precum în cazul limbilor care conțin cuvinte compuse lungi. Astfel de reguli pot fi create manual sau învățate în mod automat dintr-un corpus adnotat.
Utilizare în biomedicină
modificareAnaliza morfologică a literaturii biomedicale poate produce rezultate utile. Prelucrarea morfologică a textelor biomedicale poate fi mai eficientă prin utilizarea unui algoritm de lematizare specializat pentru biomedicină și poate îmbunătăți în practică precizia extragerii de informații de extracție din text[6].
Note
modificare- ^ Collins English Dictionary, entry for "lemmatise"
- ^ „WebBANC: Building Semantically-Rich Annotated Corpora from Web User Annotations of Minority Languages” (PDF). Arhivat din original (PDF) la . Accesat în .
- ^ Muller, Thomas; Cotterell, Ryan; Fraser, Alexander; Schütze, Hinrich. „Joint Lemmatization and Morphological Tagging with LEMMING” (PDF). Arhivat din original (PDF) la . Accesat în .
- ^ Bergmanis, Toms; Goldwater, Sharon. „Context Sensitive Neural Lemmatization with Lematus” (PDF). Arhivat din original (PDF) la .
- ^ Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich. „Introduction to Information Retrieval”. Cambridge University Press.
- ^ Liu, H.; Christiansen, T.; Baumgartner, W. A.; Verspoor, K. (). „BioLemmatizer: A lemmatization tool for morphological processing of biomedical text”. Journal of Biomedical Semantics. 3: 3. doi:10.1186/2041-1480-3-3. PMC 3359276 . PMID 22464129.