Utvić, Miloš

Link to this page

Authority KeyName Variants
orcid::0000-0002-6909-9382
  • Utvić, Miloš (22)

Author's Bibliography

Transformer-Based Composite Language Models for Text Evaluation and Classification

Škorić, Mihailo; Utvić, Miloš; Stanković, Ranka

(MDPI, 2023)

TY  - JOUR
AU  - Škorić, Mihailo
AU  - Utvić, Miloš
AU  - Stanković, Ranka
PY  - 2023
UR  - https://repff.fil.bg.ac.rs/handle/123456789/1538
AB  - Parallel natural language processing systems were previously successfully tested on the tasks of part-of-speech tagging and authorship attribution through mini-language modeling, for which they achieved significantly better results than independent methods in the cases of seven European languages. The aim of this paper is to present the advantages of using composite language models in the processing and evaluation of texts written in arbitrary highly inflective and morphology-rich natural language, particularly Serbian. A perplexity-based dataset, the main asset for the methodology assessment, was created using a series of generative pre-trained transformers trained on different representations of the Serbian language corpus and a set of sentences classified into three groups (expert translations, corrupted translations, and machine translations). The paper describes a comparative analysis of calculated perplexities in order to measure the classification capability of different models on two binary classification tasks. In the course of the experiment, we tested three standalone language models (baseline) and two composite language models (which are based on perplexities outputted by all three standalone models). The presented results single out a complex stacked classifier using a multitude of features extracted from perplexity vectors as the optimal architecture of composite language models for both tasks.
PB  - MDPI
T2  - Mathematics
T1  - Transformer-Based Composite Language Models for Text Evaluation and Classification
IS  - 22
SP  - 4660
VL  - 11
DO  - 10.3390/math11224660
ER  - 
@article{
author = "Škorić, Mihailo and Utvić, Miloš and Stanković, Ranka",
year = "2023",
abstract = "Parallel natural language processing systems were previously successfully tested on the tasks of part-of-speech tagging and authorship attribution through mini-language modeling, for which they achieved significantly better results than independent methods in the cases of seven European languages. The aim of this paper is to present the advantages of using composite language models in the processing and evaluation of texts written in arbitrary highly inflective and morphology-rich natural language, particularly Serbian. A perplexity-based dataset, the main asset for the methodology assessment, was created using a series of generative pre-trained transformers trained on different representations of the Serbian language corpus and a set of sentences classified into three groups (expert translations, corrupted translations, and machine translations). The paper describes a comparative analysis of calculated perplexities in order to measure the classification capability of different models on two binary classification tasks. In the course of the experiment, we tested three standalone language models (baseline) and two composite language models (which are based on perplexities outputted by all three standalone models). The presented results single out a complex stacked classifier using a multitude of features extracted from perplexity vectors as the optimal architecture of composite language models for both tasks.",
publisher = "MDPI",
journal = "Mathematics",
title = "Transformer-Based Composite Language Models for Text Evaluation and Classification",
number = "22",
pages = "4660",
volume = "11",
doi = "10.3390/math11224660"
}
Škorić, M., Utvić, M.,& Stanković, R.. (2023). Transformer-Based Composite Language Models for Text Evaluation and Classification. in Mathematics
MDPI., 11(22), 4660.
https://doi.org/10.3390/math11224660
Škorić M, Utvić M, Stanković R. Transformer-Based Composite Language Models for Text Evaluation and Classification. in Mathematics. 2023;11(22):4660.
doi:10.3390/math11224660 .
Škorić, Mihailo, Utvić, Miloš, Stanković, Ranka, "Transformer-Based Composite Language Models for Text Evaluation and Classification" in Mathematics, 11, no. 22 (2023):4660,
https://doi.org/10.3390/math11224660 . .
1
1

Лексиколошки допринос граматици границе Предрага Пипера

Dragićević, Rajna; Utvić, Miloš

(2022)

TY  - JOUR
AU  - Dragićević, Rajna
AU  - Utvić, Miloš
PY  - 2022
UR  - https://repff.fil.bg.ac.rs/handle/123456789/1540
AB  - Разматрајући језичка средства за изражавање границе у српском језику,
проф. П. Пипер је навео неколико типичних именица које представљају лексичка средства у том категоријално-семантичком комплексу. У овом раду
истражују се и остале именице које имају ту улогу у српском језику. Полази
се од претпоставке да улогу граничника у српском језику вероватно врше
оне именице које се чешће од свих осталих употребљавају са предлозима,
тј. којима је реч иза које се користе најчешће предлог. На основу електронског корпуса СрпКор2013 направљен је списак свих таквих именица, а затим су направљене и листе именица које се најчешће користе директно иза
предлога који сугеришу неки тип граничности, а то су: до, од, из, на, око,
пред, у. Извршена је, затим, селекција грађе на основу семантичких и прагматичких критеријума и тако је добијена листа именица-граничника које су
описане у овом раду.
AB  - Рассматривая языковые средства для выражения границы в сербском языке, акад. П. Пипер перечислил несколько типичных существительных, представляющих лексические средства в этом категориально-семантическом комплексе. В этой статье исследуются другие существительные, играющие эту роль в сербском языке. Исходным является предположение, что роль границы, вероятно, выполняют те существительные в сербском языке, которые чаще всех других употребляются с предлогами, т.е. это слово, за которым чаще всего используется предлог. На основе электронного корпуса СрпКор был составлен список всех таких существительных, а затем составлены списки существительных, которые чаще всего употребляются непосредственно после предлогов, предполагающих тот или иной вид пограничности, а это: до, од, из, на, око, пред, у. Затем материал был отобран на основе семантических и прагматических критериев, и таким образом был получен список существительных-ограничителей, описанных в данной работе.
T2  - Јужнословенски филолог
T1  - Лексиколошки допринос граматици границе Предрага Пипера
EP  - 146
IS  - 2
SP  - 131
VL  - 78
DO  - 10.2298/JFI2202131D
ER  - 
@article{
author = "Dragićević, Rajna and Utvić, Miloš",
year = "2022",
abstract = "Разматрајући језичка средства за изражавање границе у српском језику,
проф. П. Пипер је навео неколико типичних именица које представљају лексичка средства у том категоријално-семантичком комплексу. У овом раду
истражују се и остале именице које имају ту улогу у српском језику. Полази
се од претпоставке да улогу граничника у српском језику вероватно врше
оне именице које се чешће од свих осталих употребљавају са предлозима,
тј. којима је реч иза које се користе најчешће предлог. На основу електронског корпуса СрпКор2013 направљен је списак свих таквих именица, а затим су направљене и листе именица које се најчешће користе директно иза
предлога који сугеришу неки тип граничности, а то су: до, од, из, на, око,
пред, у. Извршена је, затим, селекција грађе на основу семантичких и прагматичких критеријума и тако је добијена листа именица-граничника које су
описане у овом раду., Рассматривая языковые средства для выражения границы в сербском языке, акад. П. Пипер перечислил несколько типичных существительных, представляющих лексические средства в этом категориально-семантическом комплексе. В этой статье исследуются другие существительные, играющие эту роль в сербском языке. Исходным является предположение, что роль границы, вероятно, выполняют те существительные в сербском языке, которые чаще всех других употребляются с предлогами, т.е. это слово, за которым чаще всего используется предлог. На основе электронного корпуса СрпКор был составлен список всех таких существительных, а затем составлены списки существительных, которые чаще всего употребляются непосредственно после предлогов, предполагающих тот или иной вид пограничности, а это: до, од, из, на, око, пред, у. Затем материал был отобран на основе семантических и прагматических критериев, и таким образом был получен список существительных-ограничителей, описанных в данной работе.",
journal = "Јужнословенски филолог",
title = "Лексиколошки допринос граматици границе Предрага Пипера",
pages = "146-131",
number = "2",
volume = "78",
doi = "10.2298/JFI2202131D"
}
Dragićević, R.,& Utvić, M.. (2022). Лексиколошки допринос граматици границе Предрага Пипера. in Јужнословенски филолог, 78(2), 131-146.
https://doi.org/10.2298/JFI2202131D
Dragićević R, Utvić M. Лексиколошки допринос граматици границе Предрага Пипера. in Јужнословенски филолог. 2022;78(2):131-146.
doi:10.2298/JFI2202131D .
Dragićević, Rajna, Utvić, Miloš, "Лексиколошки допринос граматици границе Предрага Пипера" in Јужнословенски филолог, 78, no. 2 (2022):131-146,
https://doi.org/10.2298/JFI2202131D . .

Квалитативни библиометријски индикатори у научним радовима депонованим у институционални репозиторијум Хемијског факултета

Đorđević, Ana; Utvić, Miloš

(Градска библиотека, Панчево, 2022)

TY  - JOUR
AU  - Đorđević, Ana
AU  - Utvić, Miloš
PY  - 2022
UR  - https://repff.fil.bg.ac.rs/handle/123456789/1477
UR  - https://citaliste.rs/casopis/br41/djordjevi_ana.html
AB  - Репозиторијум Хемијског факултета Универзитета у Београду и Иновационог центра Cherry представља добро
организовану дигиталну библиотеку научних резултата који се у оквиру тих институција реализују. За потребе овог
рада истражена је промена броја цитата научних радова садржаних у репозиторијуму на основу екстерне апликације
Аутори, пројекти, публикације у којој су интегрисани параметри за преглед броја цитата из индексних база Scopus
и Web of Science. У раду се такође посматра и промена броја цитата код радова из репозиторијума који се појављују
на платформи за алтернативну метрику Altmetric. Представљена су два метода истраживања, у првом се разматра
промена броја цитата за све унете и цитиране записе радова у репозиторијуму, док се у оквиру другог промена
броја цитата проучава на нивоу свих записа радова одређеног аутора. Онај чији су радови изабрани за други метод
овог истраживања је у извештају Хемијског факултета за 2021. годину проглашен најцитиранијим аутором. Код оба
метода се посматрају три врсте записа са различитим степеном доступности: трајно закључани, доступни након
ембарго периода (зелени отворени приступ) и они који су потпуно у отвореном приступу (златни отворени приступ).
Метаподаци свих врста записа радова у репозиторијуму Cherry су јавно доступни уз строгу контролу библиотекара
– администратора репозиторијума. Овим истраживањем се запажа разлика која настаје у броју цитита појединачних
радова у септембру 2021. године и годину дана касније, у септембру 2022. Циљ рада је да се представи начин на који
би могла да се успостави корелација између нивоа доступности радова и њихове цитираности, са посебним освртом
на радове у зеленом отвореном приступу, што је полазна тачка за посматрање сврсисходности репозиторијума како
за Хемијски факултет и Иновациони центар, тако и за друге институције које су део развијене мреже репозиторијума у
Србији.
AB  - The repository of the Faculty of Chemistry, University of Belgrade, and the Innovation Center - Cherry presents a well-organized digital library of the institution's scientific outputs. For the purpose of this paper a research was done on the change in the number of citations contained in the repository, based on data from the external application Authors, projects, publications. The application has integrated parameters for examining the number of citations from Scopus and Web of Science databases. In this paper the change in number of citations from publications which appear in Altmetric - a platform for alternative metric were also used. Two methods of research were applied: the first method examines the change in number of citations for all deposited records of publications in the repository, and the second method enables to examine the change in number of citations on the level of all records of a specific author. The author whose publications were examined for the research via the second method was pronounced the most cited author in the yearly report for 2021 of the Faculty of Chemistry. Both methods examine three types of records with varying levels of accessibility: permanetly restricted, available after an embargo period (green open access) and permanent open access (gold open access). The metadata of all three kinds of publications recorded in the Cherry repository are accessible to the public with strict control of the librarian - repository manager. The research subject of this paper notes the difference that arises in the number of citations of individual records in September 2021 and a year later, in September 2022. The aim of the paper is to present a possible method to establish a correlation between the accessibility of publications and their citation count. There is a special regard to publications in the green open access, which form the basis for monitoring the relevance of the repository to the Faculty of Chemistry, University of Belgrade, and the Innovation Center as well as to other institutions which are parts of the established infrastructure of repositories in Serbia.
PB  - Градска библиотека, Панчево
T2  - Читалиште - научни часопис за теорију и праксу библиотекарства
T1  - Квалитативни библиометријски индикатори у научним радовима депонованим у институционални репозиторијум Хемијског факултета
T1  - Qualitative bibliometric indicators of scientific papers in the institutional repository of the Faculty of Chemistry
EP  - 44
IS  - 41
SP  - 30
DO  - 10.19090/cit.2022.41.30-44
UR  - conv_1418
ER  - 
@article{
author = "Đorđević, Ana and Utvić, Miloš",
year = "2022",
abstract = "Репозиторијум Хемијског факултета Универзитета у Београду и Иновационог центра Cherry представља добро
организовану дигиталну библиотеку научних резултата који се у оквиру тих институција реализују. За потребе овог
рада истражена је промена броја цитата научних радова садржаних у репозиторијуму на основу екстерне апликације
Аутори, пројекти, публикације у којој су интегрисани параметри за преглед броја цитата из индексних база Scopus
и Web of Science. У раду се такође посматра и промена броја цитата код радова из репозиторијума који се појављују
на платформи за алтернативну метрику Altmetric. Представљена су два метода истраживања, у првом се разматра
промена броја цитата за све унете и цитиране записе радова у репозиторијуму, док се у оквиру другог промена
броја цитата проучава на нивоу свих записа радова одређеног аутора. Онај чији су радови изабрани за други метод
овог истраживања је у извештају Хемијског факултета за 2021. годину проглашен најцитиранијим аутором. Код оба
метода се посматрају три врсте записа са различитим степеном доступности: трајно закључани, доступни након
ембарго периода (зелени отворени приступ) и они који су потпуно у отвореном приступу (златни отворени приступ).
Метаподаци свих врста записа радова у репозиторијуму Cherry су јавно доступни уз строгу контролу библиотекара
– администратора репозиторијума. Овим истраживањем се запажа разлика која настаје у броју цитита појединачних
радова у септембру 2021. године и годину дана касније, у септембру 2022. Циљ рада је да се представи начин на који
би могла да се успостави корелација између нивоа доступности радова и њихове цитираности, са посебним освртом
на радове у зеленом отвореном приступу, што је полазна тачка за посматрање сврсисходности репозиторијума како
за Хемијски факултет и Иновациони центар, тако и за друге институције које су део развијене мреже репозиторијума у
Србији., The repository of the Faculty of Chemistry, University of Belgrade, and the Innovation Center - Cherry presents a well-organized digital library of the institution's scientific outputs. For the purpose of this paper a research was done on the change in the number of citations contained in the repository, based on data from the external application Authors, projects, publications. The application has integrated parameters for examining the number of citations from Scopus and Web of Science databases. In this paper the change in number of citations from publications which appear in Altmetric - a platform for alternative metric were also used. Two methods of research were applied: the first method examines the change in number of citations for all deposited records of publications in the repository, and the second method enables to examine the change in number of citations on the level of all records of a specific author. The author whose publications were examined for the research via the second method was pronounced the most cited author in the yearly report for 2021 of the Faculty of Chemistry. Both methods examine three types of records with varying levels of accessibility: permanetly restricted, available after an embargo period (green open access) and permanent open access (gold open access). The metadata of all three kinds of publications recorded in the Cherry repository are accessible to the public with strict control of the librarian - repository manager. The research subject of this paper notes the difference that arises in the number of citations of individual records in September 2021 and a year later, in September 2022. The aim of the paper is to present a possible method to establish a correlation between the accessibility of publications and their citation count. There is a special regard to publications in the green open access, which form the basis for monitoring the relevance of the repository to the Faculty of Chemistry, University of Belgrade, and the Innovation Center as well as to other institutions which are parts of the established infrastructure of repositories in Serbia.",
publisher = "Градска библиотека, Панчево",
journal = "Читалиште - научни часопис за теорију и праксу библиотекарства",
title = "Квалитативни библиометријски индикатори у научним радовима депонованим у институционални репозиторијум Хемијског факултета, Qualitative bibliometric indicators of scientific papers in the institutional repository of the Faculty of Chemistry",
pages = "44-30",
number = "41",
doi = "10.19090/cit.2022.41.30-44",
url = "conv_1418"
}
Đorđević, A.,& Utvić, M.. (2022). Квалитативни библиометријски индикатори у научним радовима депонованим у институционални репозиторијум Хемијског факултета. in Читалиште - научни часопис за теорију и праксу библиотекарства
Градска библиотека, Панчево.(41), 30-44.
https://doi.org/10.19090/cit.2022.41.30-44
conv_1418
Đorđević A, Utvić M. Квалитативни библиометријски индикатори у научним радовима депонованим у институционални репозиторијум Хемијског факултета. in Читалиште - научни часопис за теорију и праксу библиотекарства. 2022;(41):30-44.
doi:10.19090/cit.2022.41.30-44
conv_1418 .
Đorđević, Ana, Utvić, Miloš, "Квалитативни библиометријски индикатори у научним радовима депонованим у институционални репозиторијум Хемијског факултета" in Читалиште - научни часопис за теорију и праксу библиотекарства, no. 41 (2022):30-44,
https://doi.org/10.19090/cit.2022.41.30-44 .,
conv_1418 .

Machine Learning and Deep Neural Network-Based Lemmatization and Morphosyntactic Tagging for Serbian

Stanković, Ranka; Sandrih, Branislava; Krstev, Cvetana; Utvić, Miloš; Škorić, Mihailo

(European Language Resources Association (ELRA), 2020)

TY  - CONF
AU  - Stanković, Ranka
AU  - Sandrih, Branislava
AU  - Krstev, Cvetana
AU  - Utvić, Miloš
AU  - Škorić, Mihailo
PY  - 2020
UR  - https://repff.fil.bg.ac.rs/handle/123456789/1354
UR  - https://aclanthology.org/2020.lrec-1.487/
AB  - The training of new tagger models for Serbian is primarily motivated by the enhancement of the existing tagset with the grammatical category of a gender. The harmonization of resources that were manually annotated within different projects over a long period of time was an important task, enabled by the development of tools that support partial automation. The supporting tools take into account different taggers and tagsets. This paper focuses on TreeTagger and spaCy taggers, and the annotation schema alignment between Serbian morphological dictionaries, MULTEXT-East and Universal Part-of-Speech tagset. The trained models will be used to publish the new version of the Corpus of Contemporary Serbian as well as the Serbian literary corpus. The performance of developed taggers were compared and the impact of training set size was investigated, which resulted in around 98% PoS-tagging precision per token for both new models. The SR BASIC annotated dataset will also be published.
PB  - European Language Resources Association (ELRA)
C3  - LREC 2020 - 12th International Conference on Language Resources and Evaluation, Conference Proceedings
T1  - Machine Learning and Deep Neural Network-Based Lemmatization and Morphosyntactic Tagging for Serbian
EP  - 3962
SP  - 3954
UR  - conv_2023
ER  - 
@conference{
author = "Stanković, Ranka and Sandrih, Branislava and Krstev, Cvetana and Utvić, Miloš and Škorić, Mihailo",
year = "2020",
abstract = "The training of new tagger models for Serbian is primarily motivated by the enhancement of the existing tagset with the grammatical category of a gender. The harmonization of resources that were manually annotated within different projects over a long period of time was an important task, enabled by the development of tools that support partial automation. The supporting tools take into account different taggers and tagsets. This paper focuses on TreeTagger and spaCy taggers, and the annotation schema alignment between Serbian morphological dictionaries, MULTEXT-East and Universal Part-of-Speech tagset. The trained models will be used to publish the new version of the Corpus of Contemporary Serbian as well as the Serbian literary corpus. The performance of developed taggers were compared and the impact of training set size was investigated, which resulted in around 98% PoS-tagging precision per token for both new models. The SR BASIC annotated dataset will also be published.",
publisher = "European Language Resources Association (ELRA)",
journal = "LREC 2020 - 12th International Conference on Language Resources and Evaluation, Conference Proceedings",
title = "Machine Learning and Deep Neural Network-Based Lemmatization and Morphosyntactic Tagging for Serbian",
pages = "3962-3954",
url = "conv_2023"
}
Stanković, R., Sandrih, B., Krstev, C., Utvić, M.,& Škorić, M.. (2020). Machine Learning and Deep Neural Network-Based Lemmatization and Morphosyntactic Tagging for Serbian. in LREC 2020 - 12th International Conference on Language Resources and Evaluation, Conference Proceedings
European Language Resources Association (ELRA)., 3954-3962.
conv_2023
Stanković R, Sandrih B, Krstev C, Utvić M, Škorić M. Machine Learning and Deep Neural Network-Based Lemmatization and Morphosyntactic Tagging for Serbian. in LREC 2020 - 12th International Conference on Language Resources and Evaluation, Conference Proceedings. 2020;:3954-3962.
conv_2023 .
Stanković, Ranka, Sandrih, Branislava, Krstev, Cvetana, Utvić, Miloš, Škorić, Mihailo, "Machine Learning and Deep Neural Network-Based Lemmatization and Morphosyntactic Tagging for Serbian" in LREC 2020 - 12th International Conference on Language Resources and Evaluation, Conference Proceedings (2020):3954-3962,
conv_2023 .
6

Песнички речник Ирене Грицкат

Dragićević, Rajna; Utvić, Miloš

(Београд : Филолошки факултет, Међународни славистички центар, 2020)

TY  - JOUR
AU  - Dragićević, Rajna
AU  - Utvić, Miloš
PY  - 2020
UR  - https://repff.fil.bg.ac.rs/handle/123456789/1317
AB  - У раду се бавимо избором лексике Ирене Грицкат у збирци песама Циклоида и указујемо на везу између њене поезије, посебно лексике у њој, са закључцима у њеним лингвистичким истраживањима и размишљањима у есејима које је посветила науци. У раду се објављује и фреквенцијски речник аутосемантичних лексема употребљених у овој збирци, чиме се та лексика даје на увид читаоцима и омогућава лакши приступ за даљу анализу.
AB  - В этой статье рассматриваем выбор лексики в стихами Ирены Грицкат Циклоида и указываем на связь между ее поэзией, особенно словарным запасом, с выводами в ее лингвистических
исследованиях и в сочинениях посвященных науке и духовности. В этой статье также представлен частотный словарь автосемантических лексем, используемых в стихах Ирены Грицкат,
который обеспечивает более легкий доступ к данным.
PB  - Београд : Филолошки факултет, Међународни славистички центар
T2  - Научни састанак слависта у Вукове дане
T1  - Песнички речник Ирене Грицкат
T1  - Поэтический словарь Ирены Грицкат
EP  - 84
IS  - 3
SP  - 55
VL  - 49
DO  - 10.18485/msc.2020.49.3.ch4
UR  - conv_2581
ER  - 
@article{
author = "Dragićević, Rajna and Utvić, Miloš",
year = "2020",
abstract = "У раду се бавимо избором лексике Ирене Грицкат у збирци песама Циклоида и указујемо на везу између њене поезије, посебно лексике у њој, са закључцима у њеним лингвистичким истраживањима и размишљањима у есејима које је посветила науци. У раду се објављује и фреквенцијски речник аутосемантичних лексема употребљених у овој збирци, чиме се та лексика даје на увид читаоцима и омогућава лакши приступ за даљу анализу., В этой статье рассматриваем выбор лексики в стихами Ирены Грицкат Циклоида и указываем на связь между ее поэзией, особенно словарным запасом, с выводами в ее лингвистических
исследованиях и в сочинениях посвященных науке и духовности. В этой статье также представлен частотный словарь автосемантических лексем, используемых в стихах Ирены Грицкат,
который обеспечивает более легкий доступ к данным.",
publisher = "Београд : Филолошки факултет, Међународни славистички центар",
journal = "Научни састанак слависта у Вукове дане",
title = "Песнички речник Ирене Грицкат, Поэтический словарь Ирены Грицкат",
pages = "84-55",
number = "3",
volume = "49",
doi = "10.18485/msc.2020.49.3.ch4",
url = "conv_2581"
}
Dragićević, R.,& Utvić, M.. (2020). Песнички речник Ирене Грицкат. in Научни састанак слависта у Вукове дане
Београд : Филолошки факултет, Међународни славистички центар., 49(3), 55-84.
https://doi.org/10.18485/msc.2020.49.3.ch4
conv_2581
Dragićević R, Utvić M. Песнички речник Ирене Грицкат. in Научни састанак слависта у Вукове дане. 2020;49(3):55-84.
doi:10.18485/msc.2020.49.3.ch4
conv_2581 .
Dragićević, Rajna, Utvić, Miloš, "Песнички речник Ирене Грицкат" in Научни састанак слависта у Вукове дане, 49, no. 3 (2020):55-84,
https://doi.org/10.18485/msc.2020.49.3.ch4 .,
conv_2581 .

Претрага корпуса заснована на употреби екстерних лексичких ресурса путем веб-сервиса

Utvić, Miloš; Stanković, Ranka; Tomašević, Aleksandra Đ.; Škorić, Mihailo; Lazić, Biljana Đ.

(Београд : Филолошки факултет, Међународни славистички центар, 2019)

TY  - JOUR
AU  - Utvić, Miloš
AU  - Stanković, Ranka
AU  - Tomašević, Aleksandra Đ.
AU  - Škorić, Mihailo
AU  - Lazić, Biljana Đ.
PY  - 2019
UR  - https://repff.fil.bg.ac.rs/handle/123456789/1219
AB  - У раду се разматра хибридни приступ претрази корпуса, илустрован на примеру алатки OCWB и NoSketch Engine, примењених на специјални корпус из области рударства (РудКор) и Корпус савременог српског језика (СрпКор). Разматрани приступ комбинује постојеће могућности алатки OCWB и NoSketch Engine, које своју претрагу заснивају на лингвистичкој анотацији корпуса, са новим могућностима претраге у виду консултовања екстерних језичких ресурса (морфолошки електронски речници српског језика и лексичка база података Српски ворднет). Хибридни приступ је реализован надоградњом веб-сучеља која поменуте алатке користе за претрагу корпуса, као и употребом веб-сервиса заснованих на технологији RESTful. Веб-сервиси омогућавају да се задати упит, у коме се појављује лексема X, по потреби прошири лексемама које се са лексемом X налазе у некој лексичкој релацији (синонимија, антонимија, хиперонимија итд.).
AB  - Тhis paper explores a hybrid approach to corpus search illustrated by application of corpus tools
OCWB and NoSketch Engine to special corpus for mining domain, RudKor, as well as to Corpus
of Contemporary Serbian (SrpKor). The discussed approach combines existing functionality of tools
OCWB and NoSketch Engine (a search based on embedded linguistic annotation of corpus) with newly
implemented search options available in custom-upgrade of web interface. Custom-upgraded web interface of OCWB and NoSketch Engine consults external lexical resources (morphological electronic
dictionaries of Serbian and lexical database Serbian Wordnet) through RESTful web services. Consequently, if necessary, user query containing lemma X can be expanded with lemmas such that specified
semantic relation (synonymy, antonymy, hypernymy/ hyponymy) holds between each lemma that has
been added and the lemma X.
PB  - Београд : Филолошки факултет, Међународни славистички центар
T2  - Научни састанак слависта у Вукове дане
T1  - Претрага корпуса заснована на употреби екстерних лексичких ресурса путем веб-сервиса
T1  - The corpus search based on usage of external lexical resources through web services
EP  - 298
IS  - 3
SP  - 279
VL  - 48
DO  - 10.18485/msc.2019.48.3.ch12
UR  - conv_2578
ER  - 
@article{
author = "Utvić, Miloš and Stanković, Ranka and Tomašević, Aleksandra Đ. and Škorić, Mihailo and Lazić, Biljana Đ.",
year = "2019",
abstract = "У раду се разматра хибридни приступ претрази корпуса, илустрован на примеру алатки OCWB и NoSketch Engine, примењених на специјални корпус из области рударства (РудКор) и Корпус савременог српског језика (СрпКор). Разматрани приступ комбинује постојеће могућности алатки OCWB и NoSketch Engine, које своју претрагу заснивају на лингвистичкој анотацији корпуса, са новим могућностима претраге у виду консултовања екстерних језичких ресурса (морфолошки електронски речници српског језика и лексичка база података Српски ворднет). Хибридни приступ је реализован надоградњом веб-сучеља која поменуте алатке користе за претрагу корпуса, као и употребом веб-сервиса заснованих на технологији RESTful. Веб-сервиси омогућавају да се задати упит, у коме се појављује лексема X, по потреби прошири лексемама које се са лексемом X налазе у некој лексичкој релацији (синонимија, антонимија, хиперонимија итд.)., Тhis paper explores a hybrid approach to corpus search illustrated by application of corpus tools
OCWB and NoSketch Engine to special corpus for mining domain, RudKor, as well as to Corpus
of Contemporary Serbian (SrpKor). The discussed approach combines existing functionality of tools
OCWB and NoSketch Engine (a search based on embedded linguistic annotation of corpus) with newly
implemented search options available in custom-upgrade of web interface. Custom-upgraded web interface of OCWB and NoSketch Engine consults external lexical resources (morphological electronic
dictionaries of Serbian and lexical database Serbian Wordnet) through RESTful web services. Consequently, if necessary, user query containing lemma X can be expanded with lemmas such that specified
semantic relation (synonymy, antonymy, hypernymy/ hyponymy) holds between each lemma that has
been added and the lemma X.",
publisher = "Београд : Филолошки факултет, Међународни славистички центар",
journal = "Научни састанак слависта у Вукове дане",
title = "Претрага корпуса заснована на употреби екстерних лексичких ресурса путем веб-сервиса, The corpus search based on usage of external lexical resources through web services",
pages = "298-279",
number = "3",
volume = "48",
doi = "10.18485/msc.2019.48.3.ch12",
url = "conv_2578"
}
Utvić, M., Stanković, R., Tomašević, A. Đ., Škorić, M.,& Lazić, B. Đ.. (2019). Претрага корпуса заснована на употреби екстерних лексичких ресурса путем веб-сервиса. in Научни састанак слависта у Вукове дане
Београд : Филолошки факултет, Међународни славистички центар., 48(3), 279-298.
https://doi.org/10.18485/msc.2019.48.3.ch12
conv_2578
Utvić M, Stanković R, Tomašević AĐ, Škorić M, Lazić BĐ. Претрага корпуса заснована на употреби екстерних лексичких ресурса путем веб-сервиса. in Научни састанак слависта у Вукове дане. 2019;48(3):279-298.
doi:10.18485/msc.2019.48.3.ch12
conv_2578 .
Utvić, Miloš, Stanković, Ranka, Tomašević, Aleksandra Đ., Škorić, Mihailo, Lazić, Biljana Đ., "Претрага корпуса заснована на употреби екстерних лексичких ресурса путем веб-сервиса" in Научни састанак слависта у Вукове дане, 48, no. 3 (2019):279-298,
https://doi.org/10.18485/msc.2019.48.3.ch12 .,
conv_2578 .

Умножавање мовираних фемининума на -(к)иња у савременом српском језику

Dragićević, Rajna; Utvić, Miloš

(Научно друштво за неговање и проучавање српског језика, Београд, Универзитет у Београду - Филолошки факултет, Београд, Универзитет Црне Горе - Филолошки факултет, Никшић, Универзитет у Бањој Луци -, 2019)

TY  - JOUR
AU  - Dragićević, Rajna
AU  - Utvić, Miloš
PY  - 2019
UR  - https://repff.fil.bg.ac.rs/handle/123456789/1280
UR  - http://doi.fil.bg.ac.rs/volume.php?lang=en&pt=journals&issue=sj-2019-24-1&i=9
AB  - На основу електронског корпуса сачињеног од текстова који су током 2017. године објављени у дневним новинама Данас и Новости, као и у недељнику Време, сачињен је поткорпус именица на -ица, -ка и -(к)иња које спадају у мовиране фемининуме. Након неколико општих напомена које се односе на цео корпус прикупљених мовираних фемининума, у овом раду анализиране су именице на -(к)иња. У разматрање је узета фреквенција ових лексема, њихова творба, значење и употреба.
AB  - A list of nouns ending on -ica, -ka and -(k)inja, called movirani femininum, was
excerpted from the electronic corpus which consists of text published in 2017 in daily press
Danas and Novosti and weekly magazine Vreme. The nouns ending on -(k)inja were analyzed in this paper, thier frequency, their formation, their meaning and usage.
PB  - Научно друштво за неговање и проучавање српског језика, Београд, Универзитет у Београду - Филолошки факултет, Београд, Универзитет Црне Горе - Филолошки факултет, Никшић, Универзитет у Бањој Луци -
T2  - Српски језик : студије српске и словенске
T1  - Умножавање мовираних фемининума на -(к)иња у савременом српском језику
T1  - Multiplying of movirani femininum ending on -(k)inja in serbian language
EP  - 200
EP  - Научно друштво за неговање и проучавање српског језика, Београд, Универзитет у Београду - Филолошки факултет, Београд, Универзитет Црне Горе - Филолошки факултет, Никшић, Универзитет у Бањој Луци -
IS  - 1
SP  - 187
VL  - 24
DO  - 10.18485/sj.2019.24.1.9
UR  - conv_2579
ER  - 
@article{
author = "Dragićević, Rajna and Utvić, Miloš",
year = "2019",
abstract = "На основу електронског корпуса сачињеног од текстова који су током 2017. године објављени у дневним новинама Данас и Новости, као и у недељнику Време, сачињен је поткорпус именица на -ица, -ка и -(к)иња које спадају у мовиране фемининуме. Након неколико општих напомена које се односе на цео корпус прикупљених мовираних фемининума, у овом раду анализиране су именице на -(к)иња. У разматрање је узета фреквенција ових лексема, њихова творба, значење и употреба., A list of nouns ending on -ica, -ka and -(k)inja, called movirani femininum, was
excerpted from the electronic corpus which consists of text published in 2017 in daily press
Danas and Novosti and weekly magazine Vreme. The nouns ending on -(k)inja were analyzed in this paper, thier frequency, their formation, their meaning and usage.",
publisher = "Научно друштво за неговање и проучавање српског језика, Београд, Универзитет у Београду - Филолошки факултет, Београд, Универзитет Црне Горе - Филолошки факултет, Никшић, Универзитет у Бањој Луци -",
journal = "Српски језик : студије српске и словенске",
title = "Умножавање мовираних фемининума на -(к)иња у савременом српском језику, Multiplying of movirani femininum ending on -(k)inja in serbian language",
pages = "200-Научно друштво за неговање и проучавање српског језика, Београд, Универзитет у Београду - Филолошки факултет, Београд, Универзитет Црне Горе - Филолошки факултет, Никшић, Универзитет у Бањој Луци --187",
number = "1",
volume = "24",
doi = "10.18485/sj.2019.24.1.9",
url = "conv_2579"
}
Dragićević, R.,& Utvić, M.. (2019). Умножавање мовираних фемининума на -(к)иња у савременом српском језику. in Српски језик : студије српске и словенске
Научно друштво за неговање и проучавање српског језика, Београд, Универзитет у Београду - Филолошки факултет, Београд, Универзитет Црне Горе - Филолошки факултет, Никшић, Универзитет у Бањој Луци -., 24(1), 187-200.
https://doi.org/10.18485/sj.2019.24.1.9
conv_2579
Dragićević R, Utvić M. Умножавање мовираних фемининума на -(к)иња у савременом српском језику. in Српски језик : студије српске и словенске. 2019;24(1):187-200.
doi:10.18485/sj.2019.24.1.9
conv_2579 .
Dragićević, Rajna, Utvić, Miloš, "Умножавање мовираних фемининума на -(к)иња у савременом српском језику" in Српски језик : студије српске и словенске, 24, no. 1 (2019):187-200,
https://doi.org/10.18485/sj.2019.24.1.9 .,
conv_2579 .
2

Vebran Web Services for Corpus Query Expansion

Stanković, Ranka; Utvić, Miloš

(Faculty of Philology, University of Belgrade, 2019)

TY  - JOUR
AU  - Stanković, Ranka
AU  - Utvić, Miloš
PY  - 2019
UR  - https://repff.fil.bg.ac.rs/handle/123456789/1216
UR  - https://infoteka.bg.ac.rs/ojs/index.php/Infoteka/article/view/2019.19.2.5_en
AB  - This paper discusses the development of the Vebran web services and their application to corpus search improvements. The Vebran web services are used to consult external lexical resources for Serbian (mainly electronic morphological dictionaries and Serbian Wordnet) and expand user queries to retrieve more relevant results from Serbian corpora.
PB  - Faculty of Philology, University of Belgrade
PB  - University Library „Svetozar Marković”
PB  - Association of Libraries of the Universities of Serbia
T2  - Infotheca - Journal for Digital Humanities
T1  - Vebran Web Services for Corpus Query Expansion
EP  - 118
IS  - 2
SP  - 99
VL  - 19
DO  - 10.18485/infotheca.2019.19.2.5
UR  - conv_2577
ER  - 
@article{
author = "Stanković, Ranka and Utvić, Miloš",
year = "2019",
abstract = "This paper discusses the development of the Vebran web services and their application to corpus search improvements. The Vebran web services are used to consult external lexical resources for Serbian (mainly electronic morphological dictionaries and Serbian Wordnet) and expand user queries to retrieve more relevant results from Serbian corpora.",
publisher = "Faculty of Philology, University of Belgrade, University Library „Svetozar Marković”, Association of Libraries of the Universities of Serbia",
journal = "Infotheca - Journal for Digital Humanities",
title = "Vebran Web Services for Corpus Query Expansion",
pages = "118-99",
number = "2",
volume = "19",
doi = "10.18485/infotheca.2019.19.2.5",
url = "conv_2577"
}
Stanković, R.,& Utvić, M.. (2019). Vebran Web Services for Corpus Query Expansion. in Infotheca - Journal for Digital Humanities
Faculty of Philology, University of Belgrade., 19(2), 99-118.
https://doi.org/10.18485/infotheca.2019.19.2.5
conv_2577
Stanković R, Utvić M. Vebran Web Services for Corpus Query Expansion. in Infotheca - Journal for Digital Humanities. 2019;19(2):99-118.
doi:10.18485/infotheca.2019.19.2.5
conv_2577 .
Stanković, Ranka, Utvić, Miloš, "Vebran Web Services for Corpus Query Expansion" in Infotheca - Journal for Digital Humanities, 19, no. 2 (2019):99-118,
https://doi.org/10.18485/infotheca.2019.19.2.5 .,
conv_2577 .

Изградња специјалних корпуса савременог српског језика на примеру корпуса из области рударства

Utvić, Miloš; Obradović, Ivan; Stanković, Ranka; Tomašević, Aleksandra Đ.; Lazić, Biljana Đ.

(Београд : Филолошки факултет, Међународни славистички центар, 2018)

TY  - JOUR
AU  - Utvić, Miloš
AU  - Obradović, Ivan
AU  - Stanković, Ranka
AU  - Tomašević, Aleksandra Đ.
AU  - Lazić, Biljana Đ.
PY  - 2018
UR  - https://repff.fil.bg.ac.rs/handle/123456789/1185
UR  - http://doi.fil.bg.ac.rs/volume.php?lang=en&pt=eb_ser&issue=msc-2018-47-3&i=7
AB  - У овом раду се разматра изградња специјалног корпуса стручних текстова на српском језику из области рударства на Рударско-геолошком факултету Универзитета у Београду. Специјални корпус из области рударства је произашао из дигиталне библиотеке ROmeka"RGF, најпре као средство за унапређивање претраге дигиталне библиотеке захваљујући лингвистичкој анотацији, а потом и као ресурс за различита лингвистичка и терминолошка истраживања, укључујући екстракцију термина и друге задатке из области језичког инжењерства. У раду се пореде могућности неколико верзија корпуса језика струке из области рударства, односно коришћених софтверских пакета за креирање, управљање и претраживање корпуса.
AB  - Тhis paper explores construction of domain-specific corpus of texts in Serbian from the mining
domain at the University of Belgrade, Faculty of Mining and Geology. Special linguistically annotated
corpus for mining domain originated from digital library ROmeka@RGF, initially as a means to improve features of digital library search engine, later as a language resource to be used in various linguistic research and multiple tasks of language engineering (terminology extraction, information retrieval,
computational lexicography etc.). Also, several versions of the same special linguistically annotated
corpus for mining domain, along with software packages used for corpora creation, management and
search, are compared related to their search features.
PB  - Београд : Филолошки факултет, Међународни славистички центар
T2  - Научни састанак слависта у Вукове дане
T1  - Изградња специјалних корпуса савременог српског језика на примеру корпуса из области рударства
T1  - The construction of special corpora of contemporary serbian — an example of corpus for mining domain
EP  - 118
IS  - 3
SP  - 103
VL  - 47
DO  - 10.18485/msc.2018.47.3.ch7
UR  - conv_2580
ER  - 
@article{
author = "Utvić, Miloš and Obradović, Ivan and Stanković, Ranka and Tomašević, Aleksandra Đ. and Lazić, Biljana Đ.",
year = "2018",
abstract = "У овом раду се разматра изградња специјалног корпуса стручних текстова на српском језику из области рударства на Рударско-геолошком факултету Универзитета у Београду. Специјални корпус из области рударства је произашао из дигиталне библиотеке ROmeka"RGF, најпре као средство за унапређивање претраге дигиталне библиотеке захваљујући лингвистичкој анотацији, а потом и као ресурс за различита лингвистичка и терминолошка истраживања, укључујући екстракцију термина и друге задатке из области језичког инжењерства. У раду се пореде могућности неколико верзија корпуса језика струке из области рударства, односно коришћених софтверских пакета за креирање, управљање и претраживање корпуса., Тhis paper explores construction of domain-specific corpus of texts in Serbian from the mining
domain at the University of Belgrade, Faculty of Mining and Geology. Special linguistically annotated
corpus for mining domain originated from digital library ROmeka@RGF, initially as a means to improve features of digital library search engine, later as a language resource to be used in various linguistic research and multiple tasks of language engineering (terminology extraction, information retrieval,
computational lexicography etc.). Also, several versions of the same special linguistically annotated
corpus for mining domain, along with software packages used for corpora creation, management and
search, are compared related to their search features.",
publisher = "Београд : Филолошки факултет, Међународни славистички центар",
journal = "Научни састанак слависта у Вукове дане",
title = "Изградња специјалних корпуса савременог српског језика на примеру корпуса из области рударства, The construction of special corpora of contemporary serbian — an example of corpus for mining domain",
pages = "118-103",
number = "3",
volume = "47",
doi = "10.18485/msc.2018.47.3.ch7",
url = "conv_2580"
}
Utvić, M., Obradović, I., Stanković, R., Tomašević, A. Đ.,& Lazić, B. Đ.. (2018). Изградња специјалних корпуса савременог српског језика на примеру корпуса из области рударства. in Научни састанак слависта у Вукове дане
Београд : Филолошки факултет, Међународни славистички центар., 47(3), 103-118.
https://doi.org/10.18485/msc.2018.47.3.ch7
conv_2580
Utvić M, Obradović I, Stanković R, Tomašević AĐ, Lazić BĐ. Изградња специјалних корпуса савременог српског језика на примеру корпуса из области рударства. in Научни састанак слависта у Вукове дане. 2018;47(3):103-118.
doi:10.18485/msc.2018.47.3.ch7
conv_2580 .
Utvić, Miloš, Obradović, Ivan, Stanković, Ranka, Tomašević, Aleksandra Đ., Lazić, Biljana Đ., "Изградња специјалних корпуса савременог српског језика на примеру корпуса из области рударства" in Научни састанак слависта у Вукове дане, 47, no. 3 (2018):103-118,
https://doi.org/10.18485/msc.2018.47.3.ch7 .,
conv_2580 .

Managing mining project documentation using human language technology

Tomašević, Aleksandra Đ.; Stanković, Ranka; Utvić, Miloš; Obradović, Ivan; Kolonja, Božo

(Emerald Group Publishing Ltd, Bingley, 2018)

TY  - JOUR
AU  - Tomašević, Aleksandra Đ.
AU  - Stanković, Ranka
AU  - Utvić, Miloš
AU  - Obradović, Ivan
AU  - Kolonja, Božo
PY  - 2018
UR  - https://repff.fil.bg.ac.rs/handle/123456789/1205
AB  - Purpose This paper aims to develop a system, which would enable efficient management and exploitation of documentation in electronic form, related to mining projects, with information retrieval and information extraction (IE) features, using various language resources and natural language processing. Design/methodology/approach The system is designed to integrate textual, lexical, semantic and terminological resources, enabling advanced document search and extraction of information. These resources are integrated with a set of Web services and applications, for different user profiles and use-cases. Findings The use of the system is illustrated by examples demonstrating keyword search supported by Web query expansion services, search based on regular expressions, corpus search based on local grammars, followed by extraction of information based on this search and finally, search with lexical masks using domain and semantic markers. Originality/value The presented system is the first software solution for implementation of human language technology in management of documentation from the mining engineering domain, but it is also applicable to other engineering and non-engineering domains. The system is independent of the type of alphabet (Cyrillic and Latin), which makes it applicable to other languages of the Balkan region related to Serbian, and its support for morphological dictionaries can be applied in most morphologically complex languages, such as Slavic languages. Significant search improvements and the efficiency of IE are based on semantic networks and terminology dictionaries, with the support of local grammars.
PB  - Emerald Group Publishing Ltd, Bingley
T2  - Electronic Library
T1  - Managing mining project documentation using human language technology
EP  - 1009
IS  - 6
SP  - 993
VL  - 36
DO  - 10.1108/EL-11-2017-0239
UR  - conv_1777
ER  - 
@article{
author = "Tomašević, Aleksandra Đ. and Stanković, Ranka and Utvić, Miloš and Obradović, Ivan and Kolonja, Božo",
year = "2018",
abstract = "Purpose This paper aims to develop a system, which would enable efficient management and exploitation of documentation in electronic form, related to mining projects, with information retrieval and information extraction (IE) features, using various language resources and natural language processing. Design/methodology/approach The system is designed to integrate textual, lexical, semantic and terminological resources, enabling advanced document search and extraction of information. These resources are integrated with a set of Web services and applications, for different user profiles and use-cases. Findings The use of the system is illustrated by examples demonstrating keyword search supported by Web query expansion services, search based on regular expressions, corpus search based on local grammars, followed by extraction of information based on this search and finally, search with lexical masks using domain and semantic markers. Originality/value The presented system is the first software solution for implementation of human language technology in management of documentation from the mining engineering domain, but it is also applicable to other engineering and non-engineering domains. The system is independent of the type of alphabet (Cyrillic and Latin), which makes it applicable to other languages of the Balkan region related to Serbian, and its support for morphological dictionaries can be applied in most morphologically complex languages, such as Slavic languages. Significant search improvements and the efficiency of IE are based on semantic networks and terminology dictionaries, with the support of local grammars.",
publisher = "Emerald Group Publishing Ltd, Bingley",
journal = "Electronic Library",
title = "Managing mining project documentation using human language technology",
pages = "1009-993",
number = "6",
volume = "36",
doi = "10.1108/EL-11-2017-0239",
url = "conv_1777"
}
Tomašević, A. Đ., Stanković, R., Utvić, M., Obradović, I.,& Kolonja, B.. (2018). Managing mining project documentation using human language technology. in Electronic Library
Emerald Group Publishing Ltd, Bingley., 36(6), 993-1009.
https://doi.org/10.1108/EL-11-2017-0239
conv_1777
Tomašević AĐ, Stanković R, Utvić M, Obradović I, Kolonja B. Managing mining project documentation using human language technology. in Electronic Library. 2018;36(6):993-1009.
doi:10.1108/EL-11-2017-0239
conv_1777 .
Tomašević, Aleksandra Đ., Stanković, Ranka, Utvić, Miloš, Obradović, Ivan, Kolonja, Božo, "Managing mining project documentation using human language technology" in Electronic Library, 36, no. 6 (2018):993-1009,
https://doi.org/10.1108/EL-11-2017-0239 .,
conv_1777 .
3
2

Корпусно истраживање ширења компоненте „мулти“ у српском језику данас

Dragićević, Rajna; Utvić, Miloš

(Београд : Филолошки факултет, Међународни славистички центар, 2017)

TY  - JOUR
AU  - Dragićević, Rajna
AU  - Utvić, Miloš
PY  - 2017
UR  - https://repff.fil.bg.ac.rs/handle/123456789/1119
UR  - http://doi.fil.bg.ac.rs/volume.php?lang=en&pt=eb_ser&issue=msc-2017-46-3&i=5
AB  - Рад је посвећен анализи употребе префиксоида мулти- у српском језику пре петнаест година и данас. Истраживање је обављено на материјалу добијеном ексцерпцијом лексема са компонентом мулти- из корпуса Политике 2000–2001. год. и његовим поређењем са ексцерпираним лексемама са компонентом мулти- из корпуса Политике 2015–2016. год. Циљ истраживања био је да се испита хипотеза о ширењу лексема са интернационалним препозитивним компонентама у српском језику, као и да се истраже фазе усвајања страних афикса, па и лексема, у савременом српском језику.
AB  - This paper deals with the use of the prefixoid multi- in Serbian language fifteen years ago and
today. The research was conducted on the material obtained by excerption of lexemes with the component multi- from the corpus of the newspaper Politika 2000-2001. and its comparison with excerption
of lexemes with the component multi- from the corpus of the newspaper Politika 2015-2016. The aim
of this study was to test the hypothesis about spreading of lexemes with the international prepositive
components in Serbian language, and also to analyze the phases of acquiring of the foreign affixes, and
lexemes as well, in the contemporary Serbian language.
PB  - Београд : Филолошки факултет, Међународни славистички центар
T2  - Научни састанак слависта у Вукове дане
T1  - Корпусно истраживање ширења компоненте „мулти“ у српском језику данас
EP  - 86
IS  - 3
SP  - 73
VL  - 46
DO  - 10.18485/msc.2017.46.3.ch5
UR  - conv_2576
ER  - 
@article{
author = "Dragićević, Rajna and Utvić, Miloš",
year = "2017",
abstract = "Рад је посвећен анализи употребе префиксоида мулти- у српском језику пре петнаест година и данас. Истраживање је обављено на материјалу добијеном ексцерпцијом лексема са компонентом мулти- из корпуса Политике 2000–2001. год. и његовим поређењем са ексцерпираним лексемама са компонентом мулти- из корпуса Политике 2015–2016. год. Циљ истраживања био је да се испита хипотеза о ширењу лексема са интернационалним препозитивним компонентама у српском језику, као и да се истраже фазе усвајања страних афикса, па и лексема, у савременом српском језику., This paper deals with the use of the prefixoid multi- in Serbian language fifteen years ago and
today. The research was conducted on the material obtained by excerption of lexemes with the component multi- from the corpus of the newspaper Politika 2000-2001. and its comparison with excerption
of lexemes with the component multi- from the corpus of the newspaper Politika 2015-2016. The aim
of this study was to test the hypothesis about spreading of lexemes with the international prepositive
components in Serbian language, and also to analyze the phases of acquiring of the foreign affixes, and
lexemes as well, in the contemporary Serbian language.",
publisher = "Београд : Филолошки факултет, Међународни славистички центар",
journal = "Научни састанак слависта у Вукове дане",
title = "Корпусно истраживање ширења компоненте „мулти“ у српском језику данас",
pages = "86-73",
number = "3",
volume = "46",
doi = "10.18485/msc.2017.46.3.ch5",
url = "conv_2576"
}
Dragićević, R.,& Utvić, M.. (2017). Корпусно истраживање ширења компоненте „мулти“ у српском језику данас. in Научни састанак слависта у Вукове дане
Београд : Филолошки факултет, Међународни славистички центар., 46(3), 73-86.
https://doi.org/10.18485/msc.2017.46.3.ch5
conv_2576
Dragićević R, Utvić M. Корпусно истраживање ширења компоненте „мулти“ у српском језику данас. in Научни састанак слависта у Вукове дане. 2017;46(3):73-86.
doi:10.18485/msc.2017.46.3.ch5
conv_2576 .
Dragićević, Rajna, Utvić, Miloš, "Корпусно истраживање ширења компоненте „мулти“ у српском језику данас" in Научни састанак слависта у Вукове дане, 46, no. 3 (2017):73-86,
https://doi.org/10.18485/msc.2017.46.3.ch5 .,
conv_2576 .

Ако коза лаже, рог не лаже - где су и ко су жене у српској дневној штампи

Krstev, Cvetana; Utvić, Miloš; Jaćimović, Jelena

(Београд : Филолошки факултет, 2015)

TY  - JOUR
AU  - Krstev, Cvetana
AU  - Utvić, Miloš
AU  - Jaćimović, Jelena
PY  - 2015
UR  - https://repff.fil.bg.ac.rs/handle/123456789/984
UR  - http://www.knjizenstvo.rs/sr/casopisi/2015/zenska-knjizevnost-i-kultura/ako-koza-laze-rog-ne-laze-gde-su-i-ko-su-zene-u-srpskoj-dnevnoj-stampi-2#gsc.tab=0
AB  - Полазећи од претпоставке да је присуство жена у дневној и недељној штампи слика њиховог положаја у друштву, у овом раду покушавамо да утврдимо колико и како су жене представљене у српској штампи користећи се методама корпусне и рачунарске лингвистике, као и методама екстракције информација. Разматрање je засновано на корпусу састављеном од извода из дневне штампе и електронских медија (Политика, Блиц, Вечерње новости, Данас, Б92) прикупљеном у периоду 2009 – 2015, мањем изводу из женске недељне штампе (Базар) и узорку недељника Врањске. Методе рачунарске лингвистике ослањају се на коришћење исцрпног електронског речника српског језика, док се екстракција информација заснива на детектовању именованих ентитета коришћењем граматика за плитку синтаксну анализу. Добијени резултати су ручно евалуирани што нам је омогућило да утврдимо висок квалитет нашег система у препознавању имена особа, док квалитет препознавања пола именованих особа треба побољшати. С друге стране, добијени резултати нам говоре да је заступљеност жена уопште у српској штампи данас (дневној и недељној) знатно мања од заступљености мушкараца, али и да се најистакнутијим женским особама посвећује знатно мање простора него најистакнутијим мушким личностима.
AB  - There are various answers to the question whether gender equality has been achieved in contemporary Serbian society. Some consider women to be absolutely equal, others think that the achieved equality has been lost; there are those who believe that it never existed and that it will be a long time before it is achieved. What could be the stubborn fact which would help us determine what the plausible answer is? Assuming that the presence of women in daily and weekly press reflects their social position, we shall attempt to discover how much and in what way women are present in Serbian papers. The research relies on corpus and computational linguistics and extraction of information. The analysis will be based on a corpus consisting of portions taken from daily papers and electronic media (Politika, Blic, Večernje novosti, Danas, B92) which have more than 600.000 words (collected 2009-2014) and a smaller extract from weekly press (Ilustrovana poltika, Bazar). The methods of computational linguistics will employ a comprehensive dictionary of the Serbian language and the extraction of information will be based on detecting the named entities with the help of grammars for shallow syntactic analysis. After evaluation, the obtained results will be examined in terms of quality and quantity.
PB  - Београд : Филолошки факултет
T2  - Књиженство
T1  - Ако коза лаже, рог не лаже - где су и ко су жене у српској дневној штампи
IS  - 5
VL  - 5
DO  - 10.18485/knjiz.2015.1.24
UR  - conv_2589
ER  - 
@article{
author = "Krstev, Cvetana and Utvić, Miloš and Jaćimović, Jelena",
year = "2015",
abstract = "Полазећи од претпоставке да је присуство жена у дневној и недељној штампи слика њиховог положаја у друштву, у овом раду покушавамо да утврдимо колико и како су жене представљене у српској штампи користећи се методама корпусне и рачунарске лингвистике, као и методама екстракције информација. Разматрање je засновано на корпусу састављеном од извода из дневне штампе и електронских медија (Политика, Блиц, Вечерње новости, Данас, Б92) прикупљеном у периоду 2009 – 2015, мањем изводу из женске недељне штампе (Базар) и узорку недељника Врањске. Методе рачунарске лингвистике ослањају се на коришћење исцрпног електронског речника српског језика, док се екстракција информација заснива на детектовању именованих ентитета коришћењем граматика за плитку синтаксну анализу. Добијени резултати су ручно евалуирани што нам је омогућило да утврдимо висок квалитет нашег система у препознавању имена особа, док квалитет препознавања пола именованих особа треба побољшати. С друге стране, добијени резултати нам говоре да је заступљеност жена уопште у српској штампи данас (дневној и недељној) знатно мања од заступљености мушкараца, али и да се најистакнутијим женским особама посвећује знатно мање простора него најистакнутијим мушким личностима., There are various answers to the question whether gender equality has been achieved in contemporary Serbian society. Some consider women to be absolutely equal, others think that the achieved equality has been lost; there are those who believe that it never existed and that it will be a long time before it is achieved. What could be the stubborn fact which would help us determine what the plausible answer is? Assuming that the presence of women in daily and weekly press reflects their social position, we shall attempt to discover how much and in what way women are present in Serbian papers. The research relies on corpus and computational linguistics and extraction of information. The analysis will be based on a corpus consisting of portions taken from daily papers and electronic media (Politika, Blic, Večernje novosti, Danas, B92) which have more than 600.000 words (collected 2009-2014) and a smaller extract from weekly press (Ilustrovana poltika, Bazar). The methods of computational linguistics will employ a comprehensive dictionary of the Serbian language and the extraction of information will be based on detecting the named entities with the help of grammars for shallow syntactic analysis. After evaluation, the obtained results will be examined in terms of quality and quantity.",
publisher = "Београд : Филолошки факултет",
journal = "Књиженство",
title = "Ако коза лаже, рог не лаже - где су и ко су жене у српској дневној штампи",
number = "5",
volume = "5",
doi = "10.18485/knjiz.2015.1.24",
url = "conv_2589"
}
Krstev, C., Utvić, M.,& Jaćimović, J.. (2015). Ако коза лаже, рог не лаже - где су и ко су жене у српској дневној штампи. in Књиженство
Београд : Филолошки факултет., 5(5).
https://doi.org/10.18485/knjiz.2015.1.24
conv_2589
Krstev C, Utvić M, Jaćimović J. Ако коза лаже, рог не лаже - где су и ко су жене у српској дневној штампи. in Књиженство. 2015;5(5).
doi:10.18485/knjiz.2015.1.24
conv_2589 .
Krstev, Cvetana, Utvić, Miloš, Jaćimović, Jelena, "Ако коза лаже, рог не лаже - где су и ко су жене у српској дневној штампи" in Књиженство, 5, no. 5 (2015),
https://doi.org/10.18485/knjiz.2015.1.24 .,
conv_2589 .

Izgradnja referentnog korpusa savremenog srpskog jezika

Utvić, Miloš

(Универзитет у Београду, Филолошки факултет, 2014)

TY  - THES
AU  - Utvić, Miloš
PY  - 2014
UR  - https://nardus.mpn.gov.rs/handle/123456789/4091
UR  - http://eteze.bg.ac.rs/application/showtheses?thesesId=2219
UR  - https://fedorabg.bg.ac.rs/fedora/get/o:10061/bdef:Content/download
UR  - http://vbs.rs/scripts/cobiss?command=DISPLAY&base=70036&RID=47179279
UR  - https://repff.fil.bg.ac.rs/handle/123456789/19
AB  - U ovom radu se razmatra problem metoda i alata za konstrukciju korpusa savremenog srpskog jezika kao referentnog jezičkog resursa. Rad se sastoji od tri dela. U prvom delu rada se razmatraju opšta pitanja koja se odnose na definiciju, istorijat, parametre i klasifikaciju korpusa, kao i na korpusnu lingvistiku kao metodologiju istraživanja jezika. Posebna pažnja je posvećena pitanjima reprezentativnosti i balansiranosti korpusa kao uzorka jezika. Takođe je detaljno razmotren i uticaj Interneta, odnosno veba, na kritičko preispitivanje definicije korpusa. Kao parametri korpusa, posebno su analizirani nosač, domen i namena, obim (veličina), period, izvor/medijum, anotacija i višejezičnost. Na osnovu tih parametara su opisane moguće klasifikacije korpusa i posebno su izdvojeni nacionalni korpusi kao opšti, referentni korpusi koji pretenduju da reprezentuju jezik jedne zemlje. Detaljno su analizirani nacionalni korpusi slovenskih jezika. Poseban odeljak je posvećen istorijatu srpske korpusne lingvistike. Na kraju prvog dela rada su navedeni ciljevi rada: razmatranje mogućnosti izgradnje opšteg korpusa srpskog jezika koji bi bio elektronski, dinamički, sinhroni, balansiran, anotiran (morfološki, strukturno, bibliografski), kao i mogućnosti izgradnje pratećih višejezičnih paralelnih korpusa u kojima je srpski izvorni ili ciljni jezik...
AB  - The problem regarding the methods and tools to construct a corpus of  contemporary Serbian as a reference language resource is considered in this thesis.  The thesis consists of three parts.  General questions related to definition, history, parameters and classification of  corpora, as well as to corpus linguistics as a methodology in language research, are  considered in the first part of the thesis. The special attention is paid to questions  regarding representativeness and balance of corpus as a language sample. The affect  of Internet/Web on critical review of corpus definition is considered in detail,  too. Corpus parameters (storage medium, domain/purpose, size, time span, mode of  communication, annotation and multilinguality) are particularly analysed. Possible  classifications of corpora, based on these parameters, are described with emphasis  on national corpora as general reference corpora which are supposed to represent  the national language of a country. National corpora of Slavic languages are analysed  exhaustively. A special section is dedicated to the history of Serbian corpus  linguistics. The goals of thesis are listed in the end of the first part of the thesis: considering  possibilities for construction of general, electronic, dynamic, synchronous,  balanced, morphosyntactically and bibliographically-annotated corpus, as well as  the possibilities for construction of multilingual parallel corpora with Serbian as  source or target language...
PB  - Универзитет у Београду, Филолошки факултет
T1  - Izgradnja referentnog korpusa savremenog srpskog jezika
T1  - The construction of reference corpus of contemporary Serbian
UR  - t-5195
ER  - 
@phdthesis{
author = "Utvić, Miloš",
year = "2014",
abstract = "U ovom radu se razmatra problem metoda i alata za konstrukciju korpusa savremenog srpskog jezika kao referentnog jezičkog resursa. Rad se sastoji od tri dela. U prvom delu rada se razmatraju opšta pitanja koja se odnose na definiciju, istorijat, parametre i klasifikaciju korpusa, kao i na korpusnu lingvistiku kao metodologiju istraživanja jezika. Posebna pažnja je posvećena pitanjima reprezentativnosti i balansiranosti korpusa kao uzorka jezika. Takođe je detaljno razmotren i uticaj Interneta, odnosno veba, na kritičko preispitivanje definicije korpusa. Kao parametri korpusa, posebno su analizirani nosač, domen i namena, obim (veličina), period, izvor/medijum, anotacija i višejezičnost. Na osnovu tih parametara su opisane moguće klasifikacije korpusa i posebno su izdvojeni nacionalni korpusi kao opšti, referentni korpusi koji pretenduju da reprezentuju jezik jedne zemlje. Detaljno su analizirani nacionalni korpusi slovenskih jezika. Poseban odeljak je posvećen istorijatu srpske korpusne lingvistike. Na kraju prvog dela rada su navedeni ciljevi rada: razmatranje mogućnosti izgradnje opšteg korpusa srpskog jezika koji bi bio elektronski, dinamički, sinhroni, balansiran, anotiran (morfološki, strukturno, bibliografski), kao i mogućnosti izgradnje pratećih višejezičnih paralelnih korpusa u kojima je srpski izvorni ili ciljni jezik..., The problem regarding the methods and tools to construct a corpus of  contemporary Serbian as a reference language resource is considered in this thesis.  The thesis consists of three parts.  General questions related to definition, history, parameters and classification of  corpora, as well as to corpus linguistics as a methodology in language research, are  considered in the first part of the thesis. The special attention is paid to questions  regarding representativeness and balance of corpus as a language sample. The affect  of Internet/Web on critical review of corpus definition is considered in detail,  too. Corpus parameters (storage medium, domain/purpose, size, time span, mode of  communication, annotation and multilinguality) are particularly analysed. Possible  classifications of corpora, based on these parameters, are described with emphasis  on national corpora as general reference corpora which are supposed to represent  the national language of a country. National corpora of Slavic languages are analysed  exhaustively. A special section is dedicated to the history of Serbian corpus  linguistics. The goals of thesis are listed in the end of the first part of the thesis: considering  possibilities for construction of general, electronic, dynamic, synchronous,  balanced, morphosyntactically and bibliographically-annotated corpus, as well as  the possibilities for construction of multilingual parallel corpora with Serbian as  source or target language...",
publisher = "Универзитет у Београду, Филолошки факултет",
title = "Izgradnja referentnog korpusa savremenog srpskog jezika, The construction of reference corpus of contemporary Serbian",
url = "t-5195"
}
Utvić, M.. (2014). Izgradnja referentnog korpusa savremenog srpskog jezika. 
Универзитет у Београду, Филолошки факултет..
t-5195
Utvić M. Izgradnja referentnog korpusa savremenog srpskog jezika. 2014;.
t-5195 .
Utvić, Miloš, "Izgradnja referentnog korpusa savremenog srpskog jezika" (2014),
t-5195 .

A system for named entity recognition based on local grammars

Krstev, Cvetana; Obradović, Ivan; Utvić, Miloš; Vitas, Duško

(Oxford Univ Press, Oxford, 2014)

TY  - JOUR
AU  - Krstev, Cvetana
AU  - Obradović, Ivan
AU  - Utvić, Miloš
AU  - Vitas, Duško
PY  - 2014
UR  - https://repff.fil.bg.ac.rs/handle/123456789/924
AB  - The existence of large-scale lexical resources for Serbian, e-dictionaries in particular, coupled with local grammars in the form of finite-state transducers, enabled the development of a complex system for named entity recognition and tagging. The system is not general in nature, but targets some specific types of name, temporal and numerical expressions. In order to improve the precision of recognition we used local grammars to describe the context of named entities. In the case of personal names the widest context was used to include the recognition of nominal phrases describing a person's position. The evaluation of our system was performed twice on a corpus of 3,000 short agency news. Results obtained by the system were manually evaluated, all omissions and incorrect recognitions precisely identified, and most of them corrected before the second evaluation. The overall recall R = 0.88 for types and R = 0.94 for tokens, and overall precision P = 0.96 for types and P = 0.98 for tokens indicated that our system gives priority to precision. The evaluation of recognition of surnames only, with and without positions, and also names of distinguished persons such as royalty and church dignitaries confirmed this fact, albeit with less satisfactory results for both precision and recall.
PB  - Oxford Univ Press, Oxford
T2  - Journal of Logic and Computation
T1  - A system for named entity recognition based on local grammars
EP  - 489
IS  - 2
SP  - 473
VL  - 24
DO  - 10.1093/logcom/exs079
UR  - conv_1499
ER  - 
@article{
author = "Krstev, Cvetana and Obradović, Ivan and Utvić, Miloš and Vitas, Duško",
year = "2014",
abstract = "The existence of large-scale lexical resources for Serbian, e-dictionaries in particular, coupled with local grammars in the form of finite-state transducers, enabled the development of a complex system for named entity recognition and tagging. The system is not general in nature, but targets some specific types of name, temporal and numerical expressions. In order to improve the precision of recognition we used local grammars to describe the context of named entities. In the case of personal names the widest context was used to include the recognition of nominal phrases describing a person's position. The evaluation of our system was performed twice on a corpus of 3,000 short agency news. Results obtained by the system were manually evaluated, all omissions and incorrect recognitions precisely identified, and most of them corrected before the second evaluation. The overall recall R = 0.88 for types and R = 0.94 for tokens, and overall precision P = 0.96 for types and P = 0.98 for tokens indicated that our system gives priority to precision. The evaluation of recognition of surnames only, with and without positions, and also names of distinguished persons such as royalty and church dignitaries confirmed this fact, albeit with less satisfactory results for both precision and recall.",
publisher = "Oxford Univ Press, Oxford",
journal = "Journal of Logic and Computation",
title = "A system for named entity recognition based on local grammars",
pages = "489-473",
number = "2",
volume = "24",
doi = "10.1093/logcom/exs079",
url = "conv_1499"
}
Krstev, C., Obradović, I., Utvić, M.,& Vitas, D.. (2014). A system for named entity recognition based on local grammars. in Journal of Logic and Computation
Oxford Univ Press, Oxford., 24(2), 473-489.
https://doi.org/10.1093/logcom/exs079
conv_1499
Krstev C, Obradović I, Utvić M, Vitas D. A system for named entity recognition based on local grammars. in Journal of Logic and Computation. 2014;24(2):473-489.
doi:10.1093/logcom/exs079
conv_1499 .
Krstev, Cvetana, Obradović, Ivan, Utvić, Miloš, Vitas, Duško, "A system for named entity recognition based on local grammars" in Journal of Logic and Computation, 24, no. 2 (2014):473-489,
https://doi.org/10.1093/logcom/exs079 .,
conv_1499 .
13
21

Листе учестаности Корпуса савременог српског језика

Utvić, Miloš

(Београд : Филолошки факултет, Међународни славистички центар, 2014)

TY  - JOUR
AU  - Utvić, Miloš
PY  - 2014
UR  - https://repff.fil.bg.ac.rs/handle/123456789/914
AB  - У раду се описују параметри текуће верзије Корпуса савременог српског језика, СрпКор2013 (КОРПУС 2013), са посебним акцентом на резултате прелиминарних истраживања корпуса. У раду се описују обим, структура и анотација као параметри корпуса СрпКор2013, нове могућности у оквиру система за претраживање корпуса, као и генерисане листе учестаности у склопу припрема за статистичку анализу корпуса.
PB  - Београд : Филолошки факултет, Међународни славистички центар
T2  - Научни састанак слависта у Вукове дане
T1  - Листе учестаности Корпуса савременог српског језика
EP  - 262
IS  - 3
SP  - 241
VL  - 43
UR  - conv_2590
ER  - 
@article{
author = "Utvić, Miloš",
year = "2014",
abstract = "У раду се описују параметри текуће верзије Корпуса савременог српског језика, СрпКор2013 (КОРПУС 2013), са посебним акцентом на резултате прелиминарних истраживања корпуса. У раду се описују обим, структура и анотација као параметри корпуса СрпКор2013, нове могућности у оквиру система за претраживање корпуса, као и генерисане листе учестаности у склопу припрема за статистичку анализу корпуса.",
publisher = "Београд : Филолошки факултет, Међународни славистички центар",
journal = "Научни састанак слависта у Вукове дане",
title = "Листе учестаности Корпуса савременог српског језика",
pages = "262-241",
number = "3",
volume = "43",
url = "conv_2590"
}
Utvić, M.. (2014). Листе учестаности Корпуса савременог српског језика. in Научни састанак слависта у Вукове дане
Београд : Филолошки факултет, Међународни славистички центар., 43(3), 241-262.
conv_2590
Utvić M. Листе учестаности Корпуса савременог српског језика. in Научни састанак слависта у Вукове дане. 2014;43(3):241-262.
conv_2590 .
Utvić, Miloš, "Листе учестаности Корпуса савременог српског језика" in Научни састанак слависта у Вукове дане, 43, no. 3 (2014):241-262,
conv_2590 .

A tool for enhanced search of multilingual digital libraries e-journals

Stanković, Ranka; Krstev, Cvetana; Obradović, Ivan; Trtovac, Aleksandra; Utvić, Miloš

(European Language Resources Association (ELRA), 2012)

TY  - CONF
AU  - Stanković, Ranka
AU  - Krstev, Cvetana
AU  - Obradović, Ivan
AU  - Trtovac, Aleksandra
AU  - Utvić, Miloš
PY  - 2012
UR  - https://repff.fil.bg.ac.rs/handle/123456789/688
AB  - This paper outlines the main features of Bibliša, a tool that offers various possibilities of enhancing queries submitted to large
collections of TMX documents generated from aligned parallel articles residing in multilingual digital libraries of e-journals. The
queries initiated by a simple or multiword keyword, in Serbian or English, can be expanded by Bibliša, both semantically and
morphologically, using different supporting monolingual and multilingual resources, such as wordnets and electronic dictionaries. The
tool operates within a complex system composed of several modules including a web application, which makes it readily accessible on
the web. Its functionality has been tested on a collection of 44 TMX documents generated from articles published bilingually by the
journal INFOtecha, yielding encouraging results. Further enhancements of the tool are underway, with the aim of transforming it from
a powerful full-text and metadata search tool, to a useful translator’s aid, which could be of assistance both in reviewing terminology
used in context and in refining the multilingual resources used within the system.
PB  - European Language Resources Association (ELRA)
C3  - Proceedings of the 8th International Conference on Language Resources and Evaluation, LREC 2012
T1  - A tool for enhanced search of multilingual digital libraries e-journals
EP  - 1717
SP  - 1710
UR  - conv_2098
ER  - 
@conference{
author = "Stanković, Ranka and Krstev, Cvetana and Obradović, Ivan and Trtovac, Aleksandra and Utvić, Miloš",
year = "2012",
abstract = "This paper outlines the main features of Bibliša, a tool that offers various possibilities of enhancing queries submitted to large
collections of TMX documents generated from aligned parallel articles residing in multilingual digital libraries of e-journals. The
queries initiated by a simple or multiword keyword, in Serbian or English, can be expanded by Bibliša, both semantically and
morphologically, using different supporting monolingual and multilingual resources, such as wordnets and electronic dictionaries. The
tool operates within a complex system composed of several modules including a web application, which makes it readily accessible on
the web. Its functionality has been tested on a collection of 44 TMX documents generated from articles published bilingually by the
journal INFOtecha, yielding encouraging results. Further enhancements of the tool are underway, with the aim of transforming it from
a powerful full-text and metadata search tool, to a useful translator’s aid, which could be of assistance both in reviewing terminology
used in context and in refining the multilingual resources used within the system.",
publisher = "European Language Resources Association (ELRA)",
journal = "Proceedings of the 8th International Conference on Language Resources and Evaluation, LREC 2012",
title = "A tool for enhanced search of multilingual digital libraries e-journals",
pages = "1717-1710",
url = "conv_2098"
}
Stanković, R., Krstev, C., Obradović, I., Trtovac, A.,& Utvić, M.. (2012). A tool for enhanced search of multilingual digital libraries e-journals. in Proceedings of the 8th International Conference on Language Resources and Evaluation, LREC 2012
European Language Resources Association (ELRA)., 1710-1717.
conv_2098
Stanković R, Krstev C, Obradović I, Trtovac A, Utvić M. A tool for enhanced search of multilingual digital libraries e-journals. in Proceedings of the 8th International Conference on Language Resources and Evaluation, LREC 2012. 2012;:1710-1717.
conv_2098 .
Stanković, Ranka, Krstev, Cvetana, Obradović, Ivan, Trtovac, Aleksandra, Utvić, Miloš, "A tool for enhanced search of multilingual digital libraries e-journals" in Proceedings of the 8th International Conference on Language Resources and Evaluation, LREC 2012 (2012):1710-1717,
conv_2098 .
7

An authorship attribution for serbian

Zečević, A.; Utvić, Miloš

(2012)

TY  - CONF
AU  - Zečević, A.
AU  - Utvić, Miloš
PY  - 2012
UR  - https://repff.fil.bg.ac.rs/handle/123456789/685
AB  - An authorship attribution is a problem of identifying the author of an anonymous or disputed text if there is a closed set of candidate authors. Due to the richness of natural languages and numerous ways of expressing individuality in a writing process, this task employs all the sources of lan- guage knowledge: lexis, syntax, semantics, orthography, etc. The impressive results of n-gram based algorithms have been presented in many papers for many languages so far. The goal of our research was to test if this group of algorithms works equally well on Serbian and if it is a case, to cal- culate the optimal values for the parameters appearing in the algorithms. Also, we wanted to test if a syllable based word decomposition, which represents a more human like word decomposition in comparison to n-grams, can be use- ful in an authorship attribution. Our results confirm good performance of an n-gram based approach (accuracy up to 96%) and show the potential usefulness of a syllable based approach (accuracy from 81% to 89%).
C3  - CEUR Workshop Proceedings
T1  - An authorship attribution for serbian
EP  - 112
SP  - 109
VL  - 920
UR  - conv_2092
ER  - 
@conference{
author = "Zečević, A. and Utvić, Miloš",
year = "2012",
abstract = "An authorship attribution is a problem of identifying the author of an anonymous or disputed text if there is a closed set of candidate authors. Due to the richness of natural languages and numerous ways of expressing individuality in a writing process, this task employs all the sources of lan- guage knowledge: lexis, syntax, semantics, orthography, etc. The impressive results of n-gram based algorithms have been presented in many papers for many languages so far. The goal of our research was to test if this group of algorithms works equally well on Serbian and if it is a case, to cal- culate the optimal values for the parameters appearing in the algorithms. Also, we wanted to test if a syllable based word decomposition, which represents a more human like word decomposition in comparison to n-grams, can be use- ful in an authorship attribution. Our results confirm good performance of an n-gram based approach (accuracy up to 96%) and show the potential usefulness of a syllable based approach (accuracy from 81% to 89%).",
journal = "CEUR Workshop Proceedings",
title = "An authorship attribution for serbian",
pages = "112-109",
volume = "920",
url = "conv_2092"
}
Zečević, A.,& Utvić, M.. (2012). An authorship attribution for serbian. in CEUR Workshop Proceedings, 920, 109-112.
conv_2092
Zečević A, Utvić M. An authorship attribution for serbian. in CEUR Workshop Proceedings. 2012;920:109-112.
conv_2092 .
Zečević, A., Utvić, Miloš, "An authorship attribution for serbian" in CEUR Workshop Proceedings, 920 (2012):109-112,
conv_2092 .
2

Annotating the Corpus of Contemporary Serbian

Utvić, Miloš

(2011)

TY  - JOUR
AU  - Utvić, Miloš
PY  - 2011
UR  - https://infoteka.bg.ac.rs/pdf/Eng/2011-2/INFOTHECA_XII_2_Decembar_36-47.pdf
UR  - https://repff.fil.bg.ac.rs/handle/123456789/1546
AB  - This article describes stages in annotation of the 113 million Corpus of Contemporary Serbian (preparation and implementation). There are several levels of annotation which have been conducted. Corresponding bibliographical information is attached to each corpus text. Part-of-speech (PoS) tagset is prepared, based on the electronic morphological dictionary of Serbian, as well as dictionary of possible annotations adapted for TreeTagger, the PoS tagging system. The Corpus of Contemporary Serbian has been automatically, morphosyntactically annotated with TreeTagger software, i.e. information about part of speech and lemma has been attached to each corpus word form. TreeTagger used manually tagged one million word corpus INTERA as a training set. Ten-fold cross-validation is used for evaluation of applied annotation procedure.
T2  - Infotheca - Journal for Digital Humanities
T1  - Annotating the Corpus of Contemporary Serbian
EP  - 47a
IS  - 2
SP  - 36a
VL  - 12
ER  - 
@article{
author = "Utvić, Miloš",
year = "2011",
abstract = "This article describes stages in annotation of the 113 million Corpus of Contemporary Serbian (preparation and implementation). There are several levels of annotation which have been conducted. Corresponding bibliographical information is attached to each corpus text. Part-of-speech (PoS) tagset is prepared, based on the electronic morphological dictionary of Serbian, as well as dictionary of possible annotations adapted for TreeTagger, the PoS tagging system. The Corpus of Contemporary Serbian has been automatically, morphosyntactically annotated with TreeTagger software, i.e. information about part of speech and lemma has been attached to each corpus word form. TreeTagger used manually tagged one million word corpus INTERA as a training set. Ten-fold cross-validation is used for evaluation of applied annotation procedure.",
journal = "Infotheca - Journal for Digital Humanities",
title = "Annotating the Corpus of Contemporary Serbian",
pages = "47a-36a",
number = "2",
volume = "12"
}
Utvić, M.. (2011). Annotating the Corpus of Contemporary Serbian. in Infotheca - Journal for Digital Humanities, 12(2), 36a-47a.
Utvić M. Annotating the Corpus of Contemporary Serbian. in Infotheca - Journal for Digital Humanities. 2011;12(2):36a-47a..
Utvić, Miloš, "Annotating the Corpus of Contemporary Serbian" in Infotheca - Journal for Digital Humanities, 12, no. 2 (2011):36a-47a.

Анотација Корпуса савременог српског језика

Utvić, Miloš

(Заједница библиотека универзитета у Србији, 2011)

TY  - JOUR
AU  - Utvić, Miloš
PY  - 2011
UR  - https://repff.fil.bg.ac.rs/handle/123456789/628
UR  - https://infoteka.bg.ac.rs/index.php/sr/arhiva/2011/2/infoteka-12-2-2011-39-51
AB  - Овај текст описује припрему и реализацију анотације Корпуса савременог српског језика величине 113 милиона речи. Анотација је спроведена на неколико нивоа. Сваком тексту корпуса је придружена одговарајућа библиографска информација. На основу електронског морфолошког речника српског језика припремљен је скуп етикета за врсте речи, као и речник за анотацију прилагођен програму за етикетирање TreeTagger. Коришћењем програма TreeTagger и ручно анотираног корпуса INTERA величине око милион речи, извршена је аутоматска морфосинтаксичка анотација Корпуса савременог српског језика, тј. корпусним речима је придружена информација о врсти речи и леми. Применом десетоструке унакрсне провере (енг. 10-fold cross-validation) обављена је евалуација примењеног поступка.
PB  - Заједница библиотека универзитета у Србији
PB  - Универзитетска библиотека „Светозар Марковић”
PB  - Филолошки факултет, Универзитет у Београду
T2  - Инфотека : часопис за дигиталну хуманистику
T1  - Анотација Корпуса савременог српског језика
EP  - 51
IS  - 2
SP  - 39
VL  - 12
UR  - conv_2591
ER  - 
@article{
author = "Utvić, Miloš",
year = "2011",
abstract = "Овај текст описује припрему и реализацију анотације Корпуса савременог српског језика величине 113 милиона речи. Анотација је спроведена на неколико нивоа. Сваком тексту корпуса је придружена одговарајућа библиографска информација. На основу електронског морфолошког речника српског језика припремљен је скуп етикета за врсте речи, као и речник за анотацију прилагођен програму за етикетирање TreeTagger. Коришћењем програма TreeTagger и ручно анотираног корпуса INTERA величине око милион речи, извршена је аутоматска морфосинтаксичка анотација Корпуса савременог српског језика, тј. корпусним речима је придружена информација о врсти речи и леми. Применом десетоструке унакрсне провере (енг. 10-fold cross-validation) обављена је евалуација примењеног поступка.",
publisher = "Заједница библиотека универзитета у Србији, Универзитетска библиотека „Светозар Марковић”, Филолошки факултет, Универзитет у Београду",
journal = "Инфотека : часопис за дигиталну хуманистику",
title = "Анотација Корпуса савременог српског језика",
pages = "51-39",
number = "2",
volume = "12",
url = "conv_2591"
}
Utvić, M.. (2011). Анотација Корпуса савременог српског језика. in Инфотека : часопис за дигиталну хуманистику
Заједница библиотека универзитета у Србији., 12(2), 39-51.
conv_2591
Utvić M. Анотација Корпуса савременог српског језика. in Инфотека : часопис за дигиталну хуманистику. 2011;12(2):39-51.
conv_2591 .
Utvić, Miloš, "Анотација Корпуса савременог српског језика" in Инфотека : часопис за дигиталну хуманистику, 12, no. 2 (2011):39-51,
conv_2591 .

Annotating the Corpus of Contemporary Serbian

Utvić, Miloš

(2011)

TY  - JOUR
AU  - Utvić, Miloš
PY  - 2011
UR  - https://repff.fil.bg.ac.rs/handle/123456789/1544
AB  - This article describes stages in annotation of the 113 million Corpus of Contemporary Serbian (preparation and implementation). There are several levels of annotation 
which have been conducted. Corresponding bibliographical information is attached to 
each corpus text. Part-of-speech (PoS) tagset is prepared, based on the electronic morphological dictionary of Serbian, as well as dictionary of possible annotations adapted 
for TreeTagger, the PoS tagging system. The Corpus of Contemporary Serbian has been 
automatically, morphosyntactically annotated with TreeTagger software, i.e. information about part of speech and lemma has been attached to each corpus word form. 
TreeTagger used manually tagged one million word corpus INTERA as a training set. 
Ten-fold cross-validation is used for evaluation of applied annotation procedure.
T2  - Infotheca : Journal of informatics and librarianship
T1  - Annotating the Corpus of  Contemporary Serbian
EP  - 47a
IS  - 2
SP  - 36a
VL  - 12
ER  - 
@article{
author = "Utvić, Miloš",
year = "2011",
abstract = "This article describes stages in annotation of the 113 million Corpus of Contemporary Serbian (preparation and implementation). There are several levels of annotation 
which have been conducted. Corresponding bibliographical information is attached to 
each corpus text. Part-of-speech (PoS) tagset is prepared, based on the electronic morphological dictionary of Serbian, as well as dictionary of possible annotations adapted 
for TreeTagger, the PoS tagging system. The Corpus of Contemporary Serbian has been 
automatically, morphosyntactically annotated with TreeTagger software, i.e. information about part of speech and lemma has been attached to each corpus word form. 
TreeTagger used manually tagged one million word corpus INTERA as a training set. 
Ten-fold cross-validation is used for evaluation of applied annotation procedure.",
journal = "Infotheca : Journal of informatics and librarianship",
title = "Annotating the Corpus of  Contemporary Serbian",
pages = "47a-36a",
number = "2",
volume = "12"
}
Utvić, M.. (2011). Annotating the Corpus of  Contemporary Serbian. in Infotheca : Journal of informatics and librarianship, 12(2), 36a-47a.
Utvić M. Annotating the Corpus of  Contemporary Serbian. in Infotheca : Journal of informatics and librarianship. 2011;12(2):36a-47a..
Utvić, Miloš, "Annotating the Corpus of  Contemporary Serbian" in Infotheca : Journal of informatics and librarianship, 12, no. 2 (2011):36a-47a.

E-dictionaries and finite-state automata for the recognition of named entities

Krstev, Cvetana; Vitas, Duško; Obradović, Ivan; Utvić, Miloš

(Association for Computational Linguistics (ACL), 2011)

TY  - CONF
AU  - Krstev, Cvetana
AU  - Vitas, Duško
AU  - Obradović, Ivan
AU  - Utvić, Miloš
PY  - 2011
UR  - https://repff.fil.bg.ac.rs/handle/123456789/569
AB  - In this paper we present a system for named entity recognition and tagging in Serbian that relies on large-scale lexical resources and finite-state transducers. Our system recognizes several types of name, temporal and numerical expressions. Finite-state automata are used to describe the context of named entities, thus improving the precision of recognition. The widest context was used for personal names and it included the recognition of nominal phrases describing a person's position. For the evaluation of the named entity recognition system we used a corpus of 2,300 short agency news. Through manual evaluation we precisely identified all omissions and incorrect recognitions which enabled the computation of recall and precision. The overall recall R = 0.84 for types and R = 0.93 for tokens, and overall precision P = 0.95 for types and P = 0.98 for tokens show that our system gives priority to precision.
PB  - Association for Computational Linguistics (ACL)
C3  - FSMNLP 2011 - Proceedings of the 9th International Workshop Finite State Methods and Natural Language Processing
T1  - E-dictionaries and finite-state automata for the recognition of named entities
EP  - 56
SP  - 48
UR  - conv_2102
ER  - 
@conference{
author = "Krstev, Cvetana and Vitas, Duško and Obradović, Ivan and Utvić, Miloš",
year = "2011",
abstract = "In this paper we present a system for named entity recognition and tagging in Serbian that relies on large-scale lexical resources and finite-state transducers. Our system recognizes several types of name, temporal and numerical expressions. Finite-state automata are used to describe the context of named entities, thus improving the precision of recognition. The widest context was used for personal names and it included the recognition of nominal phrases describing a person's position. For the evaluation of the named entity recognition system we used a corpus of 2,300 short agency news. Through manual evaluation we precisely identified all omissions and incorrect recognitions which enabled the computation of recall and precision. The overall recall R = 0.84 for types and R = 0.93 for tokens, and overall precision P = 0.95 for types and P = 0.98 for tokens show that our system gives priority to precision.",
publisher = "Association for Computational Linguistics (ACL)",
journal = "FSMNLP 2011 - Proceedings of the 9th International Workshop Finite State Methods and Natural Language Processing",
title = "E-dictionaries and finite-state automata for the recognition of named entities",
pages = "56-48",
url = "conv_2102"
}
Krstev, C., Vitas, D., Obradović, I.,& Utvić, M.. (2011). E-dictionaries and finite-state automata for the recognition of named entities. in FSMNLP 2011 - Proceedings of the 9th International Workshop Finite State Methods and Natural Language Processing
Association for Computational Linguistics (ACL)., 48-56.
conv_2102
Krstev C, Vitas D, Obradović I, Utvić M. E-dictionaries and finite-state automata for the recognition of named entities. in FSMNLP 2011 - Proceedings of the 9th International Workshop Finite State Methods and Natural Language Processing. 2011;:48-56.
conv_2102 .
Krstev, Cvetana, Vitas, Duško, Obradović, Ivan, Utvić, Miloš, "E-dictionaries and finite-state automata for the recognition of named entities" in FSMNLP 2011 - Proceedings of the 9th International Workshop Finite State Methods and Natural Language Processing (2011):48-56,
conv_2102 .
9

Automatic Construction of a Morphological Dictionary of Multi-Word Units

Krstev, Cvetana; Stanković, Ranka; Obradović, Ivan; Vitas, Duško; Utvić, Miloš

(Springer, 2010)

TY  - CONF
AU  - Krstev, Cvetana
AU  - Stanković, Ranka
AU  - Obradović, Ivan
AU  - Vitas, Duško
AU  - Utvić, Miloš
PY  - 2010
UR  - https://repff.fil.bg.ac.rs/handle/123456789/535
AB  - The development of a comprehensive morphological dictionary of multi-word units for Serbian is a very demanding task, due to the complexity of Serbian morphology. Manual production of such a dictionary proved to be extremely time-consuming. In this paper we present a procedure that automatically produces dictionary lemmas for a given list of multi-word units. To accomplish this task the procedure relies on data in e-dictionaries of Serbian simple words, which are already well developed. We also offer an evaluation of the proposed procedure on several different sets of data. Finally, we discuss some implementation issues and present how the same procedure is used for other languages.
PB  - Springer
C3  - Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)
T1  - Automatic Construction of a Morphological Dictionary of Multi-Word Units
EP  - 237
SP  - 226
VL  - 6233 LNAI
DO  - 10.1007/978-3-642-14770-8_26
UR  - conv_2103
ER  - 
@conference{
author = "Krstev, Cvetana and Stanković, Ranka and Obradović, Ivan and Vitas, Duško and Utvić, Miloš",
year = "2010",
abstract = "The development of a comprehensive morphological dictionary of multi-word units for Serbian is a very demanding task, due to the complexity of Serbian morphology. Manual production of such a dictionary proved to be extremely time-consuming. In this paper we present a procedure that automatically produces dictionary lemmas for a given list of multi-word units. To accomplish this task the procedure relies on data in e-dictionaries of Serbian simple words, which are already well developed. We also offer an evaluation of the proposed procedure on several different sets of data. Finally, we discuss some implementation issues and present how the same procedure is used for other languages.",
publisher = "Springer",
journal = "Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)",
title = "Automatic Construction of a Morphological Dictionary of Multi-Word Units",
pages = "237-226",
volume = "6233 LNAI",
doi = "10.1007/978-3-642-14770-8_26",
url = "conv_2103"
}
Krstev, C., Stanković, R., Obradović, I., Vitas, D.,& Utvić, M.. (2010). Automatic Construction of a Morphological Dictionary of Multi-Word Units. in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)
Springer., 6233 LNAI, 226-237.
https://doi.org/10.1007/978-3-642-14770-8_26
conv_2103
Krstev C, Stanković R, Obradović I, Vitas D, Utvić M. Automatic Construction of a Morphological Dictionary of Multi-Word Units. in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2010;6233 LNAI:226-237.
doi:10.1007/978-3-642-14770-8_26
conv_2103 .
Krstev, Cvetana, Stanković, Ranka, Obradović, Ivan, Vitas, Duško, Utvić, Miloš, "Automatic Construction of a Morphological Dictionary of Multi-Word Units" in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 6233 LNAI (2010):226-237,
https://doi.org/10.1007/978-3-642-14770-8_26 .,
conv_2103 .
5
5