Паралелни корпуси у Србији — могућности за паралелно проналажење информација на два или више језика


  • Јелена С. Андоновски Универзитетска библиотека „Светозар Марковић”, Београд



Кључне речи:

корпусна лингвистика, језички корпуси, паралелни корпуси, обрада природних језика, проналажење информација


Паралелни корпуси представљају врсту вишејезичних корпуса који су последњих деценија постали изузетно значајни у области обраде природних језика (енгл. Natural Language Processing – NLP) и један од важнијих ресурса за истраживаче у различитим областима лингвистике и сродним језичким дисциплинама. Под паралелним корпусима подразумевају се језички корпуси који садрже један текст или више оригиналних текстова и њихове преводе на један језик или више језика, поравнате на једном нивоу или више структурних нивоа текста (на пример, на нивоу реченице, пасуса и одељка). Они су најчешће двојезични, али није ретко да постоје и на једном језику што подразумева да корпусни садржај чине различита издања истог текста на одабраном језику. Паралелне корпусе који обухватају српски језик у Србији развија Група за језичке технологије која је у међувремену прерасла у Друштво за језичке ресурсе и технологије – ЈеРТех. До данас су развијени следећи корпуси: два већа корпуса, српско-француски (СрпФранКор) и српско-енглески (СрпЕнгКор) корпус, затим, дигитална библиотека Библиша која садржи више паралелних двојезичних колекција и вишејезична колекција Вишејезични Верн. Поред ових корпуса текстови на српском језику део су и вишејезичних корпуса Платонова Република и Орвелова 1984 који су развијени у оквиру међународних пројеката, али и неких корпуса који се тренутно развијају у региону и свету. У раду ће бити приказани корпуси које развија Друштво за језичке ресурсе и технологије, њихова структура и намена, као и могућности за проналажење информација у њима.


