Корпусна лінгвістика

Ко́рпусна лінгві́стика — розділ мовознавства, що вивчає створення, обробку та використання корпусів.

Розв'язування задач, пов'язаних з пошуком прикладів, що ілюструють те або інше мовне явище, а також з уточненням вживання окремих лексем привело до появи нового напряму в прикладній лінгвістиці — корпусної лінгвістики, тобто науки, що вивчає створення корпусів текстів і їхнє використання.

За останнє десятиліття корпусна лінгвістика швидко прийняла той досвід, який був накопичений в інших достатньо розвинених галузях, що об'єднуються терміном АОТ (автоматична обробка тексту), або ж АРТ (автоматичне розуміння тексту), корпусна лінгвістика сьогодні має дві лінії розвитку — лінгвістичний аналіз тексту і інформаційний аналіз тексту.

Інформаційний аналіз реалізується в системах типу ІПС (інформаційно-пошукові системи), а лінгвістичний аналіз прагне інтерпретувати, виявити сенс тексту, при цьому лінгвістичний аналіз характеризується локальністю, тобто проходить в рамках однієї пропозиції. Інформаційний аналіз, навпаки, «бачить» текст як ціле. Ці два напрями розвивалися майже паралельно, практично ніяк не стикаючись, унаслідок чого не отримали достатнього розвитку. Лінгвістичний аналіз не дав коректного машинного перекладу, оскільки одна неправильно інтерпретована фраза може в контексті набувати абсолютно іншого значення.

Корпуси[ред. | ред. код]

Докладніше: Корпус текстів

Нині в науковому словнику лінгвістів з'являються дуже близькі поняття: «електронні бібліотеки», «масив текстів», «колекція текстів», «електронний архів», «повнотекстова база даних». Серед них можна виділити лінгвістичні корпуси, або мовні корпуси. Корпус текстів — це вид корпусу даних, одиницями якого є тексти або їх достатньо значні фрагменти, що включають, наприклад, якісь повні фрагменти макроструктури текстів даної проблемної області.

Корпус текстів характеризується чотирма основними параметрами: по-перше, він повинен бути достатньо великого обсягу; по-друге, корпус повинен бути структурованим або розміченим; по-третє, тексти, складові певного корпусу, повинні бути в електронному варіанті; по-четверте, в поняття «Електронний корпус» входить, як правило, спеціальне програмне забезпечення для роботи з цим корпусом.

Цінність корпусу вбачається в наступному:

одного разу зроблений корпус може багато разів використовуватися;
корпус показує мовні дані в їх реальному оточенні, що дозволяє досліджувати лексичну і граматичну структуру мови, а також безперервні процеси мовних змін, що відбуваються в мові впродовж певного відрізка часу;
корпус характеризується показовістю, або збалансованим складом текстів, що дозволяє використовувати його для тестування пошукових машин, машинних морфологій, систем перекладу, а також використовувати його в різних лінгвістичних дослідженнях;
корпус має важливе значення для викладання мови, оскільки за допомогою корпусу можна швидко і ефективно перевірити особливості вживання незнайомого слова або граматичної форми.

Робота з корпусами, тобто з масивами текстів, представленими в електронному вигляді, стала одним з основних методів лінгвістичних досліджень. Так, ще в 1960-і роки створювався Браунівський корпус (США)^[1], який включає 1 млн слів. Відтоді виникла ціла низка аналогічно побудованих корпусів: LOB корпус (британська англійська у 1960-х роках), Колхапур ( індійська англійська ^[en]), Веллінгтон (новозеландська англійська, Австралійський корпус англійської мови (австралійська англійська), корпус Фраун (на початку 1990-х років американська англійська), а також FLOB Корпус (1990-ті роки британська англійська). Міжнародний корпус англійської мови і Британський національний корпус British National Corpus [Архівовано 25 лютого 2011 у Wayback Machine.] включають колекцію зі 100 млн слів розмовного та письмового тексту. Наповнюються інші національні корпуси мов (угорський, італійський, хорватський, чеський, японський) обсягом 100 млн слів. На початку XXI ст. створили American National Corpus [Архівовано 13 травня 2008 у Wayback Machine.], 100 млн слів і Gigaword corpora (англійська, арабська, китайська), що включає 1 млрд слів.

Крім корпусу живих мов, з колекцій текстів зробили комп'ютерні корпуси стародавніх мов. Наприклад, з 1970-х років створюється база єврейської Біблії.^[2]^[3] У Корпусі арабської мови Корану ^[en] зібрано понад 77 тисяч слів.^[4]

Перший комп'ютеризований лінгвістичний корпус був розроблений 1971 року Монреальським французьким проектом, що містить один мільйон слів.^[5]^[6]

Існування корпусів текстів дає можливість значно розширити й автоматизувати аналіз мовного матеріалу, який є найважливішою базою будь-якого лінгвістичного дослідження. Чим більше матеріалів аналізується, тим вища значущість висновків і рівень їх достовірності.

Сучасні комп'ютерні програми дозволяють знаходити потрібні приклади з корпусів текстів, які зберігаються в електронному вигляді на комп'ютері. Це економить значну кількість часу в порівнянні з традиційною технологією збору прикладів вручну.

Відзначимо, що саме анотація, або розмітка, — головна характеристика корпусу, яка і відрізняє його від електронних колекцій, бібліотек, енциклопедій, широко представлених в сучасному Інтернеті. Розмітка тексту — це приписування тексту певної інформації для зручнішого аналізу.

Існують різні типи розмітки:

метатекстова розмітка (автор, назва, дата створення, обсяг, тематика тексту і т. д.), яка характеризує текст в цілому;
структурна розмітка є інформацією про структуру тексту, яка дозволяє відокремити одне слово від іншого, виділити межі словосполучення, речення, тексту;
лінгвістична розмітка полягає в приписуванні одиницям тексту певної лінгвістичної інформації (заперечне речення або питальне, спонукальне або примикання і т. д.).

Як відомо, чим багатша і різноманітніша розмітка, тим вищою є наукова і навчальна цінність корпусу.

Корпуси української мови[ред. | ред. код]

В Україні перший доступний для пошуку в інтернеті корпус текстів української мови розроблено співробітниками лабораторії комп'ютерної лінгвістики Інституту філології Київського національного університету імені Тараса Шевченка під керівництвом Н. П. Дарчук у 2004 році.^[7] Обсяг корпусу — понад 100 млн слововживань. Корпус доступний для пошуку онлайн з 2010 року.

У корпусі зберігаються публіцистичні, художні, наукові, законодавчі, поетичні, фольклорні тексти, опрацьовані автоматичним лінгвістичним аналізатором. Кожній одиниці тексту (морфемі, слову, словосполученню, реченню) приписана супровідна інформація: частиномовна належність, граматична форма, синтаксична функція, контекст тощо. Корпус надає інформацію двох типів:

Конкорданси, або ж контексти вживання шуканих одиниць (із вказівкою на джерела). За допомогою конкордансів можливо вивчати особливості використання слів у текстах різних стилів, індивідуально-авторські вживання тих чи інших лексем, розвиток нових значень тощо. Конкорданси використовують також для психолінгвістичних та соціолінгвістичних досліджень (вивчення асоціативних зв'язків між словами), у літературознавчому аналізі (для розкриття авторського бачення певних концептів чи образів, особливостей мовної картини світу певного автора) тощо.
Кількісні характеристики вживання у текстах мовних одиниць. Частотна інформація розкриває закономірності лексичної та статистичної будови текстів, функціонування мови в мовленні, стилістичні особливості, формальні риси одиниць і граматичних категорій^[8].

З 2012 року доступні онлайн паралельні українсько-російський та російсько-український корпуси [Архівовано 20 квітня 2013 у Wayback Machine.] у складі Національного корпусу російської мови.

З 2014 року активно розвивається Український вебкорпус Лейпцизького університету (Німеччина) Містить тексти з інтернету, без морфологічної розмітки.

З 2017 року діє Генеральний регіонально анотований корпус української мови (ГРАК [Архівовано 1 вересня 2018 у Wayback Machine.]). Обсяг десятої версії корпусу понад 650 млн токенів.

ГРАК містить тексти 1816—2020 років, має розгалужену метарозмітку. Тексти корпусу датовано (роком написання і роком публікації), розмічено за автором, стилем, жанром, регіоном чи країною створення, правописом тощо. У ГРАКу вперше представлено великий корпус текстів діаспори (близько 40 млн токенів). ГРАК містить оригінальні та перекладні українські тексти. Морфологічну анотацію корпусу здійснено за допомогою інструмента аналізу української мови на основі словника ВЕСУМ та рушія LanguageTool. Для пошуку в корпусі використано корпусний менеджер NoSketchEngine, який дає можливість шукати в цілому корпусі або частині корпусу, отримувати конкорданси, частотні списки, завантажувати результати для подальшої роботи з ними. На сайті ГРАКа доступні додаткові інструменти, такі як інструмент для візуалізації результатів пошуку у вигляді графіків частотності за роками, інструмент для пошуку за великим списком, інструмент для аналізу складу корпусу.

2018 року було презентовано українсько-польський корпусний проєкт «Лабораторія української», у межах якого є корпус зі знятою вручну омонімією та синтаксичною розміткою обсягом 140 тис. слів, вебкорпус обсягом майже 3 млрд слів (Україна, Польща), паралельні корпуси. Морфологічну розмітку корпусів здійснено за допомогою системи Universal Dependencies. Пошук працює на основі NoSketchEngine.

Браунський український корпус [Архівовано 26 липня 2020 у Wayback Machine.] — на стадії розроблення

Lang-uk [Архівовано 31 липня 2019 у Wayback Machine.] Корпуси українських текстів, доступні для завантаження: новини, Вікіпедія, художні тексти, веб. Обсяг близько 600 млн токенів.

Корпус бібліотеки «Чтиво» [Архівовано 6 липня 2019 у Wayback Machine.]: автоматично розпізнані тексти книжок. Обсяг близько 600 млн токенів. Пошук здійснюється дослівно (без лематизації та морфологічного аналізу).

Укладено корпус текстів великої прози І. Франка із роззначенням мовлення автора і прямого мовлення, а також морфологічною та семантичною анотацією.

Конкорданси[ред. | ред. код]

Докладніше: Конкорданс

Простір електронних текстових корпусів дав можливість результативного використання електронних конкордансів, які відкривають перспективи моделювання мовної картини світу. Конкорданс є спеціалізованою лінгвістичною прикладною програмою, за допомогою якої здійснюється автоматична вибірка заданих мовних одиниць з електронних текстів. Функцію конкордансу можна порівняти з функцією пошуку в текстовому редакторові, проте можливості конкордансу ширші — він аналізує не один, а відразу декілька текстів або корпусів електронних текстів, при цьому конкорданс виводить на екран інформацію про контекст використання заданих мовних одиниць. Залежно від технічних можливостей конкорданс може надавати інформацію про частотність вживання і сполучуваності тієї або іншої мовної одиниці, а також дає можливість звертатися до конкретного тексту, в якому був знайдений приклад.

Існують такі конкорданси для українських текстів:

- електронний конкорданс повних творів Григорія Сковороди на сайті Албертського університету в Канаді^[9],

- онлайн конкорданс роману Івана Франка «Перехресні стежки» (автори: Бук С., Ровенчак А.) на сторінці Львівського університету.^[10]

Комп'ютерна лексикографія[ред. | ред. код]

Безумовно, корпусна лінгвістика яскраво і чітко репрезентує себе в одному з перспективних напрямів — комп'ютерної лексикографії. Електронні словники і енциклопедії розробляються сьогодні як автономні і мережеві програмні продукти. Не викликає сумніву той факт, що електронні словники надають користувачеві безліч додаткових можливостей в порівнянні з друкарськими аналогами:

дозволяють зберігати великий обсяг інформації за рахунок використання гіперпосилань;
електронний словник має ефективну систему пошуку (повнотекстовий пошук, одночасний пошук в декількох словниках, швидкість пошуку);
у електронних словниках можуть застосовуватися засоби мультимедіа: озвучування заголовних слів, введення ілюстративного матеріалу з фотографіями, анімацією, відеофрагментами;
можливість використання словників в локальній і глобальній мережах;
значна економія часу і матеріальних ресурсів при створенні комп'ютерних словників.

Значний досвід досліджень в комп'ютерній лексикографії дозволяє розширити можливості вивчення смислової структури політичного слова. Так, сьогодні в наукових проектах активно розробляється ідея, пов'язана з організацією концептуального простору мови політики з позиції гіпертекстової єдності.

Кажучи про специфіку змісту такого словника, відзначимо, що слово в електронному варіанті реалізується в семантичному макрополі, що складається з декількох полів, збудованих в певну систему:

поле індексації служить для зручного пошуку в базі даних;
поле заголовного слова;
поле граматичної інформації, прагматичне навантаження якої пов'язане з конкретним граматичним статусом в текстах;
поле етимологічних довідок;
поле авторського тлумачення будується не по всій семантичній парадигмі слова, а лише по її основній частині, тематично пов'язаній з політичною сферою вживання;
поле ілюстрацій працює для верифікації дефініції, тим самим виявляє семантику політичного слова в певному контекстуальному оточенні. Важливо відзначити, що в словнику ілюстрації з текстів різних жанрів використовуються і в традиційному вигляді як виправдувальний контекст (це особливо важливо для метафоричних значень) і як лексикографічний прийом, що допомагає створити просторова, тимчасова і соціально-історична перспективи;
поле фразеології;
поле енциклопедичних відомостей відображає основні етапи становлення даної дефініції, еволюцію його домінантних ознак.

Комп'ютерне забезпечення словника довідкового типу складається з двох складових:

база даних словника визначається системою керування базами даних;
інтерфейс розробляється спеціально для даного словника. Базою для його реалізації послужила мова програмування Delphi, який дозволяє здійснювати завдання автоматичного пошуку слів, а також зручній навігації усередині словника.

Наведемо лексикографічний віртуальний портрет слова ескалація.

Слово в електронному словнику представлене в 4-х полях:

поле 1 складається з блоку заголовного слова, блоку граматичних послід, етимона. У цьому ж полі обов'язковим елементом є блок авторського тлумачення;
поле 2 представлено ілюстративним матеріалом Корпусу російської національної мови. Ці ілюстрації допомагають описати семантичну структуру слова і визначити комунікативний статус слова;
поле 3 — мікроструктура електронного словника, що включає дефініції сучасних тямущих і тямущо-довідкових видань.
поле 4 є, на наш погляд, необхідною структурною частиною електронного довідкового видання і містить енциклопедичні відомості про дане поняття. У великому енциклопедичному словнику, наприклад, дане слово визначається як розширення, нарощування (озброєнь тощо), поступове посилення, розповсюдження (конфлікту тощо), загострення (положення тощо).

Саме 3-і і 4-і поля можуть описати динаміку розвитку семантики слова. Наприклад, слово ескалація в сучасних словниках політичної мови представлено з імпліцитним негативним прагматичним компонентом, обумовленим категоріальною семою дія, направлена на негативний результат, що підтверджується «Полем ілюстрацій».

Таким чином, словник є систематизований алфавітний масив ядерної політичної лексики. Пропоноване лексикографічне дослідження дає можливість виявити основні тенденції в розвитку ядерної політичної лексики, забезпечити доступність словника за рахунок ефективної системи пошуку, а також зберігати великий обсяг інформації за рахунок гіперпосилань.

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

↑ Brown Corpus. Архів оригіналу за 10 червня 2008. Процитовано 5 червня 2008.
↑ Andersen, Francis I.; Forbes, A. Dean (2003), «Hebrew Grammar Visualized: I. Syntax», Ancient Near Eastern Studies 40, pp. 43–61
↑ Eyland, E. Ann (1987), «Revelations from Word Counts», in Newing, Edward G.; Conrad, Edgar W., Perspectives on Language and Text: Essays and Poems in Honor of Francis I. Andersen's Sixtieth Birthday, July 28, 1985, Winona Lake
↑ Dukes, K., Atwell, E. and Habash, N. 'Supervised Collaboration for Syntactic Annotation of Quranic Arabic'. Language Resources and Evaluation Journal. 2011.
↑ Sankoff, D. & Sankoff, G. Sample survey methods and computer-assisted analysis in the study of grammatical variation. In Darnell R. (ed.) Canadian Languages in their Social Context Edmonton: Linguistic Research Incorporated. 1973. 7–64.
↑ Poplack, S. The care and handling of a mega-corpus. In Fasold, R. & Schiffrin D. (eds.) Language Change and Variation, Amsterdam: Benjamins. 1989. 411—451.
↑ Тестова версія корпусу текстів української мови. Архів оригіналу за 2 травня 2022. Процитовано 19 травня 2016.
↑ Корпус української мови. Архів оригіналу за 12 червня 2016. Процитовано 19 травня 2016.
↑ Архівована копія. Архів оригіналу за 19 листопада 2011. Процитовано 18 травня 2017.{{cite web}}: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title (посилання)
↑ Архівована копія. Архів оригіналу за 11 грудня 2016. Процитовано 17 грудня 2020.{{cite web}}: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title (посилання)

Посилання[ред. | ред. код]

Корпус української мови Лабораторії комп'ютерної лінгвістики Київського національного університету імені Тараса Шевченка (доступний для онлайн-пошуку) [Архівовано 1 травня 2013 у Wayback Machine.]
Генеральний регіонально анотований корпус української мови (ГРАК). uacorpus.org. Архів оригіналу за 1 вересня 2018. Процитовано 6 січня 2021.
Лабораторія української [Архівовано 6 травня 2021 у Wayback Machine.]
Неанотований корпус української мови korpus.org.ua [Архівовано 6 липня 2019 у Wayback Machine.]
238 Corpus-Based Monolingual Dictionaries for 219 Languages, зокрема корпус українських текстів (понад 102 млн речень).
Паралельні українсько-російський та російсько-український корпуси на сайті Національного корпусу російської мови [Архівовано 20 квітня 2013 у Wayback Machine.]
Паралельний польсько-український та українсько-польський корпус автоперекладів Івана Франка
Перелік посилань на лінгвістичні корпуси на сайті Національного корпусу російської мови [Архівовано 20 квітня 2013 у Wayback Machine.] (рос.)
Демська-Кульчицька О. Основи національного корпусу української мови.— К.: Інститут української мови національної академії наук України, 2005.— 219 с.
Корпусна лінгвістика / В. А. Широков, О. В. Бугаков, Т. О. Грязнухіна та ін. — К.: Довіра, 2005. — 471 с.
Бук С. Велика проза Івана Франка: електронний корпус, частотні словники та інші міждисциплінарні контексти : монографія / Львів : ЛНУ імені Івана Франка, 2021. 424 с. ISBN 978-617-10-0636-2
Бук С. Корпус текстів Івана Франка: спроба визначення основних параметрів // Прикладна лінгвістика та лінгвістичні технології: MegaLing‑2006: Зб. наук. пр. / НАН України. Укр. мовн.-інформ. фонд, Таврійськ. нац. ун‑т ім. В. І. Вернадського; за ред. В. А. Широкова.— К.: Довіра, 2007.— С. 72–82.
Бук С. Архітектура польсько-українського та українсько-польського паралельного корпусу автоперекладів Івана Франка // Slavia Orientalis. 2012. T. LXI, Nr 2. С. 213-230.
Бук С. Корпус текстів у лінгводидактиці (на матеріалі омонімії у корпусі великої прози Івана Франка) // Вісник Львівського університету. Серія філологічна. 2012. Вип. 57. С. 106–116.
Shvedova M. The General Regionally Annotated Corpus of Ukrainian (GRAC, uacorpus.org): Architecture and Functionality // Proceedings of the 4th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2020). Volume I: Main Conference. Lviv, Ukraine, April 23-24, 2020. P. 489—506. [Архівовано 9 січня 2021 у Wayback Machine.]
Шведова M. Генеральний регіонально анотований корпус української мови (ГРАК) як інструмент дослідження лексико-граматичної варіативності // Людина. Комп'ютер. Комунікація: Збірник наукових праць / за ред. проф. О. П. Левченко. Видавництво Львівської політехніки, 2019. — С. 145—148.
В. Старко, А. Рисін. Великий електронний словник української мови (ВЕСУМ) як засіб NLP для української мови (2020)
Starko V. Semantic Annotation for Ukrainian: Categorization Scheme, Principles, and Tools [Архівовано 9 січня 2021 у Wayback Machine.] // Proceedings of the 4th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2020). Volume I: Main Conference. Lviv, Ukraine, April 23-24, 2020.
Buk S. The epіthetіzatіon іndex іn a work of fіctіon (on the basіs of the Text Corpus of Іvan Franko’s Long Prose Fіctіon) // Practіcal Applіcatіons of Lіnguіstіc Research / ed. by Anna Obrębska. Łódź : Prіmum Verbum, 2012. P. 73–85.
Buk S. Dіstіnguіshіng quantіtatіve parameters of author’s language and style (A case of Іvan Franko long prose fіctіon) // Вісник Львівського університету. Серія філологічна. № 70 (2019). Випуск 70. C. 299–308.

Це незавершена стаття з мовознавства.
Ви можете допомогти проєкту, виправивши або дописавши її.

[1] Brown Corpus. Архів оригіналу за 10 червня 2008. Процитовано 5 червня 2008.

[2] Andersen, Francis I.; Forbes, A. Dean (2003), «Hebrew Grammar Visualized: I. Syntax», Ancient Near Eastern Studies 40, pp. 43–61

[3] Eyland, E. Ann (1987), «Revelations from Word Counts», in Newing, Edward G.; Conrad, Edgar W., Perspectives on Language and Text: Essays and Poems in Honor of Francis I. Andersen's Sixtieth Birthday, July 28, 1985, Winona Lake

[4] Dukes, K., Atwell, E. and Habash, N. 'Supervised Collaboration for Syntactic Annotation of Quranic Arabic'. Language Resources and Evaluation Journal. 2011.

[5] Sankoff, D. & Sankoff, G. Sample survey methods and computer-assisted analysis in the study of grammatical variation. In Darnell R. (ed.) Canadian Languages in their Social Context Edmonton: Linguistic Research Incorporated. 1973. 7–64.

[6] Poplack, S. The care and handling of a mega-corpus. In Fasold, R. & Schiffrin D. (eds.) Language Change and Variation, Amsterdam: Benjamins. 1989. 411—451.

[7] Тестова версія корпусу текстів української мови. Архів оригіналу за 2 травня 2022. Процитовано 19 травня 2016.

[8] Корпус української мови. Архів оригіналу за 12 червня 2016. Процитовано 19 травня 2016.

[9] Архівована копія. Архів оригіналу за 19 листопада 2011. Процитовано 18 травня 2017.{{cite web}}: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title (посилання)

[10] Архівована копія. Архів оригіналу за 11 грудня 2016. Процитовано 17 грудня 2020.{{cite web}}: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title (посилання)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]