Электронный словарь
Электронный словарь — программное обеспечение, которое позволяет быстро найти нужное слово, часто с учётом морфологии и возможностью поиска словосочетаний (примеров употребления), а также с возможностью изменения направления перевода (например, англо-русский или русско-английский).
Внутренне устроен как база данных со словарными статьями.
Машиночитаемые словари (Machine-readable dictionary, кратко MRD) используются компьютерными программами для решения различных задач, например, для обработки текстов на естественном языке. Машиночитаемые словари являются разновидностью электронных словарей.
Машиночитаемые словари
[править | править код]Создание машиночитаемых словарей
[править | править код]В проекте Leipzig Corpora Collection[1] (LCC) корпуса и одноязычные словари строятся на основе текстов, извлекаемых из сети Интернет[2]. LCC включает около 400 словарей. В качестве затравки для поиска текстов в Интернете в проекте LCC использовали текст Всеобщей декларации прав человека, поскольку Декларация содержит около 2000 общеупотребимых слов и переведена на 370 языков и диалектов[3]. Из 200 Википедий были отобраны тексты для компиляции всего 70 словарей. Тексты не всех Википедий были включены в корпус LCC, поскольку многие вики-проекты начинаются с создания статей-заготовок, содержащих почти одинаковые предложения[3].
Такой подход трудно реализуем для малоресурсных языков, но проект Crúbadán[4], собрав данные для более чем 2200 языков, показывает, что автоматический поиск для языков, представленных в сети Интернет малым или единичным числом текстов, также возможен[5]. В дальнейшем эти тексты используются для создания словарей, например, в проекте Crúbadán было собрано более 100 млн валлийских слов и половина валлийских текстов с этими словами были переданы Уэльскому университету для создания валлийского словаря[6].
Использование машиночитаемых словарей
[править | править код]В работах 1980-х годов предполагали, что на основе машиночитаемых словарей можно построить большие базы знаний. Но в дальнейшем признали, что для этого нужно использовать множество ресурсов, в первую очередь корпусы[7].
Максимум того, что получилось добиться при извлечении знаний из словарей — это автоматически построить несколько несовершенных таксономий[8].
Трудности извлечения информации из словарей:
- Преобразование из исходного формата требует больших усилий и эта задача достойна отдельного исследования, однако учёные предпочитают заниматься более научными задачами[10]. Трудность в том, что неоднозначности и противоречия в правилах организации исходного словаря исключают возможность построения полностью автоматического парсера словаря. Построение таких парсеров — задача времязатратная и неблагодарная, поэтому словарей, доступных для компьютерной обработки крайне мало[10].
- Противоречия и несогласованность в словарях приводят к построению очень разных семантических сетей по разным словарям[11]. Проверка фрагментов пяти главных английских словарей показала, что в 50-70 % случаев информация в толкованиях словарей искажена или отсутствует[12]. Та же плачевная картина получена при анализе трёх главных французских словарей. Из этого следует, что те методы WSD, которые основаны на анализе текстов толкований, в этих многочисленных случаях не будут работать[12].
- Необходима частичная ручная проверка для построения качественных баз знаний по словарям[13].
- Необходима интеграция множества источников данных. В комбинировании информации из нескольких словарей есть смысл, поскольку неполнота одного словаря компенсируется другим, имеющим другие лакуны и пропуски информации. В небольшом эксперименте в построении иерархии по пяти английским словарям процент ошибок был снижен с 55-70 % до 5 %. Качество извлекаемой информации при объединении словарей повысилось, но ручная проверка нужна[13]. С другой стороны, анализ 12 русских словарей показал, что существуют большие размеры пересечений словников словарей[9]. На рисунке представлена доля «уникальной» лексики в каждом из рассмотренных русских словарей[9].
Формат машиночитаемых словарей
[править | править код]Для использования машиночитаемых словарей их необходимо преобразовать в удобный для работы формат. Формат должен быть достаточно общим для совместимости между разными словарями, для создания единого ПО и повторного использования словарей[13]. Примером является формат, выработанный сообществом TEI[13].
С выбором формата словаря тесно связана задача выбора подходящей модели для представления данных машиночитаемого словаря. Если посмотреть любую словарную статью, то можно увидеть, что организация лексикографических данных намного сложнее, чем данные в задаче «товары-поставщик» или организация «базы данных сотрудников». Классические (реляционные) базы данных не являются идеальным решением для лексических баз данных[14].
В работах[15][16], посвящённых исследованиям в области проектирования баз данных, предложена альтернативная модель для лексической базы данных на основе свойств. Особенности этой модели: (1) поддержка вложения значений, (2) есть механизм наследования для исключения избыточной информации.
Популярные электронные словари
[править | править код]Словари
[править | править код]- Free On-line Dictionary of Computing
- FreeDict
- Jargon file
- Slovoed
- WordNet
- Lingvanex Dictionary
- Wooordhunt
Программы
[править | править код]Программы, сайты и др.
[править | править код]- ABBYY Lingvo
- DICT — сетевой протокол
- Мультитран
- Polyglossum
- МультиЛекс — русско-английские, немецкие, французские, испанские, итальянские, португальские и многоязычные словари. Включают толковые словари и тематические словарные базы для перевода специализированной лексики.
См. также
[править | править код]Примечания
[править | править код]- ↑ Leipzig Corpora Collection . Дата обращения: 5 мая 2019. Архивировано 30 мая 2016 года.
- ↑ Goldhahn et al., 2012, с. 760.
- ↑ 1 2 Goldhahn et al., 2012, с. 762.
- ↑ An Crúbadán — Corpus Building for Minority Languages . Дата обращения: 5 мая 2019. Архивировано 23 апреля 2019 года.
- ↑ Scannell, 2007.
- ↑ Scannell, 2007, с. 9.
- ↑ Ide, Véronis, 1994, с. 137—138.
- ↑ Ide, Véronis, 1994, с. 138.
- ↑ 1 2 3 Kiselev et al., 2015.
- ↑ 1 2 Ide, Véronis, 1994, с. 139.
- ↑ Ide, Véronis, 1994, с. 141.
- ↑ 1 2 Ide, Véronis, 1994, с. 140.
- ↑ 1 2 3 4 Ide, Véronis, 1994, с. 143.
- ↑ Ide, Véronis, 1994, с. 144.
- ↑ Ide, N., Le Maitre, J., & Véronis, J. (1994). Outline of a model for lexical databases Архивная копия от 9 августа 2017 на Wayback Machine. In Current Issues in Computational Linguistics: In Honour of Don Walker (pp. 283—320). Springer, Dordrecht.
- ↑ Véronis, J., & Ide, N. (1992, August). A feature-based model for lexical databases Архивная копия от 14 июля 2019 на Wayback Machine. In Proceedings of the 14th conference on Computational linguistics-Volume 2 (pp. 588—594). Association for Computational Linguistics.
Литература
[править | править код]- Goldhahn D., Eckart T., Quasthoff U. Building Large Monolingual Dictionaries at the Leipzig Corpora Collection: From 100 to 200 Languages (англ.) // LREC : Istanbul, Turkey. — 2012. — Vol. 29. — P. 759—765.
- Ide, N., & Véronis, J. Machine Readable Dictionaries: What have we learned, where do we go (англ.) // Proceedings of the International Workshop on the Future of Lexical Research : Beijing, China. — 1994. — P. 137—146.
- Kiselev Y., Krizhanovsky A., Braslavski P., Menshikov I., Mukhin M., Krizhanovskaya N. Russian lexicographic landscape: a tale of 12 dictionaries (англ.) // Computational Linguistics and Intellectual Technologies: “Dialogue”. — Moscow: RGGU, 2015. — Iss. 14 (21). — P. 254—271.
- Scannell K. P. The Crúbadán Project: Corpus building for under-resourced languages (англ.) // Building and Exploring Web Corpora: Proceedings of the 3rd Web as Corpus Workshop. — 2007. — Vol. 4. — P. 5—15.
В статье не хватает ссылок на источники (см. рекомендации по поиску). |