Интеллектуальный анализ текста: различия между версиями
[отпатрулированная версия] | [отпатрулированная версия] |
AKA MBG (обсуждение | вклад) м откат правок 188.19.211.67 (обс) к версии AKA MBG |
ну, с почином; дополнение, источники |
||
Строка 1: | Строка 1: | ||
'''Интеллектуальный анализ текстов''' (''ИАТ'', {{lang-en|text mining}}) — направление в [[Искусственный интеллект|искусственном интеллекте]], целью которого является получение информации из [[Коллекция документов|коллекций текстовых документов]], основываясь на применении эффективных в практическом плане методов [[Машинное обучение|машинного обучения]] и [[Обработка естественного языка|обработки естественного языка]]. Название «интеллектуальный анализ текстов» перекликается с понятием ''«интеллектуальный анализ данных»'' (''ИАД'', {{lang-en|data mining}}), что выражает схожесть их целей, подходов к переработке информации и сфер применения; разница проявляется лишь в конечных методах, а также в том, что ИАД имеет дело с [[Хранилище данных|хранилищами]] и [[База данных|базами данных]], а не [[Электронная библиотека|электронными библиотеками]] и [[Корпус текстов|корпусами текстов]]. |
|||
'''Анализ текста''' — процесс получения [[Критерии качества информации|высококачественной]] [[Информация|информации]] из текста на [[Естественный язык|естественном языке]]. Как правило, для этого применяется статистическое обучение на основе шаблонов: входной текст разделяется с помощью шаблонов, затем производится обработка полученных данных. |
|||
== Группы задач ИАТ == |
|||
Ключевыми группами задач ИАТ являются: категоризация текстов, [[извлечение информации]] и [[информационный поиск]], обработка изменений в коллекциях текстов, а также разработка средств представления информации для пользователя.{{sfn|Berry|2003|p=xi}} |
|||
''Категоризация документов'' заключается в отнесении документов из коллекции к одной или нескольким группам (классам, кластерам) схожих между собой текстов (например, по теме или стилю). Категоризация может происходить при участии человека, так и без него. В первом случае, называемом ''[[Классификация документов|классификацией документов]]'', система ИАТ должна отнести тексты к уже определённым (удобным для него) классам. В терминах машинного обучения для этого необходимо произвести ''[[обучение с учителем]]'', для чего пользователь должен предоставить системе ИАТ как множество классов, так и образцы документов, принадлежащих эти классам. |
|||
Второй случай категоризации называется ''[[Кластеризация документов|кластеризацией документов]]''. При этом система ИАТ должна сама определить множество кластеров, по которым могут быть распределены тексты, — в машинном обучении соотвутствующая задача называется ''[[Обучение без учителя|обучением без учителя]]''. В этом случае пользователь должен сообщить системе ИАТ количество кластеров, на которое ему хотелось бы разбить обрабатываемую коллекцию (подразумевается, что в алгоритм программы уже заложена процедура [[Выбор признаков|выбора признаков]]). |
|||
== Применение == |
== Применение == |
||
Строка 10: | Строка 17: | ||
Исследования и разработки подразделений крупных компаний, таких как [[IBM]], [[Apple]] и [[Microsoft]], исследуют технологии анализа текста с целью будущей автоматизации процессов анализа и извлечения данных. |
Исследования и разработки подразделений крупных компаний, таких как [[IBM]], [[Apple]] и [[Microsoft]], исследуют технологии анализа текста с целью будущей автоматизации процессов анализа и извлечения данных. |
||
== |
== Примечания == |
||
{{примечания|refs= |
|||
* [[Классификация текста]] иногда рассматривается как подзадача анализа текста. |
|||
* [[Веб-анализ]] — анализ текстов веб-страниц, найденных [[Поисковая система|поисковыми машинами]]. |
|||
}} |
|||
* [[Интеллектуальный анализ данных]] |
|||
* [[Извлечение информации]] |
|||
== Литература == |
|||
* [[Обработка естественного языка]] |
|||
'''На русском:''' |
|||
* [[Вычислительная лингвистика]] |
|||
* {{книга |автор=Пескова О. В. |часть=Алгоритмы классификации полнотекстовых документов |ссылка часть= |заглавие=Автоматическая обработка текстов на естественном языке и компьютерная лингвистика |оригинал= |ссылка= |викитека= |ответственный= |издание= |место=М. |издательство=МИЭМ (Московский государственный институт электроники и математики) |год=2011 |том= |страницы=170—212 |столбцы= |страниц= |серия= |isbn=978–5–94506–294–8 |тираж= |ref= }} |
|||
* [[Концептуальный анализ]] |
|||
'''На английском:''' |
|||
{{rq|stub|sources|refless|style}} |
|||
* {{книга |автор= |часть= |ссылка часть= |заглавие=Survey of Text Mining I: Clustering, Classification, and Retrieval |оригинал= |ссылка= |викитека= |ответственный=Ed. by M. W. Berry |издание=2004 |место= |издательство=Springer |год=2003 |volume= |pages= |columns= |allpages=261 |серия= |isbn=0387955631 |тираж= |ref=Berry }} |
|||
* {{книга |автор=Aggarwal C. C., Zhai C. |часть= |ссылка часть= |заглавие=Mining Text Data |оригинал= |ссылка= |викитека= |ответственный= |издание= |место= |издательство=Springer |год=2012 |volume= |pages= |columns= |allpages=527 |серия= |isbn=9781461432234 |тираж= |ref=Aggarwal }} |
|||
* {{книга |автор=Do Prado H. A. |часть= |ссылка часть= |заглавие=Emerging Technologies of Text Mining: Techniques and Applications |оригинал= |ссылка= |викитека= |ответственный=Ed. by H. A. Do Prado, E. Ferneda |издание= |место= |издательство=Idea Group Reference |год=2007 |volume= |pages= |columns= |allpages=358 |серия= |isbn=1599043734 |тираж= |ref= }} |
|||
[[Категория:Обработка естественного языка]] |
[[Категория:Обработка естественного языка]] |
Версия от 16:39, 12 октября 2014
Интеллектуальный анализ текстов (ИАТ, англ. text mining) — направление в искусственном интеллекте, целью которого является получение информации из коллекций текстовых документов, основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественного языка. Название «интеллектуальный анализ текстов» перекликается с понятием «интеллектуальный анализ данных» (ИАД, англ. data mining), что выражает схожесть их целей, подходов к переработке информации и сфер применения; разница проявляется лишь в конечных методах, а также в том, что ИАД имеет дело с хранилищами и базами данных, а не электронными библиотеками и корпусами текстов.
Группы задач ИАТ
Ключевыми группами задач ИАТ являются: категоризация текстов, извлечение информации и информационный поиск, обработка изменений в коллекциях текстов, а также разработка средств представления информации для пользователя.[1]
Категоризация документов заключается в отнесении документов из коллекции к одной или нескольким группам (классам, кластерам) схожих между собой текстов (например, по теме или стилю). Категоризация может происходить при участии человека, так и без него. В первом случае, называемом классификацией документов, система ИАТ должна отнести тексты к уже определённым (удобным для него) классам. В терминах машинного обучения для этого необходимо произвести обучение с учителем, для чего пользователь должен предоставить системе ИАТ как множество классов, так и образцы документов, принадлежащих эти классам.
Второй случай категоризации называется кластеризацией документов. При этом система ИАТ должна сама определить множество кластеров, по которым могут быть распределены тексты, — в машинном обучении соотвутствующая задача называется обучением без учителя. В этом случае пользователь должен сообщить системе ИАТ количество кластеров, на которое ему хотелось бы разбить обрабатываемую коллекцию (подразумевается, что в алгоритм программы уже заложена процедура выбора признаков).
Применение
В последнее время анализ текста привлекает всё больше внимания в различных областях, таких как безопасность, коммерция, наука.
В безопасности
Многие пакеты анализа текста, такие как Aerotext и Attensity, нацелены на рынок приложений безопасности, в частности на анализ источников простого текста, например новостных сайтов.
В программном обеспечении
Исследования и разработки подразделений крупных компаний, таких как IBM, Apple и Microsoft, исследуют технологии анализа текста с целью будущей автоматизации процессов анализа и извлечения данных.
Примечания
- ↑ Berry, 2003, p. xi.
Литература
На русском:
- Пескова О. В. Алгоритмы классификации полнотекстовых документов // Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. — М.: МИЭМ (Московский государственный институт электроники и математики), 2011. — С. 170—212. — ISBN 978–5–94506–294–8.
На английском:
- Survey of Text Mining I: Clustering, Classification, and Retrieval / Ed. by M. W. Berry. — 2004. — Springer, 2003. — 261 p. — ISBN 0387955631.
- Aggarwal C. C., Zhai C. Mining Text Data. — Springer, 2012. — 527 p. — ISBN 9781461432234.
- Do Prado H. A. Emerging Technologies of Text Mining: Techniques and Applications / Ed. by H. A. Do Prado, E. Ferneda. — Idea Group Reference, 2007. — 358 p. — ISBN 1599043734.