Неструктурированные данные

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Неструктури́рованные да́нные (или неструктурированная информация) — информация, которая либо не имеет заранее определенной структуры данных, либо не организована в установленном порядке[источник не указан 539 дней]. Неструктурированные данные, как правило, представлены в форме текста, который может содержать такие данные, как даты, цифры и факты. Это приводит к трудностям анализа, особенно в случае использования традиционных программ, предназначенных для работы со структурированными данными (аннотированными или хранящимися в базах).

В 1998 году инвестиционный банк «Меррилл Линч» оценил, что где-то около 80—90 % от всей потенциально полезной деловой информации представлено в неструктурированной форме.[1] Это правило не было основано на статистике или количественных исследованиях, а было скорее предположением.[2]

Computer World утверждает: более 70—80 % от всех данных в организациях — это неструктурированные данные.[3]

История[править | править код]

Самые ранние исследования в области бизнес-аналитики были сосредоточены не на числовых данных, а на неструктурированных текстовых данных. Уже в 1958 году такие исследователи в области информационных технологий, как Х. П. Лун, изучали способы извлечения и классификации данных в неструктурированном тексте.[1] Тем не менее, только с начала XXI имеющиеся технологии догнали исследовательский интерес. В 2004 году SAS Institute разработал SAS Text Miner, который использует сингулярное разложение, чтобы факторизовать текстовое пространство высокой размерности на подпространства меньшей размерности для значительного упрощения машинного анализа.[2] Достижения в области математики и технологий машинной обработки текстов стимулировали проведения исследований коммерческими организациями в таких областях, как анализ тональности текста (сентимент-анализ), сбор и анализ мнений потребителей, автоматизация центров обработки вызовов.[3] Появление технологии больших данных (big data) в конце 2000-х годов стимулировало повышенный интерес к программам для анализа неструктурированных данных в современных областях, таких как прогнозирование и причинно-следственный анализ (root cause analysis)[4].

Трудности терминологии[править | править код]

Термин «неструктурированные данные» может считаться неточным по нескольким причинам:

  1. Структура, даже если она не определена формально, может подразумеваться.
  2. Данные, обладающие структурой некоторой формы, могут по-прежнему характеризоваться как неструктурированные, если их структура не предназначена для машинной обработки.
  3. Неструктурированная информация может иметь некоторую структуру (такая информация называется полуструктурированной) или даже быть хорошо структурированной, но теми способами, которые являются неочевидными без предварительного согласования.

Работа с неструктурированными данными[править | править код]

Такие техники, как интеллектуальный анализ данных (data mining), обработка естественного языка (Natural Language Processing) и интеллектуальный анализ текста, предоставляют методы поиска закономерностей с целью так или иначе интерпретировать неструктурированную информацию.

Методы структурирования текста обычно включают ручное тегирование (метаданные) или разметку по частям речи для дальнейшего структурирования текста. Архитектура управления неструктурированной информацией (UIMA) обеспечивает общую основу для обработки этой информации для извлечения значений и создания структурированных данных на основе неструктурированной информации.[4] Программное обеспечение, которое создает машинно-обрабатываемую структуру данных, использует лингвистические, аудиальные и визуальные структуры, которые существуют во всех формах человеческого общения.[5] Например, специальные алгоритмы могут вывести структуру из текста путем анализа морфологии, синтаксиса предложений, и т. д. Затем неструктурированную информацию можно разметить для снятия неоднозначности, а для улучшения поиска используются методы оценки релевантности.

Примером «неструктурированных данных» могут служить книги, журналы, документы, метаданные, медицинские записи, аудио, видео, аналоговые данные, изображения, а также файлы, имеющие основой неструктурированный текст: сообщения электронной почты, веб-страницы, документы, созданные с помощью текстовых процессоров. Неструктурированная информация может храниться в форме структурированных объектов (например, в форме файлов или документов), которые сами по себе имеют структуру. При этом сочетание структурированных и неструктурированных данных в совокупности также называется «неструктурированные данные».[6] Например, в веб-страницах на языке HTML уже есть разметка, однако она пригодна лишь для отображения. В ней не содержится информация о значениях или функциях тех или иных размеченных элементов в виде, пригодном для автоматической обработки. Разметку средствами XHTML проще обрабатывать автоматически, но, обычно, в ней не содержится семантических значений выражений.

Так как неструктурированные данные обычно хранятся в форме электронных документов, программы для анализа содержания или управления документами предпочитают классифицировать скорее целые документы, чем производить манипуляции внутри документов. Таким образом, программы для обработки такого типа данных обычно представляют средства для создания коллекций документов с неструктурированной информацией. Однако сегодня существуют также решения, работающие с атомарными элементами меньшими, чем целый документ[5].

Поисковые системы стали одним из популярных инструментов для индексации и поиска в неструктурированных данных.

Коммерческие решения[править | править код]

Есть несколько коммерческих решений, которые сегодня доступны для работы с неструктурированными данными в бизнесе. Они включают продукты таких компаний, как Netowl, LogRhythm, ZL Technologies, SAS, Provalis Research, Inxight, Datagrav[6], ORKASH (недоступная ссылка) и SPSS, IBM Watson и ABBYY, а также более специализированные предложения, такие, как People Pattern, Attensity, Megaputer Intelligence, Clarabridge, Graphext, Stratifyd, Medallia, General Sentiment, и Sysomos, которые предназначены для анализа неструктурированных данных СМИ. Другие производители, такие как SmartLogic или IRI (CoSort), могут вычленить структурированные данные из неструктурированных источников, а затем интегрировать и трансформировать их вместе со структурированными данными для бизнес-аналитики и аналитических целей. [7]

Примечания[править | править код]

Ссылки[править | править код]

  1. Артак Оганесян. Неструктурированные данные 2.0 // Открытые системы. СУБД, 2012, № 04
  2. Леонид Черняк. Аналитика неструктурированных данных // Открытые системы. СУБД, 2012, № 06
  3. Антон Иванов. Комплексный анализ неструктурированных данных // Открытые системы. СУБД, 2013, № 06
  4. Артем Гришковский. Интегрированная обработка неструктурированных данных // Открытые системы. СУБД, 2013, № 06
  5.   Structure, Models and Meaning: Is «unstructured» data merely unmodeled?, Intelligent Enterprise, March 1, 2005.
  6.   Structuring Unstructured Data, Forbes, April 5, 2007.
  7.   Christopher C. Shilakes and Julie Tylman, «Enterprise Information Portals», Merrill Lynch, 16 November 1998.
  8.   Holzinger, Andreas. Combining HCI, Natural Language Processing, and Knowledge Discovery – Potential of IBM Content Analytics as an Assistive Technology in the Biomedical Field // Human-Computer Interaction and Knowledge Discovery in Complex, Unstructured, Big Data / Andreas Holzinger, Stocker, Ofner … [и др.]. — Springer, 2013. — P. 13–24. — ISBN 978-3-642-39146-0. — DOI:10.1007/978-3-642-39146-0_2.
  9.   Unstructured Data and the 80 Percent Rule, Seth Grimes, Clarabridge Bridgepoints, 2008 Q3.
  10.   Today’s Challenge in Government: What to do with Unstructured Information and Why Doing Nothing Isn’t An Option, Noel Yuhanna, Principal Analyst, Forrester Research, Nov 2010
  11.   New Digital Universe Study Reveals Big Data Gap: Less Than 1 % of World’s Data is Analyzed; Less Than 20 % is Protected, EMC Press Release, December 2012.
  12.   Semi- and unstructured data processing / preparation in IRI CoSort, May 2014.