Очистка данных

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Очистка данных (англ. Data cleansing) — процесс выявления и исправления ошибок, несоответствий данных с целью улучшения их качества. Очистка данных является составной частью интеллектуального анализа данных.

Очистка данных выполняется с определенными наборами данных (в базах данных и файлах). Необходимость в очистке данных чаще всего возникает при интеграции различных информационных систем (хранилища данных, системы управления ресурсами предприятия, системы управления взаимодействием с клиентами).

Источники данных в различных системах часто находятся в разрозненном виде и в различных состояниях. Преобразования выполняются автоматически (в соответствии с набором правил) либо вручную (в интерактивном режиме).

Примеры областей исправления данных включают адреса, различную классификацию мета-данных. Например, в системе А пол пользователя определяется символами 1 и 2, где 1 — мужской и 2 — женский. В системе Б пол пользователя определяется символами М и Ж, где М — мужской и Ж — женский. При интеграции данных в двух системах необходимо преобразовать классификацию к единому виду.

Ссылки[править | править исходный текст]