Глубокая паутина

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Глубокая паутина (также известна как «Невидимая сеть», «Глубокая сеть»; англ. Deep Web;) — множество веб-страниц Всемирной паутины, не индексируемых поисковыми системами. Термин произошёл от соотв. англ. invisible web[1]. Наиболее значительной частью глубокой паутины является Глубинный веб (от англ. deep web, hidden web), состоящий из веб-страниц, динамически генерируемых по запросам к онлайн-базам данных[2].

Не следует смешивать понятие Глубокая паутина с понятием Тёмная паутина (от англ. Dark web), под которым имеются в виду сетевые сегменты, хотя и подключённые к общей сети Интернет, но требующие для доступа определённые программные средства.

Суть проблемы[править | править вики-текст]

В глубокой паутине находятся веб-страницы, не связанные с другими гиперссылками (например, тупиковые веб страницы, динамически создаваемые скриптами на самих сайтах по запросу на которые не ведут прямые ссылки), а также сайты, доступ к которым открыт только для зарегистрированных пользователей и интернет-страницы, доступные только по паролю.

Поисковые системы используют специальных поисковых роботов (англ. web crawler), которые переходят по гиперссылкам и индексируют содержимое веб-страниц, на которых они оказываются, занося их содержимое и гиперссылки на них в свои базы данных. Найдя на проиндексированной веб-странице ссылки на другие страницы, поисковый бот переходит по ним и индексирует содержимое каждой из найденных страниц, находит новые гиперссылки и переходит по ним для индексации; в результате переходов по ссылкам, ведущим за пределы индексируемых страниц, количество проиндексированных веб-страниц постоянно увеличивается. Попасть на веб-страницы, на которые нет ссылок с других страниц, поисковый бот не может, в силу чего содержимое этих страниц не индексируется. Как следствие, не зная URL сайта или веб-страницы «Глубокой сети», обычный пользователь попасть на них не сможет.

Также в «Глубокую сеть» попадают сайты, владельцы которых добровольно отказались от индексации поисковыми системами (например, с помощью файла «robots.txt»), а также сайты и веб-страницы, защищённые авторизацией от просмотра информации третьими лицами. В таком случае, не зная логин и (или) пароль к веб-странице, невозможно в полной мере просмотреть её содержимое или пользоваться веб-сайтом.

Масштаб[править | править вики-текст]

Размер глубокой паутины неизвестен. Существуют относительно достоверные оценки общего числа сайтов, ведущих к онлайн-базам данных: около 300 тысяч таких сайтов во всём Вебе в 2004 году и около 14 тысяч в Рунете в 2006 году[3][4].

Поиск по глубокой паутине[править | править вики-текст]

В 2005 году компания «Yahoo!» сделала серьёзный шаг к решению этой проблемы. Компания выпустила поисковый движок «Yahoo! Subscriptions», который производит поиск по сайтам (пока немногочисленным), доступ к которым открыт только зарегистрированным участникам этих сайтов. Это, однако, полностью не решило имеющейся проблемы. Эксперты поисковых систем по-прежнему пытаются найти технические возможности для индексации содержимого баз данных и доступа к закрытым веб-сайтам.

Одним из популярных сервисов, работающих с данными глубокой паутины, является UFOseek, изначально предназначенный для систематизации данных о паранормальных явлениях[5].

Специальные поисковые машины:

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

  1. Gary Price, Chris Sherman. The Invisible Web: Uncovering Information Sources Search Engines Can’t See. — CyberAge Books, 2001, ISBN 0-910965-51-X.
  2. Денис Шестаков, Наталья Воронцова (2005). «Структура русскоязычной части глубинного Веба». Интернет-математика 2005, стр.320-341.
  3. Denis Shestakov (2011). «Sampling the National Deep Web». Proceedings of the 22nd International Conference on Database and Expert Systems Applications (DEXA), стр.331-340.
  4. How big is the internet?.
  5. Игорь Райхман, 2013, с. 118.

Литература[править | править вики-текст]