Глубокая паутина

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Глубокая паутина (Также известная как "Невидимая сеть", "Глубокая сеть"; англ. Deep Web;) — множество веб-страниц Всемирной паутины, не индексируемых поисковыми системами. Термин произошёл от соотв. англ. invisible web[1]. Наиболее значительной частью глубокой паутины является Глубинный веб (от англ. deep web, hidden web), состоящий из веб-страниц, динамически генерируемых по запросам к онлайн-базам данных[2].

Не следует смешивать понятие Глубокая паутина с понятием Тёмная паутина ( от англ. Dark web ), под которым имеются в виду сетевые сегменты, хотя и подключённые к общей сети Интернет, но требующие для доступа определенные программные средства.

Суть проблемы[править | править вики-текст]

В глубокой паутине находятся веб-страницы, не связанные с другими гиперссылками ( Например, тупиковые веб страницы, динамически создаваемые скриптами на самих сайтах по запросу на которые не ведут прямые ссылки), а также сайты, доступ к которым открыт только для зарегистрированных пользователей и интернет страницы доступные только по паролю.

Поисковые системы используют специальных поисковых роботов (англ. web crawler), которые переходят по гиперссылкам и индексируют содержимое веб-страниц, на которых они оказываются, занося их содержимое и гиперссылки на них в свои базы данных. Далее поисковый бот находя на данной веб странице ссылку на другие веб страницы, также переходит по ним и индексирует уже содержимое каждой из них, далее бот находит новые гиперссылки и индексирует уже их содержимое, таким образом цикл повторяется раз за разом. Некоторые веб-страницы не имеющие внешних ссылок на себя остаются таким образом не замеченными поисковыми ботами и не заносятся в базы данных поисковой системы. Таким образом без знания прямого URL адреса сайта в сети интернет обычный пользователь более никаким образом не может попасть на сайты или веб страницы "Глубокой сети".

Также в "Глубокую сеть" попадают сайты владельцы которых добровольно отказались от индексации поисковыми системами (Например с помощью файла: robots.txt), а также сайты и веб-страницы защищенные авторизацией от просмотра информации третьими лицами. В таком случае не зная логин и(или) пароль к веб странице невозможно в полной мере просмотреть её содержимое или пользоваться веб сайтом.

Масштаб[править | править вики-текст]

Размер глубокой паутины неизвестен. Существуют относительно достоверные оценки общего числа сайтов, ведущих к онлайн-базам данных: около 300 тысяч таких сайтов во всём Вебе в 2004 году и около 14 тысяч в Рунете в 2006 году[3][4]. Обычные пользователи бывают потрясены, когда узнают о том, что глубокая паутина превышает по своей информационной ёмкости доступный им интернет как минимум в 600 раз[5][неавторитетный источник? 196 дней].

Поиск по глубокой паутине[править | править вики-текст]

В 2005 году компания «Yahoo!» сделала серьёзный шаг к решению этой проблемы. Компания выпустила поисковый движок «Yahoo! Subscriptions», который производит поиск по сайтам (пока немногочисленным), доступ к которым открыт только зарегистрированным участникам этих сайтов. Это, однако, полностью не решило имеющейся проблемы. Эксперты поисковых систем по-прежнему пытаются найти технические возможности для индексации содержимого баз данных и доступа к закрытым веб-сайтам.

Одним из популярных сервисов, работающих с данными глубокой паутины, является UFOseek, изначально предназначенный для систематизации данных о паранормальных явлениях[6].

Специальные поисковые машины:

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

  1. Gary Price, Chris Sherman. The Invisible Web: Uncovering Information Sources Search Engines Can’t See. — CyberAge Books, 2001, ISBN 0-910965-51-X.
  2. Денис Шестаков, Наталья Воронцова (2005). «Структура русскоязычной части глубинного Веба». Интернет-математика 2005, стр.320-341.
  3. Denis Shestakov (2011). «Sampling the National Deep Web». Proceedings of the 22nd International Conference on Database and Expert Systems Applications (DEXA), стр.331-340.
  4. How big is the internet?.
  5. Хорошее и плохое в Deep Web.
  6. Игорь Райхман, 2013, с. 118.

Литература[править | править вики-текст]