Архивирование веб-сайтов

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Архивирование веб-сайтов — процесс сохранения текущей версии сайта в архиве, для последующих исследований историками и обществом. Как правило, для архивирования используется специальное программное обеспечение — веб-сканер.

Крупнейшей компанией в мире в области архивирования интернета является «Internet Archive». С 2001 года работает Международный семинар архивирования интернета (The International Web Archiving Workshop), который позволяет обмениваться опытом. С 2003 года открыт Международный консорциум сохранения интернета (International Internet Preservation Consortium), которые занимаются разработкой стандартов и курируют разработку инструментов с открытым исходным кодом.

Предпосылки[править | править вики-текст]

Сайты в интернете могут исчезнуть по ряду разных причин. Материалы сайтов изменяются с течением времени — текст может быть переписан или удалён. Срок аренды доменного имени или самого сервера может истечь, сайт может быть закрыт из-за недостатка финансирования и т. д. В связи с этим актуальна проблема сохранения версий сайта. Существует несколько сервисов, ведущих архивацию на постоянной основе.

Собираемая информация[править | править вики-текст]

Веб-сканер призван в первую очередь сохранить текстовое наполнение сайта, но, в зависимости от конфигурации, сканер может сохранять html-разметку, таблицы стилей, динамические скрипты, изображения и видео.

Помимо содержания к архиву записываются метаданные о собранных ресурсах. MIME-типы, длина содержания, время и дата архивирования, доменное имя и адрес страницы, и т. п. Эти данные используются для навигации, а также полезны для установления подлинности и происхождения.

Методы сбора[править | править вики-текст]

Существует несколько способов архивирования интернета, ниже описана часть из них.

Удалённый сбор[править | править вики-текст]

Метод веб-архивирования отдельных сайтов, автоматизирующий сбор веб-страниц.

Примеры веб-сканеров для персональных компьютеров:

Онлайн сервисы веб-сканеров:

Метод веб-паука[править | править вики-текст]

Метод веб-архивирования, которым пользуются поисковые системы при индексации сайтов. Суть способа в том, что паук сканирует документ на предмет гиперссылок и добавляет каждую в очередь, архивирует сайт и переходит по следующей ссылке в очереди.

Архивирование баз данных[править | править вики-текст]

Метод веб-архивирования, который основан на архивированию основного содержания сайта из базы данных.

Таким образом работают системы DeepArc и Xinq, разработанные Национальной библиотекой Франции и Национальной библиотекой Австралии соответственно. Первая программа позволяет используя реляционную базу данных отображать информацию в виде XML-схемы; вторая программа позволяет запомнить оригинальное оформление сайта, соответственно создавая точную копию.

Архивирование транзакциями[править | править вики-текст]

Метод архивирования, который сохраняет данные, пересылаемые между веб-сервером и клиентом. Используется, как правило, для доказательств содержания, которое было предоставлено на самом деле в определённую дату. Такое программное обеспечение может потребоваться организациям, которые нуждаются в документировании информации такого типа.

Такое ПО, как правило, просто перехватывает все HTTP-запросы и ответы, фильтруя дубликаты ответов.

Проблемы архивирования[править | править вики-текст]

Сканеры[править | править вики-текст]

Для веб-архивов, которые полагаются на веб-сканеры имеют следующие проблемы:

  • Сайт может запретить для просмотра часть сайта как для веб-сканера, так и для пользователей.
  • Часть сайта может быть скрыта в deep Web.
  • Ловушки для сборщиков (Crawler traps), например, генерируемые календари и телефонные списки, могут привести к чрезвычайно большому или бесконечному количеству страниц.
  • За время обхода сайта уже обойдённые страницы могут измениться.

Однако, технологии сбора способны выдавать в результате страницы с полностью работоспособными ссылками.

Общие ограничения[править | править вики-текст]

Иногда администратор сайта настраивает сервер так, что тот выдает нормальные документы лишь пользователям обычных браузеров, но генерирует иные данные для ботов, архиваторов, пауков и т. п. автоматических программ. Это делается с целью обмана поисковых систем или же для увеличения пропускной способности канала, чтобы веб-сервер выдавал пригодный для просмотра материал для устройства и не скачивал ничего лишнего.

Ещё одной крупной проблемой перед веб-архивами является проблема законов о защите интеллектуальной собственности. Кроме того, может случиться так, что заархивированное содержание захочет удалить сам правообладатель.

Аспекты архивирования[править | править вики-текст]

Веб-архивирование, как и любой другой вид деятельности имеет юридические аспекты, которые необходимо учитывать в работе:

  • Сертификация в надёжности и целостности содержания веб-архива.
  • Сбор проверяемых веб-активов.
  • Предоставление поиска и извлечения из массива данных.
  • Сопоставимость содержания коллекции

Ниже представлен набор инструментов, который использует Консорциум по архивированию интернета

  • Heretrix — архивация.
  • NutchWAX — поиск коллекции.
  • Открытый исходный код «Wayback Machine» — поиск и навигация.
  • Web Curator Tool — выбор и управление.

Другие инструменты с открытым исходным кодом для манипуляций над веб-архивами:

  • WARC инструменты — для программного создания, чтения, анализа и управления веб-архивами.

Просто бесплатное ПО:

  • Инструменты поиска Google — для полнотекстового поиска.
  • WSDK — набор утилит, Erlang модулей для создания WARC-архива.

Компании архивирующие интернет[править | править вики-текст]

Архив Интернета[править | править вики-текст]

В 1996 году была основана некоммерческая организация «Архив Интернета» (англ. Internet Archive). Архив собирает копии веб-страниц, графические материалы, видео-, аудиозаписи и программное обеспечение. Архив обеспечивает долгосрочное архивирование собранного материала и бесплатный доступ к своим базам данных для широкой публики. Размер Архива — 9 петабайта на декабрь 2012 года, еженедельно добавляется около 20 терабайт[1]. На начало 2009 года он содержал 85 миллиардов веб-страниц.[2], в мае 2014 года - 400 миллиардов[3]. Сервер Архива расположен в Сан-Франциско, зеркала — в Новой Александрийской библиотеке и Амстердаме. С 2007 г. Архив имеет юридический статус библиотеки. Основной веб-сервис архива — The Wayback Machine. Содержание веб-страниц фиксируется с временны́м промежутком c помощью бота. Таким образом, можно посмотреть, как выглядела та или иная страница раньше, даже если она больше не существует.

В июне 2015 года сайт был заблокирован на территории России по решению Генпрокуратуры РФ за архивы страниц, признанных содержащими экстремистскую информацию.[4]

WebCite[править | править вики-текст]

«WebCite» — интернет-сервис, который выполняет архивирование веб-страниц по запросу. Впоследствии на заархивированную страницу можно сослаться через url. Пользователи имеют возможность получить архивную страницу в любой момент и без ограничений, и при этом неважен статус и состояние оригинальной веб-страницы, с которой была сделана архивная копия. В отличие от Архива Интернета, WebCite не использует веб-краулеров для автоматической архивации всех подряд веб-страниц. WebCite архивирует страницы только по прямому запросу пользователя. WebCite архивирует весь контент на странице — HTML, PDF, таблицы стилей, JavaScript и изображения. WebCite также архивирует метаданные о архивируемых ресурсах, такие как время доступа, MIME-тип и длину контента. Эти метаданные полезны для установления аутентичности и происхождения архивированных данных. Пилотный выпуск сервиса был выпущен в 1998 году, возрождён в 2003.

По состоянию на 2013 год проект испытывает финансовые трудности и проводит сбор средств, чтобы избежать вынужденного закрытия.

Peeep.us[править | править вики-текст]

Сервис Peeep.us позволяет сохранить копию страницы по запросу пользования, в том числе и из авторизованной зоны, которая потом доступна по сокращённому URL. Реализован на Google App Engine.

Сервис peeep.us, в отличие от ряда других аналогичных сервисов, получает данные на клиентской стороне — то есть, не обращается напрямую к сайту, а сохраняет то содержимое сайта, которое видно пользователю. Это может использоваться для того, чтобы можно было поделиться с другими людьми содержимым закрытого для посторонних ресурса. Таким образом, peeep.us не подтверждает, что по указанному адресу в указанный момент времени действительно было доступно заархивированное содержимое. Он подтверждает лишь то, что у инициировавшего архивацию по указанному адресу в указанный момент времени подгружалось заархивированное содержимое[5]. Таким образом, Peeep.us нельзя использовать для доказательства того, что когда-то на сайте была какая-то информация, которую потом намеренно удалили (и вообще для каких-либо доказательств)[6].

Archive.today[править | править вики-текст]

Сервис [1] (ранее archive.is) позволяет сохраняет не только основной html-текст веб-страницы, но также и все изображения, стили, фреймы и используемые шрифты. Archive.today умеет сохранять страницы с Web2.0-сайтов, например с twitter.com.

Веб-гётаку[править | править вики-текст]

Японский сервис megalodon.jp действует с 2006 года. Следует указаниям robots.txt[источник не указан 166 дней].

Поисковые системы[править | править вики-текст]

Поисковики собирают страницы интернета для выполнения своего основного предназначения, и многие из них заодно дают доступ к недавно сохранённым копиям, представляя собой поверхностный во временном смысле архив.

Оффлайн-браузеры[править | править вики-текст]

Для частного архива можно использовать один из оффлайн-браузеров, которые специально спроектированы на преимущественную работу в оффлайн-режиме — создании локальных копий веб-страниц и сайтов.

Примечания[править | править вики-текст]

  1. The Wayback Machine FAQ, 2014-12-01: "December 1, 2014 the Internet Archive Wayback Machine contains almost 9 petabytes of data and is currently growing at a rate of ~20 terabytes per week. This eclipses the amount of text contained in the world's largest libraries, including the Library of Congress."
  2. Крупнейший интернет-архив обзавелся новым дата-центром. Lenta.ru. Архивировано из первоисточника 25 августа 2011.
  3. Wayback Machine Hits 400,000,000,000! // Web Archive blog, May 9, 2014
  4. Георгий Перемитин. РБК (25 июня 2015).
  5. Алексей Козлов. Сайт дня: Peeep.us - вечная жизнь веб-страниц // ferra.ru 13.06.2012
  6. Например, пример реально существовавшей страницы и пример фейковой, никогда не существовавшей страницы

Литература[править | править вики-текст]

Ссылки[править | править вики-текст]