Архивирование веб-сайтов

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Архивирование веб-сайтов — сохранение текущей версии сайта в архиве.

Сайты в Интернет могут исчезнуть по ряду разных причин. Материалы сайтов изменяются с течением времени — текст может быть переписан или удалён. Срок аренды доменного имени или самого сервера может истечь, сайт может быть закрыт из-за недостатка финансирования и т. д. В связи с этим актуальна проблема сохранения версии сайта. Существует несколько сервисов, ведущих архивацию на постоянной основе.

Архив Интернета[править | править вики-текст]

В 1996 году была основанна некоммерческая организация «Архив Интернета» (англ. Internet Archive). Архив собирает копии веб-страниц, графические материалы, видео-, аудиозаписи и программное обеспечение. Архив обеспечивает долгосрочное архивирование собранного материала и бесплатный доступ к своим базам данных для широкой публики. Размер Архива — 2 петабайта[1]. Он содержит 85 миллиардов веб-страниц.[2] Сервер Архива расположен в Сан-Франциско, зеркала — в Новой Александрийской библиотеке и Амстердаме. С 2007 г. Архив имеет юридический статус библиотеки. Основной веб-сервис архива — The Wayback Machine. Содержание веб-страниц фиксируется с временны́м промежутком c помощью бота. Таким образом, можно посмотреть, как выглядела та или иная страница раньше, даже если она больше не существует.

WebCite[править | править вики-текст]

«WebCite» — интернет-сервис, который выполняет архивирование веб-страниц по запросу. Впоследствии на заархивированную страницу можно сослаться через url. Пользователи имеют возможность получить архивную страницу в любой момент и без ограничений, и при этом неважен статус и состояние оригинальной веб-страницы, с которой была сделана архивная копия. В отличие от Архива Интернета, WebCite не использует веб-краулеров для автоматической архивации всех подряд веб-страниц. WebCite архивирует страницы только по прямому запросу пользователя. WebCite архивирует весь контент на странице — HTML, PDF, таблицы стилей, JavaScript и изображения. WebCite также архивирует метаданные о архивируемых ресурсах, такие как время доступа, MIME-тип и длину контента. Эти метаданные полезны для установления аутентичности и происхождения архивированных данных. Пилотный выпуск сервиса был выпущен в 1998 году, возрождён в 2003.

По состоянию на 2013 год проект испытывает финансовые трудности и проводит сбор средств, чтобы избежать вынужденного закрытия.

Peeep.us[править | править вики-текст]

Сервис Peeep.us позволяет сохранить копию страницы по запросу пользования, в том числе и из авторизованной зоны, которая потом доступна по сокращённому URL. Реализован на Google App Engine.

Сервис peeep.us, в отличие от ряда других аналогичных сервисов, получает данные на клиентской стороне — то есть, не обращается напрямую к сайту, а сохраняет то содержимое сайта, которое видно пользователю. Это может использоваться для того, чтобы можно было поделиться с другими людьми содержимым закрытого для посторонних ресурса. Таким образом, peeep.us не подтверждает, что по указанному адресу в указанный момент времени действительно было доступно заархивированное содержимое. Он подтверждает лишь то, что у инициировавшего архивацию по указанному адресу в указанный момент времени подгружалось заархивированное содержимое[3]. Таким образом, Peeep.us нельзя использовать для доказательства того, что когда-то на сайте была какая-то информация, которую потом намеренно удалили (и вообще для каких-либо доказательств)[4].

Archive.today[править | править вики-текст]

Сервис archive.today (ранее archive.is) позволяет сохраняет не только основной html-текст веб-страницы, но также и все изображения, стили, фреймы и используемые шрифты. Archive.today умеет сохранять страницы с Web2.0-сайтов, например с twitter.com.

Mirrorrr[править | править вики-текст]

Сервис mirrorrr.appspot.com реализован на Google App Engine.

Hiyo.jp[править | править вики-текст]

Японский сервис hiyo.jp одновременно предоставляет короткую и длинную ссылки на архивированный материал.

Веб-гётаку[править | править вики-текст]

Японский сервис megalodon.jp действует с 2006 года. Следует указаниям robots.txt.

Markkit[править | править вики-текст]

Markkit — сервис для выделения слов на веб-страницах.

Поисковые системы[править | править вики-текст]

Поисковики собирают страницы интернета для выполнения своего основного предназначения, и многие из них заодно дают доступ к сохранённым копиям, представляя собой поверхностный во временном смысле архив.

Оффлайн-браузеры[править | править вики-текст]

Для частного архива можно использовать один из оффлайн-браузеров, которые специально спроектированы на преимущественную работу в оффлайн-режиме — создании локальных копий веб-страниц и сайтов.

Примечания[править | править вики-текст]

Ссылки[править | править вики-текст]