Вымирание ссылок

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Для вымирания ссылок в Википедии см. Википедия:Вымирание ссылок.

Вымирание ссылок (англ. Link rot, буквально — гниение ссылок) — это процесс, в котором гиперссылки на конкретные сайты или в интернете вообще указывают на веб-страницы, сервера или другие ресурсы, которые становятся недоступными навсегда[1]. Достоверных данных о периоде полураспада случайной страницы не существует: конкретные оценки очень сильно варьируются между разными исследованиями, а также между разными коллекциями ссылок, на которых эти исследования проводились (см. раздел #Распространённость).

Терминология[править | править код]

Вымирание ссылок называется также «смертью ссылок» или «поломкой ссылок». Ссылка, которая больше не работает, называется «битой ссылкой», «мёртвой ссылкой» или «висячей ссылкой». Формально, это вид висячего указателя — объект, на который указывает ссылка, больше не существует.

Причины[править | править код]

Одна из наиболее частых причин появления битых ссылок — веб-страница, на которую ссылка указывает, больше не существует. Это часто приводит к ошибке 404, которая показывает, что веб-сервер отвечает, но указанную страницу найти он не может. Другой вид мёртвой ссылки случается, когда сервер, который содержит страницу, перестаёт работать или переехал в другое доменное имя. Браузер может вернуть ошибку DNS или показать сайт, не имеющий отношения к странице, которую искали. Последнее может произойти, если доменное имя переходит другому владельцу. Другими причинами битых ссылок могут стать:

  • Веб-сайт перестроен или перепроектирован, или лежащая в основе технология изменена, в результате чего меняются или делаются недоступными большое число входящих и внутренних ссылок.
  • Многие сайты новостей хранят статьи короткое время, а затем переводят их в платный доступ[en]. Это приводит к существенным потерям ссылок в группах обсуждения новостей, использующих информационные интернет-порталы для ссылок.
  • Содержимое может автоматически становиться недоступным по истечении некоторого определённого периода.
  • Содержимое может быть намеренно удалено владельцем.
  • Сервер может быть обновлён и код (например, PHP) может не работать в результате корректно.
  • Ссылки могут быть удалены в результате судебного иска.
  • Результаты поиска из соцсетей, таких как Facebook и Tumblr, склонны к битым ссылкам, ввиду частых изменений в конфиденциальности пользователей, удалений аккаунтов, ссылок результата поиска на динамические страницы, которые дают новые результаты, отличающиеся от кэшированного результата, или удаления ссылки или фото.
  • Ссылки могут содержать короткоживущую, специфичную для пользователя информацию, такую как сессия или дата входа. Поскольку такая информация верна не всё время, результатом может стать битая ссылка.
  • Ссылка может оказаться битой ввиду некоторых видов блокировки, таких как контент-фильтры или межсетевые экраны.
  • Веб-сайт может быть закрыт или выключен, что приводит к неработающим ссылкам, если они указывают на этот сайт.
  • Веб-сайт может сменить своё доменное имя. Ссылки на старое доменное имя могут тогда стать битыми.
  • Мёртвые ссылки могут случаться на стороне сервера, когда содержимое собирается из источников в интернете без надлежащей проверки ссылок.
  • Когда новые частные gTLD домены становятся популярными, домены верхнего уровня, такие как .mcdonalds или .xperia, упраздняются[2].

Распространённость[править | править код]

Ответ 404 «Not Found» знаком даже случайным пользователям сети. В большом числе исследований рассматривалась распространённость битых ссылок в интернете, в научной литературе и в электронных библиотеках[3]. В эксперименте 2003 года Фетерли (с соавторами) обнаружил, что примерно одна ссылка из 200 исчезает каждую неделю из интернета. МакКоун (с соавторами, 2005) обнаружил, что половина URL, указанных в статьях журнала D-Lib Magazine[en], не были доступны через 10 лет после публикации, а другие исследования показали даже худшее вымирание ссылок в научной литературе[4][5]. Нельсон и Аллен[6] изучали вымирание ссылок в цифровых библиотеках и нашли, что около 3 % объектов были недоступны после одного года. В 2014 владелец сайта закладок Pinboard[en] Мацей Цегловский сообщал, что «довольно стабильная доля» в 5 % ссылок вымирает за год[7]. Исследование ссылок из каталога Yahoo! показало период полураспада случайной страницы в 2016—2017 годах (вскоре после того, как Yahoo! перестала публиковать этот каталог) около двух лет[8].

Некоторые исследования на ранних этапах существования интернета (в конце 1990-х — начале 2000-х) показали существенное различие (более чем на порядок) периодов полураспада между разными коллекциями ссылок[9].

В 2014 году исследователи Юридического факультета Гарвардского университета Джонатан Зиттрейн, Кендра Альберт и Лоуренс Лемминг обнаружили, что примерно 50 % URL в заключениях Верховного суда США не ссылаются на исходную информацию[1]. Они нашли также, что в наборе юридических журналов между 1999 и 2011 более 70 % ссылок не работают как следует. При изучении в 2013 году года журнала BMC Bioinformatics[en] проанализировано около 15000 ссылок в тезисах со страниц Science citation index[en] (индекс научного цитирования) компании Thomson Reuters и нашли, что среднее время жизни веб-страниц составляло 9,3 года, а 62 % было архивировано[10]. В августе 2015 сайт Weblock.io проанализировал более 180000 ссылок из текстов трёх главных публикаторов с открытым доступом и нашёл, что более 24,5 % цитируемых ссылок недоступны[11].

Обнаружение[править | править код]

Обнаружение битых ссылок может быть проведено вручную или автоматически. Автоматизированные методы, включая плагины для WordPress, Drupal и других систем управления контентом, могут быть использованы для обнаружения битых URL. Альтернативой является использование проверочных средств битых ссылок, таких как Xenu's Link Sleuth. Однако, если URL возвращает HTTP код 200 (OK), страница может быть доступной, но содержимое страницы может быть изменено и более не относится к делу. Так что ручная проверка страниц, по-видимому, должна быть обязательной. Некоторые сервера возвращают soft 404, сообщая запрашивающему компьютеру, что ссылка работает, хотя, на самом деле, она не работает. Бар-Йосеф (с соавторами, 2004)[12] разработал эвристический алгоритм, автоматически обнаруживающий страницы, возвращающие soft 404.

Борьба[править | править код]

Есть много решений для преодоления битых ссылок. Некоторые методы пытаются предотвращать их вообще, в то время как другие пытаются обойти их, когда битая ссылка обнаруживается. Есть также множество средств для борьбы с вымиранием ссылок.

Со стороны авторов[править | править код]

  • Тщательно отбирайте и используйте гиперссылки и проверяйте их регулярно после публикации. Лучшие технологии включают ссылки на основные источники, а не вторичные и предпочтение следует отдавать устойчивым сайтам. МакКоун с соавторами в 2005 предложили избегать цитирование URL, которые ссылаются на персональные страницы исследователей.
  • Всегда ищите наиболее компактный и прямой URL и убедитесь, что это семантический URL без не имеющей отношения к делу информации после основы URL[13]. Этот процесс часто называется нормализацией URL или приведением URL к каноническому виду[en].
  • Насколько возможно, используйте постоянные идентификаторы, такие как ARK (Ключ Архивации Ресурса, англ. Archival Resource Key), DOIs, Handle System[en] ссылки и PURL.
  • Избегайте ссылок на PDF-документы, где возможно, поскольку PDF-документы, всё-таки, документы, а не веб-страницы, их содержимое может меняться без уведомления, а их названия часто содержат символы, такие как пробел, так что их необходимо кодировать для URL. Документы PDF большого размера могут медленно загружаться и вызывать ошибку по тайм-ауту[13].
  • Избегайте указания ссылок на страницы, глубокие для сайта, что известно как внешнее связывание.
  • Используйте сервисы архивирования веб-сайтов (например, WebCite) для постоянного архивирования и извлечения цитированных интернет-ссылок[14].

На стороне сервера[править | править код]

  • Никогда не изменяйте URL и никогда не удаляйте страницы. Если есть причины, по которой страница больше не нужна, такие как редактирование сообщения на новостных сайтах, замените на страницу с объяснением причин удаления.
  • Если URL меняется, используйте механизм перенаправления, такой как «301: Moved Permanently» для автоматической информации браузеров и поисковиков о новом местоположении.
  • Система управления веб-содержимым может обеспечить встроенные решения для управления ссылками, обновляя их, если они меняются или передвигаются на сайте.
  • WordPress предохраняет от вымирания ссылок путём замены неканонических URL каноническими[en] версиями[15].
  • Peridot[en] пытается автоматически исправлять битые ссылки.
  • Создание постоянных ссылок останавливает образование битых ссылок гарантированием, что содержимое не будет перенесено в обозримом будущем. Другой вид создания постоянных ссылок — ссылка на постоянную ссылку, которая затем перенаправляет на актуальное содержимое, что обеспечивает сохранение ссылки, даже если реальное содержимое переносится в другое место, так что ссылки, указывающие на ресурс, остаются неизменными.
  • Разрабатывайте URL — например, семантические URL — так, чтобы их не нужно было менять, когда другое лицо начинает заниматься обслуживанием документа, или когда на сервере используется другое программное обеспечение[16].

С пользовательской стороны[править | править код]

  • Виджет Linkgraph определяет URL правильной страницы, основываясь на старом битом URL, путём использования исторической информации о местоположении.
  • Виджет «Google 404 Widget» пытается «угадать» правильный URL и даёт пользователю диалоговое окно для поиска правильной страницы.
  • Когда пользователь получает код 404, панель инструментов Google пытается помочь пользователю найти отсутствующую страницу [17].

Архивирование веб-сайтов[править | править код]

Основная статья: Архивирование веб-сайтов

Чтобы противостоять вымиранию ссылок, активно используется архивирование веб-сайтов для сохранения веб-страниц или отдельных частей сети и обеспечения, чтобы набор страниц был сохранён в архивах, таких как архивный сайт[en], для будущих исследователей, историках и общества. Целью архивации интернета является создание архива всей сети, выполняя периодические выполнение снимков страниц, к которым можно получить затем свободный доступ через Wayback Machine. В январе 2013 компания объявила, что достигнута веха в 240 миллиардов архивированных URL[18]. Национальные библиотеки, государственные архивы[en] и другие организации также вовлечены в архивации культурно важного Веб-контента.

Отдельные граждане могут использовать много средств, которые позволяют им архивировать веб-ресурсы, которые могут стать недоступными в будущем:

  • «WayBack Machine» некоммерческой организации Архив Интернета[19], является свободным веб-сайтом, который архивирует старые веб-страницы. Он не архивирует веб-сайты, владельцы которых указывают, что они не хотят, чтобы их сайт был архивирован.
  • Средство WebCite, специально разработанное для научных авторов, редакторов журналов и издателей для архивирования «по запросу» и выборки ссылок в интернете[14].
  • Архивный сайт Archive.is сохраняет снимки веб-страниц. Он извлекает одну страницу за запрос, но, в отличие от WebCite, он включает сайты Веб 2.0, такие как Карты Google и Твиттер.
  • Сервис Perma.cc[en], поддерживаемый Юридическим факультетом Гарвардского университета вместе с широкой коалицией университетских библиотек, делает снимок URL контента и возвращает постоянную ссылку[1].
  • Проект Hiberlink, созданный Эдинбургским университетом в сотрудничестве с Лос-Аламосской национальной лабораторией и другими организациями, работает для измерения «вымирания ссылок» в онлайновых научных статьях, а также определения, куда веб-содержимое было архивировано[20]. Связанный проект Memento установил технический стандарт для получения доступа к онлайновому содержимому, как он существовал в прошлом[21].
  • Некоторые веб-сайты социальных закладок позволяют пользователям сделать онлайновый клон любой веб-страницы в интернете, создавая копию с независимым url, которая остаётся доступной, даже если исходная страница прекратила существование.
  • Средство Amber, созданное в Гарварде в Berkman Center[en], является средством для борьбы с вымиранием ссылок путём архивации на WordPress и Drupal, чтобы предотвратить цензурирование сети и поддержать архивирование[22].

Однако такие системы сохранения могут испытывать выключение/включение сервиса, так что сохранённые URL периодически становятся недоступными[23].

См. также[править | править код]

Примечания[править | править код]

  1. 1 2 3 Zittrain, Albert, Lessig, 2014, с. 88–99.
  2. The death of a TLD. blog.benjojo.co.uk. Дата обращения 27 июля 2018. Архивировано 26 июля 2018 года.
  3. Habibzadeh, Sciences, 2013, с. 455–64.
  4. Spinellis, 2003, с. 71–77.
  5. Lawrence, Pennock, Flake и др., 2001, с. 26—31.
  6. Nelson, Allen, 2002.
  7. Cegłowski, 2014.
  8. Van der Graaf, 2017.
  9. Koehler, 2004.
  10. Hennessey, Xijin Ge, 2013, с. S5.
  11. All-Time Weblock Report (August 2015). Дата обращения 12 января 2016. Архивировано 4 марта 2016 года.
  12. Bar-Yossef, Broder, Kumar, Tomkins, 2004, с. 328.
  13. 1 2 Kille, 2014.
  14. 1 2 Eysenbach, Trudel, 2005, с. e60.
  15. Rønn-Jensen, 2007.
  16. Berners-Lee, 1998.
  17. Mueller, 2007.
  18. Wayback Machine: Now with 240,000,000,000 URLs | Internet Archive Blogs (9 января 2013). Дата обращения 16 апреля 2014. Архивировано 12 сентября 2017 года.
  19. Internet Archive: Digital Library of Free Books, Movies, Music & Wayback Machine (10 марта 2001). Дата обращения 7 октября 2013. Архивировано 26 января 1997 года.
  20. Hiberlink. Дата обращения 15 января 2015. Архивировано 29 января 2015 года.
  21. Memento: Time Travel for the Web. Дата обращения 15 января 2015. Архивировано 7 января 2015 года.
  22. Harvard University's Berkman Center Releases Amber, a "Mutual Aid" Tool for Bloggers & Website Owners to Help Keep the Web Available | Berkman Center. cyber.law.harvard.edu. Дата обращения 28 января 2016. Архивировано 2 февраля 2016 года.
  23. Habibzadeh, 2015, с. 1.

Литература[править | править код]

Литература для дальнейшего чтения[править | править код]

Вымирание ссылок в интернете[править | править код]

В академической литературе[править | править код]

В цифровых библиотеках[править | править код]

  • Michael L. Nelson, B. Danette Allen. Object Persistence and Availability in Digital Libraries // D-Lib Magazine. — 2002. — Т. 8, вып. 1. — DOI:10.1045/january2002-nelson.

Ссылки[править | править код]