Архивирование веб-сайтов: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
Нет описания правки
Нет описания правки
Строка 278: Строка 278:


== Примечания ==
== Примечания ==
{{примечания}}
{{примечания|2}}


== Литература ==
== Литература ==
{{refbegin|2}}
* {{книга |заглавие=Archiving Websites: a practical guide for information management professionals |издательство=Facet Publishing |место=London |год=2006 |isbn=1-85604-553-6 |ref=Brown |язык=en |автор=Brown, A.}}
* {{статья
* {{книга |заглавие=Archiving Websites. General Considerations and Strategies |издательство=The Centre for Internet Research |место=Aarhus |год=2005 |isbn=87-990507-0-6 |ссылка=https://web.archive.org/web/20090129171453/http://www.cfi.au.dk/en/publications/cfi |дата ссылки=2009-01-29 |ref=Brügger |язык=en |автор=Brügger, N.}} {{Wayback|url=http://www.cfi.au.dk/en/publications/cfi |date=20090129171453 }}
|автор=Adoghe A., Onasoga K., Dike D., Ajayi O.
* {{статья |заглавие=Preserving the Fabric of Our Lives: A Survey of Web Preservation Initiatives |издание=Research and Advanced Technology for Digital Libraries: Proceedings of the 7th European Conference (ECDL) |страницы=461—472 |ссылка=http://www.ukoln.ac.uk/metadata/presentations/ecdl2003-day/day-paper.pdf |язык=en |тип=journal |автор=Day, M. |год=2003}}
|заглавие=Web-Archiving: techniques, challenges, and solutions
* {{статья |заглавие=Going, going, still there: using the WebCite service to permanently archive cited web pages |ссылка=http://www.jmir.org/2005/5/e60/ |издание={{Нп3|Journal of Medical Internet Research}} |том=7 |номер=5 |doi=10.2196/jmir.7.5.e60 |страницы=e60 |pmid=16403724 |pmc=1550686 |язык=en |тип=journal |автор=Eysenbach, G. and Trudel, M. |год=2005}}
|год=2013
* {{cite conference | first = Kent | last = Fitch | title = Web site archiving — an approach to recording every materially different response produced by a website | booktitle = Ausweb 03 | url = http://ausweb.scu.edu.au/aw03/papers/fitch/ | year = 2003 | deadlink = yes | archiveurl = http://archive.wikiwix.com/cache/20110223164912/http://ausweb.scu.edu.au/aw03/papers/fitch/ | archivedate = 2011-02-23 | accessdate = 2015-01-31 }} {{Wayback|url=http://ausweb.scu.edu.au/aw03/papers/fitch/ |date=20030720111610 }}
|том=5
* {{cite web | last = Jacoby | first = Robert | title = Archiving a Web Page | date = 2010-08-19 | url = http://www.seoq.com/archiving-a-web-page/ | archiveurl = https://web.archive.org/web/20110103095915/http://www.seoq.com/archiving-a-web-page/ | archivedate = 2011-01-03 | accessdate = 2010-10-23 }}
|выпуск=3
* {{статья |заглавие=Archiving the World Wide Web |издание=Building a National Strategy for Preservation: Issues in Digital Media Archiving |ссылка=http://www.clir.org/pubs/reports/pub106/web.html |язык=und |автор=Lyman, P. |год=2002}}
|страницы=598—603
* {{книга |заглавие=Web Archiving |издательство=[[Springer Science+Business Media|Springer-Verlag]] |место=Berlin |год=2006 |isbn=3-540-23338-5 |ref=Masanès |язык=und |автор=Masanès, J. (ed.)}}
|язык=en
* {{статья |заглавие=The History of Web Archiving |издание={{Нп3|Proceedings of the IEEE}} |том=100 |номер=special centennial issue |doi=10.1109/JPROC.2012.2189920 |язык=und |автор=Toyoda, M., Kitsuregawa, M. |год=2012}}
|ref=Adoghe }}
* {{статья |автор=Алексей Кутовенко |заглавие=Интернет-летописцы. Сервисы кэширования веб-ресурсов |ссылка=http://www.osp.ru/pcworld/2011/06/13009039/ |издание=[[Мир ПК]] |тип=журнал |год=2011 |номер=6 |страницы=58—61 |issn=02353520}}
* {{статья

|автор=Alam S.
== Ссылки ==
|заглавие=Mementomap: a web archive profiling framework for efficient memento routing
* Нежурбеда Г. Г. [http://www.gpntb.ru/win/inter-events/crimea2002/trud/sec3/Doc19.HTML Создание архивов Интернет-документов как новая задача национальных библиотек] / IX Конференция Крым-2002 «Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества», СЕКЦИЯ 3: СЕТЕВЫЕ ТЕХНОЛОГИИ, МУЛЬТИМЕДИА И ИНТЕРНЕТ В БИБЛИОТЕКАХ
|год=2020
* [http://www.netpreserve.org/ International Internet Preservation Consortium (IIPC)] — International consortium whose mission is to acquire, preserve, and make accessible knowledge and information from the Internet for future generations{{ref-en}}
|язык=en
* [https://web.archive.org/web/20080802201629/http://www.iwaw.net/ International Web Archiving Workshop (IWAW)] — Annual workshop that focuses on web archiving, 2001—2010{{ref-en}}
|ссылка=https://digitalcommons.odu.edu/computerscience_etds/129/
* [http://www.nla.gov.au/padi/topics/92.html National Library of Australia, Preserving Access to Digital Information (PADI)]{{ref-en}}
|ref=Alam}}
* [http://www.loc.gov/webarchiving/ Library of Congress — Web Archiving]{{ref-en}}
* {{статья
* [http://www.ifs.tuwien.ac.at/~aola/links/WebArchiving.html Web archiving bibliography] — Список архиваторов веб-сайтов, 2004{{ref-en}}
|автор=Ayala B.
* [http://www.dlib.org/dlib/december02/masanes/12masanes.html Julien Masanès, Bibliothèque Nationale de France — Towards continuous web archiving. First Results and an Agenda for the Future] / D-Lib Magazine, December 2002, Volume 8 Number 12. ISSN 1082-9873{{ref-en}}
|заглавие=When expectations meet reality: common misconceptions about web archives and challenges for scholars
* [http://wiki.dandascalescu.com/reviews/online_services/web_page_archiving Сравнение веб-архиваторов] {{Wayback|url=http://wiki.dandascalescu.com/reviews/online_services/web_page_archiving |date=20151012114513 }}{{ref-en}}
|год=2021
|издание=International Journal of Digital Humanities
|выпуск=2
|страницы=89—106
|язык=en
|ref=Ayala}}
* {{статья
|автор= Berčič B.
|заглавие=Protection of Personal Data and Copyrighted Material on the Web: The Cases of Google and Internet Archive
|издание=Communications Technology Law
|том=14
|год=2005
|выпуск=1
|страницы=17—24
|doi=10.1080/1360083042000325283
|язык=en
|ref=Berčič
}}
* {{книга
|автор=Brown A.
|заглавие=Archiving websites a practical guide for information management professionals
|издание=Facet publishing
|год=2006
|isbn=978-1-85604-553-7
|страниц=256
|язык=en
|ref=Brown}}
* {{статья
|автор=Brügger N., Schroeder R.
|заглавие=Live versus archive: Comparing a web archive to a population of web pages
|год=2017
|страницы=45—61
|doi=10.2307/j.ctt1mtz55k.8
|язык=en
|ref=Brügger}}
* {{статья
|автор=Brügger N.
|заглавие=Digital humanities and web archives: Possible new paths for combining datasets
|издание=International Journal of Digital Humanities
|выпуск=2
|страницы=145—168
|год=2021
|язык=en
|ref=Niels}}
* {{статья
|автор= Broussard M.
|заглавие=Archiving Data Journalism
|издание=Yhe Data Journalism Handbook
|страницы=274—278
|год=2021
|язык=en
|doi=10.2307/j.ctv1qr6smr.40
|ref=Broussard}}
* {{статья
|автор=Brunelle J., Nelson M.
|заглавие=Evaluating the SiteStory Transactional Web Archive With the ApacheBench Tool
|издание=ArXiv.org
|год=2012
|ref=Brunelle
|ссылка=https://arxiv.org/abs/1209.1811
|язык=en}}
* {{статья
|автор=Costa M., Gomes D., Silva M.
|заглавие=The evolution of web archiving
|издание=Int J Digit Libr
|год=2017
|выпуск=18
|страницы=191—205
|doi=10.1007/s00799-016-0171-9
|язык=en
|ref=Costa}}
* {{статья
|автор=Dooley J.M., Farrell K., Kim T., Venlet J.
|заглавие=Developing Web Archiving Metadata Best Practices to Meet User Needs
|издание=Journal of Western Archives
|том=8
|выпуск=2
|год=2017
|язык=en
|страниц=15
|ref=Dooley}}
* {{статья
|автор=Hakala J.
|заглавие=The NEWLIB harvester
|издание=Zeitschrift für Bibliothekswesen und Bibliographie
|том=48
|выпуск=3
|страницы=211—216
|год=2001
|язык=en
|ref=Hakala}}
* {{статья
|автор=Giaretta D.
|заглавие=Avoiding a Digital Dark Age for data: why publishers shoudl care about digital preservation
|издание=Learned Publishing
|год=2011
|страницы=1—18
|язык=en
|ref=Giaretta}}
* {{книга
|автор=Masanes J.
|заглавие=Web Archiving
|издание=Springer
|год=1998
|isbn=3-540-23338-5
|страницы=1—234
|язык=en
|ref=Masanes}}
* {{статья
|автор=Mohr G., Stack M., Ranitovic I., Avery D., Kimpton M.
|заглавие=An Introduction to Heritrix. An open source archival quality web crawler
|издание=4th International Web Archiving Workshop
|год=2004
|страницы=1—15
|ref=Mohr}}
* {{статья
|автор=Niu J.
|заглавие=An Overview of Web Archiving
|издание=School of Information Faculty Publications
|год=2012
|язык=en
|страницы=1—13
|doi=10.1045/march2012‐niu1
|ref=Niu}}
* {{статья
|автор=Ogden J., Maemura E.
|заглавие=‘Go fish’: Conceptualising the challenges of engaging national web archives for digital research
|издание=International Journal of Digital Humanities
|страницы=43—63
|выпуск=2
|doi=10.1007/s42803-021-00032-5
|язык=en
|ref=Ogden}}
* {{статья
|автор=Olson J.
|заглавие=Chapter 14 - The Archive Data Store
|издание=Database Archive
|год=2009
|страницы=181—196
|язык=en
|doi=10.1016/B978-0-12-374720-4.00014-5
|ref=Olson}}
* {{статья
|автор= Panos P.
|заглавие=The Internet Archive: An End to the Digital Dark Age
|ссылка= https://archive.org/details/sim_journal-of-social-work-education_spring-summer-2003_39_2/page/343
|издание=Journal of Social Work Education
|год=2003
|том=39
|выпуск=2
|страницы=343—347
|doi=10.1080/10437797.2003.10779139
|язык=en
|ref=Panos}}
* {{статья
|автор=Patel K., Phillips M., Caragea C., Fox N.
|заглавие=Identifying Documents In-Scope of a Collection from Web Archives
|издание=arXiv
|год=2020
|язык=en
|ссылка=https://arxiv.org/pdf/2009.00611.pdf
|ref=Patel}}
* {{книга
|автор= Pennock M.
|заглавие=Web-Archiving
|издание=DPC Technology Watch Report 13-01 March 2013
|год=2013
|язык=en
|doi=10.7207/twr13-01
|ref=Pennock}}
* {{статья
|автор=Perkel, J.
|заглавие=The trouble with reference rot.
|издание=Nature
|страницы=111—112
|выпуск=521
|год=2015
|doi=10.1038/521111a
|язык=en
|ref=Perkel}}
* {{статья
|автор=Pretoro E., Geeraert F., Soyez S.
|заглавие=Behind the scenes of web archiving metadata of harvested websites
|издание=Trust and Understanding: the value of metadata in a digitally joined-up world
|год=2013
|страницы=63—74
|язык=en
|ref=Pretoro}}
* {{статья
|автор=Rhodes S.
|заглавие=Breaking Down Link Rot: The Chesapeake Project Legal Information Archive's Examination of URL Stability
|издание=Law Library Journal
|том=102
|выпуск=4
|год=2010
|страницы=581—597
|язык=en
|ref=Rhodes}}
* {{статья
|автор= Rockwell G., Tchoh B.
|заглавие=Archiving Database Driven Websites for Future Digital Archaeologists: The Archiving of TAPoR
|издание=CSDH-SCHN 2020
|год=2020
|doi=10.17613/v412-8896
|язык=en
|ссылка=https://hcommons.org/deposits/item/hc:30169/
|ref=Rockwell}})
* {{статья
|автор=Rogers R.
|заглавие=Periodizing Web Archiving: Biographical, Event-Based, National and Autobiographical Traditions
|издание=The SAGE Handbook of Web History
|год=2019
|страницы=42—57
|язык=en
|ref=Rogers}}
* {{статья
|автор= Rumianek M.
|заглавие=Archiving and Recovering Database-driven Websites
|издание=D-Lib Magazine
|том=19
|выпуск=1/2
|год=2013
|ссылка=https://www.dlib.org/dlib/january13/rumianek/01rumianek.html
|doi=10.1045/january2013-rumianek
|язык=en
|ref=Rumianek}}
* {{статья
|автор=Slania H.
|заглавие=Online Art Ephemera: Web Archiving at the National Museum of Women in the Arts
|издание=Art Documentation: Journal of the Art Libraries Society of North America
|год=2013
|том=32
|выпуск=1
|страницы=112—126
|язык=en
|ref=Slania}}
* {{статья
|автор=Toyoda M., Kitsuregawa M.
|заглвие=The History of Web Archiving
|издание=Invited Paper
|doi=10.1109/JPROC.2012.2189920
|год=2012
|язык=en
|ref=Toyoda}}
* {{статья
|автор=Eysenbach G., Trudel M.
|заглавие=Going, Going, Still There: Using the WebCite Service to Permanently Archive Cited Web Pages
|издание=J Med Internet Resources
|год=2005
|doi=10.2196/jmir.7.5.e60
|ref=Trudel}}
* {{статья
|автор=Zittrain J., Bowers J., Stanton C.
|заглавие=The Paper of Record Meets an Ephemeral Web: An Examination of Linkrot and Content Drift within The New York Times
|издание=Library Innovation Lab
|год=2021
|ссылка=https://dash.harvard.edu/handle/1/37367405
|язык=en
|ref=Bowers}}
* {{статья
|автор=Webb C.
|заглавие=Because It Belongs to All of Us: National Arrangements for Digital Preservation in Australian Libraries
|издание=Australian Academic & Research Libraries
|год=2000
|страницы=154—172
|язык=en
|doi=10.1080/00048623.2000.10755132
|ref=Webb}}
* {{статья
|автор=Vlassenroot E., Chambers S., Mechant P.
|заглавие=Web archives as a data resource for digital scholars
|издание=International Journal of Digital Humanities
|год=2019
|том=1
|выпуск=85
|страницы=85—111
|язык=en
|doi=10.1007/s42803-019-00007-7
|ref=Chambers}}
* {{статья
|автор=Vlassenroot E.,Chambers S., Lieber S., Michel A., Geeraert F., Pranger J., Birkholz J.
|заглавие=Web-archiving and social media: an exploratory analysis
|год=2021
|издание=International Journal of Digital Humanities
|том=2
|страницы=107—128
|язык=en
|ref=Michel}}
* {{статья
|автор=White J.
|заглавие=Link Rot, Reference Rot, and Link Resolves
|издание=New Top Technologies Every Librarian Needs to Know
|страницы=29—43
|год=2019
|язык=en
|ref=White}}
* {{статья
|автор=Балацкая Н.М., Мартиросова М. Б.
|заглавие=Веб-архивирование как задача национальной и краеведческой библиографии
|издание=Library World
|год=2021
|страницы=12—16
|язык=ru
|ref=Балацкая}}
* {{статья
|автор=Поврозник Г.Г.
|заглавие=Веб-архивы в реконструкции истории виртуальных музеев: потенциал и ограничения
|издание=Вестник Пермского Университета
|выпуск=4
|том=51
|язык=ru
|год=2020
|страницы=95—102
|ref=Поврозник}}
* {{статья
|автор=Редькина Н.С.
|заглавие=Мировые тенденции развития библиотек. Оптимизм vs пессимизм (по материалам зарубежной литературы)
|год=2019
|издание=Библиосфера
|выпуск=1
|страницы=49—58
|язык=ru
|ref=Редькина}}
{{refend|2}}


[[Категория:Электронные архивы]]
[[Категория:Электронные архивы]]

Версия от 18:48, 28 декабря 2021

Архиви́рование веб-сайтов (веб-архиви́рование, англ. web archiving) — процесс сбора и «дублирования» веб-страниц и целых сайтов с целью сохранения информации и доступа к ней в будущем, если источник окажется недоступен. Предпосылками для развития веб-архивирования стали проблемы вымирания ссылок и потенциальное наступление цифрового тёмного века. В 1996 году был создан «Архив Интернета» — первая некоммерческая организация, поставившая перед собой цель создать «снимки» всех страниц в интернете. В 2001 году «Архив» запустил сервис по архивированию сайтов Wayback Machine, через который на 2021-й было сохранено более 600 млрд веб-страниц.

С начала 2000-х годов практики сохранения веб-сайтов активно внедряют во многих странах, в том числе и на государственном уровне. При этом действуют площадки по разработке стандартов и общих практик в сфере веб-архивирования, включая Международный семинар архивирования Интернета (IWAW) (с 2001-го) и Международный консорциум сохранения интернета[англ.] (с 2003-го).

Чаще всего информацию со статических сайтов собирают с помощью поисковых роботов (например, Heritrix[англ.], Webrecorder, HTTrack), которые отправляют HTTP-запросы на веб-сервера и «захватывают» передаваемый контент и все гиперссылки из просканированных веб-страниц. Напротив, скрипты, шаблоны и контент динамических сайтов хранится на веб-серверах как отдельные ресурсы, поэтому архивировать такие порталы гораздо сложнее. Процесс проходит в два основных этапа — сохранение файловых данных из структуры каталогов веб-сайта и последующее архивирование информации из базы данных.

Определение

Термины веб-архивирование и веб-сохранение (англ. web preservation) часто используют как взаимозаменяемые, однако между ними существует важное различие: первый определяет весь процесс сохранения интернет-ресурса, а второй — только один из этапов[1]. Международный Консорциум Сохранения Интернета[англ.] (IIPC) определяет веб-архивирование как:

[...] процесс сбора частей всемирной паутины, сохранение коллекций в архивном формате и последующее обслуживание архивов с целью предоставления к ним доступа и использования.

Предпосылки

Компьютерный терминал с лазерным диском, содержащим информацию проекта BBC Domesday Project 1986 года

С начала 1990-х годов создание, хранение и распространение информации происходит в основном в цифровой среде. Уже к середине 1990-х годов начали устаревать ранее популярные носители информации, такие как магнитные ленты, дискеты, zip-накопители и компакт-диски, а доступ к старым файловым форматам затруднялся[2][3]. Стали исчезать многие крупные базы данных, которые не были скопированы на другие носители или продублированы на бумаге[4]. Так, все данные крупномасштабного проекта BBC Domesday Project, проведённого в 1980-е годы при участии более миллиона человек, были записаны на несколько дисков, которые к началу 2000-х годов были либо сломаны, либо потеряны[5][6].

Повсеместная утеря данных привела к тому, что отдельные исследователи начали обсуждать потенциальное наступление «цифрового тёмного века» (англ. digital dark age) — периода, характеризуемого практически полным отсутствием письменных свидетельств[7][8]. Некоторые исследователи называют XXI век «информационной чёрной дырой» из опасения, что программное обеспечение и компьютеры будущего не смогут воспроизвести созданные ранее данные[9]. В 2003 году ЮНЕСКО выпустила «Хартию о сохранении цифрового наследия»[10], определяющую важность резервации цифровых данных, потеря которых может привести к «обеднению» человеческого наследия[11][12]. В 2015 году с заявлением о том, что человечество движется к «цифровому тёмному веку», выступил американский учёный и вице-президент Google Винтон Серф[13][14][15][16].

Другой предпосылкой для развития веб-архивирования является вымирание ссылок — ситуация, когда страницы становятся недоступны по прежним URL или изменяются их содержание[17][18][19]. Проведённый португальскими исследователями в 2017 году анализ показал, что около 80 % интернет-страниц недоступны в исходном виде уже спустя год после публикации, при этом 13 % ссылок в научных статьях исчезали в среднем через 27 месяцев[11]. В 2021 году учёные юридического факультета Гарвардского университета вместе с журналистами The New York Times (NYT) проанализировали жизнеспособность ссылок в более чем 550 тысячах выпущенных NYT онлайн-публикациях в период за 2000—2017 годы — около четверти используемых URL-адресов «вымерли»[20][21][22][23][24]. Средняя продолжительность жизни веб-страницы составляет 44-100 дней, а на новостных сайтах и в социальных сетях информация может исчезать ещё быстрее[25][26].

Информация в интернете может исчезать и по другим причинам. Так, в 2015 году Государственный департамент США и Агентство США по международному развитию инициировали удаление материалов о войне в Афганистане с целью уберечь сотрудничавших с американскими властями людей от преследования талибами[27]. Другой пример — выдвинутые в декабре 2021 года требования Роскомнадзора удалить из ряда российских СМИ материалы о расследованиях издания «Проект», ранее признанного нежелательной организацией[28][29].

Развитие

Начиная с 1980-х годов отдельные архивы и библиотеки начали сохранять электронные ресурсы с целью задокументировать хронику актуальных событий. Однако отправной точкой веб-архивирования считается создание в 1996 году «Архива Интернета» — некоммерческой организации, поставившей амбициозную цель сохранить все веб-страницы всего интернета, которых в тот момент было относительно немного[30][1]. В конце 1990-х — начале 2000-х годов правительства многих развитых стран стали внедрять практики веб-архивирования, возложив ответственность за их ведение на национальные библиотеки, обладающие необходимым опытом и инструментами для архивации[31][11][12]. К 2000 году национальные веб-архивы появились во многих странах, включая Великобританию, Новую Зеландию, США и Чехию[32][33][19].

С тех пор количество проектов по веб-архивированию растёт с каждым годом[11]. В 2011 году в мире действовало 42 программы, большинство из которых занимались сбором региональных веб-источников[12]. Исследование 2020 года показало экспоненциальный рост числа учреждений, имеющих собственные репозитории, работа которых поддерживается благодаря нанятым специалистам и специализированному оборудованию. Большинство таких репозиториев пополняется по принципу самоархивирования — авторы самостоятельно размещают там свои материалы[34]. К 2019 году веб-архивы на национальном уровне были внедрены практически во всех странах Европейского союза, чаще всего — в рамках работы национальных библиотек[32][35].

Собираемая информация

Веб-сканер призван в первую очередь сохранить текстовое наполнение сайта, но, в зависимости от конфигурации, сканер может сохранять html-разметку, таблицы стилей, динамические скрипты, изображения и видео.

Помимо содержания к архиву записываются метаданные о собранных ресурсах. MIME-типы, длина содержания, время и дата архивирования, доменное имя и адрес страницы, и т. п. Эти данные используются для навигации, а также полезны для установления подлинности и происхождения.

Методы сбора

Существует несколько способов архивирования интернета, ниже описана часть из них.

Удалённый сбор

Метод веб-архивирования отдельных сайтов, автоматизирующий сбор веб-страниц.

Примеры веб-сканеров для персональных компьютеров:

Онлайн-сервисы веб-сканеров:

Метод веб-паука

Метод веб-архивирования, которым пользуются поисковые системы при индексации сайтов. Суть способа в том, что паук сканирует документ на предмет гиперссылок и добавляет каждую в очередь, архивирует сайт и переходит по следующей ссылке в очереди.

Архивирование баз данных

Метод веб-архивирования, который основан на архивированию основного содержания сайта из базы данных.

Таким образом работают системы DeepArc и Xinq, разработанные Национальной библиотекой Франции и Национальной библиотекой Австралии, соответственно. Первая программа позволяет, используя реляционную базу данных, отображать информацию в виде XML-схемы; вторая программа позволяет запомнить оригинальное оформление сайта, соответственно создавая точную копию.

Архивирование транзакциями

Метод архивирования, который сохраняет данные, пересылаемые между веб-сервером и клиентом. Используется, как правило, для доказательств содержания, которое было предоставлено на самом деле в определённую дату. Такое программное обеспечение может потребоваться организациям, которые нуждаются в документировании информации такого типа.

Такое ПО, как правило, просто перехватывает все HTTP-запросы и ответы, фильтруя дубликаты ответов.

Проблемы архивирования

Сканеры

Для веб-архивов, которые полагаются на веб-сканеры, имеются следующие проблемы:

  • Сайт может запретить для просмотра часть сайта как для веб-сканера, так и для пользователей.
  • Часть сайта может быть скрыта в deep Web.
  • Ловушки для сборщиков (Crawler traps), например, генерируемые календари и телефонные списки, могут привести к чрезвычайно большому или бесконечному количеству страниц.
  • За время обхода сайта уже обойдённые страницы могут измениться.

Однако, технологии сбора способны выдавать в результате страницы с полностью работоспособными ссылками.

Общие ограничения

Иногда администратор сайта настраивает сервер так, что тот выдает нормальные документы лишь пользователям обычных браузеров, но генерирует иные данные для ботов, архиваторов, пауков и т. п. автоматических программ. Это делается с целью обмана поисковых систем или же для увеличения пропускной способности канала, чтобы веб-сервер выдавал пригодный для просмотра материал для устройства и не скачивал ничего лишнего.

Веб-архив сталкивается и с юридическими проблемами. Сохранённый в нём документ может оказаться объектом интеллектуальной собственности, и правообладатель может потребовать удалить его. В других случаях веб-архив может подвергнуться преследованию со стороны какого-либо государства. Правовой основой (поводом) такого преследования обычно выступает законодательство об охране приватности либо о запрете распространения информации. Если архив находится в другой стране, юридическая процедура, ведущая к блокировке сайта, может пройти без ведома и участия владельца ресурса, и он теряет возможность защищаться и опротестовывать решение (если такая возможность предусмотрена).

Аспекты архивирования

Веб-архивирование, как и любой другой вид деятельности, имеет юридические аспекты, которые необходимо учитывать в работе:

  • Сертификация в надёжности и целостности содержания веб-архива.
  • Сбор проверяемых веб-активов.
  • Предоставление поиска и извлечения из массива данных.
  • Сопоставимость содержания коллекции

Ниже представлен набор инструментов, который использует Консорциум по архивированию интернета

  • Heretrix — архивация.
  • NutchWAX — поиск коллекции.
  • Открытый исходный код «Wayback Machine» — поиск и навигация.
  • Web Curator Tool — выбор и управление.

Другие инструменты с открытым исходным кодом для манипуляций над веб-архивами:

  • WARC-инструменты — для программного создания, чтения, анализа и управления веб-архивами.

Просто бесплатное ПО:

  • Инструменты поиска Google — для полнотекстового поиска.
  • WSDK — набор утилит, Erlang-модулей для создания WARC-архива.

Компании, архивирующие интернет

Архив Интернета

В 1996 году была основана некоммерческая организация «Internet Archive». Архив собирает копии веб-страниц, графические материалы, видео-, аудиозаписи и программное обеспечение. Архив обеспечивает долгосрочное архивирование собранного материала и бесплатный доступ к своим базам данных для широкой публики. Размер архива на 2019 год — более 45 петабайт; еженедельно добавляется около 20 терабайт[36]. На начало 2009 года он содержал 85 миллиардов веб-страниц.[37], в мае 2014 года — 400 миллиардов[38]. Сервер Архива расположен в Сан-Франциско, зеркала — в Новой Александрийской библиотеке и Амстердаме. С 2007 года Архив имеет юридический статус библиотеки. Основной веб-сервис архива — The Wayback Machine. Содержание веб-страниц фиксируется с временны́м промежутком c помощью бота. Таким образом, можно посмотреть, как выглядела та или иная страница раньше, даже если она больше не существует по старому адресу.

В июне 2015 года сайт был заблокирован на территории России по решению Генпрокуратуры РФ за архивы страниц, признанных содержащими экстремистскую информацию[39], позднее был исключён из реестра.

WebCite

«WebCite» — интернет-сервис, который выполняет архивирование веб-страниц по запросу. Впоследствии на заархивированную страницу можно сослаться через url. Пользователи имеют возможность получить архивную страницу в любой момент и без ограничений, и при этом неважен статус и состояние оригинальной веб-страницы, с которой была сделана архивная копия. В отличие от Архива Интернета, WebCite не использует веб-краулеров для автоматической архивации всех подряд веб-страниц. WebCite архивирует страницы только по прямому запросу пользователя. WebCite архивирует весь контент на странице — HTML, PDF, таблицы стилей, JavaScript и изображения. WebCite также архивирует метаданные о архивируемых ресурсах, такие как время доступа, MIME-тип и длину контента. Эти метаданные полезны для установления аутентичности и происхождения архивированных данных. Пилотный выпуск сервиса был выпущен в 1998 году, возрождён в 2003.

По состоянию на 2013 год проект испытывает финансовые трудности и проводит сбор средств, чтобы избежать вынужденного закрытия.

Peeep.us

Сервис peeep.us позволяет сохранить копию страницы по запросу пользования, в том числе и из авторизованной зоны, которая потом доступна по сокращённому URL. Реализован на Google App Engine.

Сервис peeep.us, в отличие от ряда других аналогичных сервисов, получает данные на клиентской стороне — то есть, не обращается напрямую к сайту, а сохраняет то содержимое сайта, которое видно пользователю. Это может использоваться для того, чтобы можно было поделиться с другими людьми содержимым закрытого для посторонних ресурса.

Таким образом, peeep.us не подтверждает, что по указанному адресу в указанный момент времени действительно было доступно заархивированное содержимое. Он подтверждает лишь то, что у инициировавшего архивацию по указанному адресу в указанный момент времени подгружалось заархивированное содержимое[40]. Таким образом, Peeep.us нельзя использовать для доказательства того, что когда-то на сайте была какая-то информация, которую потом намеренно удалили (и вообще для каких-либо доказательств). Сервис может хранить данные «практически вечно», однако оставляет за собой право удалять контент, к которому никто не обращался в течение месяца[41].

Возможность загрузки произвольных файлов делает сервис привлекальным для хостинга вирусов, из-за чего peeep.us регулярно попадаёт в чёрные списки браузеров[42].

Archive.today

Сервис archive.today (ранее archive.is) позволяет сохранять основной HTML-текст веб-страницы, все изображения, стили, фреймы и используемые шрифты, в том числе страницы с Веб 2.0-сайтов, например с Твиттер.

Веб-гётаку

Японский сервис megalodon.jp действует с 2006 года. Следует указаниям robots.txt[источник не указан 3410 дней].

Поисковые системы

Поисковики собирают страницы интернета для выполнения своего основного предназначения, и многие из них заодно дают доступ к недавно сохранённым копиям, представляя собой поверхностный во временном смысле архив.

Офлайн-браузеры

Для частного архива можно использовать один из офлайн-браузеров, которые специально спроектированы на преимущественную работу в офлайн-режиме — создании локальных копий веб-страниц и сайтов.

Примечания

  1. 1 2 Chambers, 2019, pp. 85—111.
  2. Veronique Greenwood. The digital Dark Ages (англ.). Yale Alumni Magazine (июнь 2020). Дата обращения: 9 декабря 2021.
  3. Dan Greene. The erosion of personal ownership (англ.). Vox (21 апреля 2021). Дата обращения: 9 декабря 2021.
  4. Digital Domesday Book lasts 15 years not 1000 (англ.). The Guardian (3 марта 2002). Дата обращения: 11 декабря 2021.
  5. Veronique Greenwood. The digital Dark Ages (англ.). Yale Alumni Magazine (июнь 2020). Дата обращения: 27 сентября 2021.
  6. Lamont Wood. Fending off the digital dark ages: The archival storage issue (англ.). ComputerWorld (26 августа 2010). Дата обращения: 11 декабря 2021.
  7. Giaretta, 2011.
  8. Panos, 2003.
  9. Adam Wernick. Scientists warn we may be creating a 'digital dark age' (англ.). The World (1 января 2018). Дата обращения: 10 декабря 2021.
  10. Хартия о сохранении цифрового наследия (англ.). ООН. Дата обращения: 12 декабря 2021.
  11. 1 2 3 4 Costa, 2017, pp. 191—205.
  12. 1 2 3 Toyoda, 2012, pp. 1441—1443.
  13. To avoid a digital dark age, all stakeholders must put their heads together (англ.). The Times of India (17 сентября 2020). Дата обращения: 27 сентября 2021.
  14. Lauren Maffeo. Google's Vint Cerf on how to prevent a digital dark age (англ.). The Guardian (29 мая 2015). Дата обращения: 27 ноября 2021.
  15. Dave Smith. Father of the internet: 'If we don’t move now, we risk losing all the data we’ve created in the 21st century' (англ.). Business Insider (20 февраля 2015). Дата обращения: 28 ноября 2021.
  16. Николай Удинцев. Цитата дня: почему может начаться «цифровой Тёмный век» (англ.). Look at Me (13 февраля 2015). Дата обращения: 28 ноября 2021.
  17. Adoghe, 2013, pp. 598—603.
  18. Perkel, 2015, pp. 111—112.
  19. 1 2 Brown, 2006, pp. 1—256.
  20. Rhodes, 2010, pp. 581—597.
  21. White, 2019, pp. 29—43.
  22. Исследователи указали на проблему «вымирания» ссылок в Интернете (англ.). Вести (21 мая 2021). Дата обращения: 28 сентября 2021.
  23. Bowers, 2021.
  24. Mitchell Clark. New research shows how many important links on the web get lost to time (англ.). The Verge (21 мая 2021). Дата обращения: 10 октября 2021.
  25. Pennock, 2013.
  26. Nick Bilton. The Lifespan of a Link (англ.). The New York Times (7 сентября 2011). Дата обращения: 10 декабря 2021.
  27. Matthew Gault. The US Is Removing Records of Its War in Afghanistan From the Internet (англ.). Vice (17 июля 2015). Дата обращения: 11 декабря 2021.
  28. Роскомнадзор потребовал от СМИ удалить публикации о расследованиях "Проекта", признанного нежелательной организацией. BBC (18 декабря 2021). Дата обращения: 20 декабря 2021.
  29. Тася Елфимова. Роскомнадзор потребовал от The Village, «Медузы» и «Дождя» удалить десятки новостей по расследованиям «Проекта». The Village (18 декабря 2021). Дата обращения: 19 декабря 2021.
  30. Patel, 2020, pp. 1—10.
  31. Балацкая, 2021, с. 12—16.
  32. 1 2 Pretoro, 2019, pp. 63—67.
  33. Single Sites Web Archive - Minerva - Library of Congress Web Archive (англ.). European History Primary Sources. Дата обращения: 13 декабря 2021.
  34. Rockwell, 2020, pp. 1—17.
  35. Mark Pesce. Archiving the World Wide Web (англ.). Cosmos (29 октября 2021). Дата обращения: 11 декабря 2021.
  36. The Wayback Machine FAQ, 2014-12-01: «December 1, 2014 the Internet Archive Wayback Machine contains almost 9 petabytes of data and is currently growing at a rate of ~20 terabytes per week. This eclipses the amount of text contained in the world’s largest libraries, including the Library of Congress.»
  37. Крупнейший интернет-архив обзавелся новым дата-центром. Lenta.ru.
  38. Wayback Machine Hits 400,000,000,000! // Web Archive blog, May 9, 2014
  39. Георгий Перемитин. РБК (25 июня 2015).
  40. Алексей Козлов. Сайт дня: Peeep.us — вечная жизнь веб-страниц // ferra.ru 13.06.2012
  41. Frequently Asked Questions. peeep.us. Дата обращения: 19 августа 2017. Архивировано из оригинала 11 августа 2017 года.
  42. Google Transparency Report

Литература

  • Adoghe A., Onasoga K., Dike D., Ajayi O. Web-Archiving: techniques, challenges, and solutions (англ.). — 2013. — Vol. 5, iss. 3. — P. 598—603.
  • Alam S. Mementomap: a web archive profiling framework for efficient memento routing (англ.). — 2020.
  • Ayala B. When expectations meet reality: common misconceptions about web archives and challenges for scholars (англ.) // International Journal of Digital Humanities. — 2021. — Iss. 2. — P. 89—106.
  • Berčič B. Protection of Personal Data and Copyrighted Material on the Web: The Cases of Google and Internet Archive (англ.) // Communications Technology Law. — 2005. — Vol. 14, iss. 1. — P. 17—24. — doi:10.1080/1360083042000325283.
  • Brown A. Archiving websites a practical guide for information management professionals (англ.). — Facet publishing. — 2006. — 256 p. — ISBN 978-1-85604-553-7.
  • Brügger N., Schroeder R. Live versus archive: Comparing a web archive to a population of web pages (англ.). — 2017. — P. 45—61. — doi:10.2307/j.ctt1mtz55k.8.
  • Brügger N. Digital humanities and web archives: Possible new paths for combining datasets (англ.) // International Journal of Digital Humanities. — 2021. — Iss. 2. — P. 145—168.
  • Broussard M. Archiving Data Journalism (англ.) // Yhe Data Journalism Handbook. — 2021. — P. 274—278. — doi:10.2307/j.ctv1qr6smr.40.
  • Brunelle J., Nelson M. Evaluating the SiteStory Transactional Web Archive With the ApacheBench Tool (англ.) // ArXiv.org. — 2012.
  • Costa M., Gomes D., Silva M. The evolution of web archiving (англ.) // Int J Digit Libr. — 2017. — Iss. 18. — P. 191—205. — doi:10.1007/s00799-016-0171-9.
  • Dooley J.M., Farrell K., Kim T., Venlet J. Developing Web Archiving Metadata Best Practices to Meet User Needs (англ.) // Journal of Western Archives. — 2017. — Vol. 8, iss. 2.
  • Hakala J. The NEWLIB harvester (англ.) // Zeitschrift für Bibliothekswesen und Bibliographie. — 2001. — Vol. 48, iss. 3. — P. 211—216.
  • Giaretta D. Avoiding a Digital Dark Age for data: why publishers shoudl care about digital preservation (англ.) // Learned Publishing. — 2011. — P. 1—18.
  • Masanes J. Web Archiving (англ.). — Springer. — 1998. — P. 1—234. — ISBN 3-540-23338-5.
  • Mohr G., Stack M., Ranitovic I., Avery D., Kimpton M. An Introduction to Heritrix. An open source archival quality web crawler // 4th International Web Archiving Workshop. — 2004. — С. 1—15.
  • Niu J. An Overview of Web Archiving (англ.) // School of Information Faculty Publications. — 2012. — P. 1—13. — doi:10.1045/march2012‐niu1.
  • Ogden J., Maemura E. ‘Go fish’: Conceptualising the challenges of engaging national web archives for digital research (англ.) // International Journal of Digital Humanities. — Iss. 2. — P. 43—63. — doi:10.1007/s42803-021-00032-5.
  • Olson J. Chapter 14 - The Archive Data Store (англ.) // Database Archive. — 2009. — P. 181—196. — doi:10.1016/B978-0-12-374720-4.00014-5.
  • Panos P. The Internet Archive: An End to the Digital Dark Age (англ.) // Journal of Social Work Education. — 2003. — Vol. 39, iss. 2. — P. 343—347. — doi:10.1080/10437797.2003.10779139.
  • Patel K., Phillips M., Caragea C., Fox N. Identifying Documents In-Scope of a Collection from Web Archives (англ.) // arXiv. — 2020.
  • Pennock M. Web-Archiving (англ.). — DPC Technology Watch Report 13-01 March 2013. — 2013. — doi:10.7207/twr13-01.
  • Perkel, J. The trouble with reference rot. (англ.) // Nature. — 2015. — Iss. 521. — P. 111—112. — doi:10.1038/521111a.
  • Pretoro E., Geeraert F., Soyez S. Behind the scenes of web archiving metadata of harvested websites (англ.) // Trust and Understanding: the value of metadata in a digitally joined-up world. — 2013. — P. 63—74.
  • Rhodes S. Breaking Down Link Rot: The Chesapeake Project Legal Information Archive's Examination of URL Stability (англ.) // Law Library Journal. — 2010. — Vol. 102, iss. 4. — P. 581—597.
  • Rockwell G., Tchoh B. Archiving Database Driven Websites for Future Digital Archaeologists: The Archiving of TAPoR (англ.) // CSDH-SCHN 2020. — 2020. — doi:10.17613/v412-8896.)
  • Rogers R. Periodizing Web Archiving: Biographical, Event-Based, National and Autobiographical Traditions (англ.) // The SAGE Handbook of Web History. — 2019. — P. 42—57.
  • Rumianek M. Archiving and Recovering Database-driven Websites (англ.) // D-Lib Magazine. — 2013. — Vol. 19, iss. 1/2. — doi:10.1045/january2013-rumianek.
  • Slania H. Online Art Ephemera: Web Archiving at the National Museum of Women in the Arts (англ.) // Art Documentation: Journal of the Art Libraries Society of North America. — 2013. — Vol. 32, iss. 1. — P. 112—126.
  • Toyoda M., Kitsuregawa M. {{{заглавие}}} (англ.) // Invited Paper. — 2012. — doi:10.1109/JPROC.2012.2189920.
  • Eysenbach G., Trudel M. Going, Going, Still There: Using the WebCite Service to Permanently Archive Cited Web Pages // J Med Internet Resources. — 2005. — doi:10.2196/jmir.7.5.e60.
  • Zittrain J., Bowers J., Stanton C. The Paper of Record Meets an Ephemeral Web: An Examination of Linkrot and Content Drift within The New York Times (англ.) // Library Innovation Lab. — 2021.
  • Webb C. Because It Belongs to All of Us: National Arrangements for Digital Preservation in Australian Libraries (англ.) // Australian Academic & Research Libraries. — 2000. — P. 154—172. — doi:10.1080/00048623.2000.10755132.
  • Vlassenroot E., Chambers S., Mechant P. Web archives as a data resource for digital scholars (англ.) // International Journal of Digital Humanities. — 2019. — Vol. 1, iss. 85. — P. 85—111. — doi:10.1007/s42803-019-00007-7.
  • Vlassenroot E.,Chambers S., Lieber S., Michel A., Geeraert F., Pranger J., Birkholz J. Web-archiving and social media: an exploratory analysis (англ.) // International Journal of Digital Humanities. — 2021. — Vol. 2. — P. 107—128.
  • White J. Link Rot, Reference Rot, and Link Resolves (англ.) // New Top Technologies Every Librarian Needs to Know. — 2019. — P. 29—43.
  • Балацкая Н.М., Мартиросова М. Б. Веб-архивирование как задача национальной и краеведческой библиографии // Library World. — 2021. — С. 12—16.
  • Поврозник Г.Г. Веб-архивы в реконструкции истории виртуальных музеев: потенциал и ограничения // Вестник Пермского Университета. — 2020. — Т. 51, вып. 4. — С. 95—102.
  • Редькина Н.С. Мировые тенденции развития библиотек. Оптимизм vs пессимизм (по материалам зарубежной литературы) // Библиосфера. — 2019. — Вып. 1. — С. 49—58.