Архивирование веб-сайтов: различия между версиями
[непроверенная версия] | [непроверенная версия] |
Folcvine (обсуждение | вклад) Нет описания правки |
Folcvine (обсуждение | вклад) Нет описания правки |
||
Строка 278: | Строка 278: | ||
== Примечания == |
== Примечания == |
||
{{примечания}} |
{{примечания|2}} |
||
== Литература == |
== Литература == |
||
{{refbegin|2}} |
|||
* {{книга |заглавие=Archiving Websites: a practical guide for information management professionals |издательство=Facet Publishing |место=London |год=2006 |isbn=1-85604-553-6 |ref=Brown |язык=en |автор=Brown, A.}} |
|||
* {{статья |
|||
* {{книга |заглавие=Archiving Websites. General Considerations and Strategies |издательство=The Centre for Internet Research |место=Aarhus |год=2005 |isbn=87-990507-0-6 |ссылка=https://web.archive.org/web/20090129171453/http://www.cfi.au.dk/en/publications/cfi |дата ссылки=2009-01-29 |ref=Brügger |язык=en |автор=Brügger, N.}} {{Wayback|url=http://www.cfi.au.dk/en/publications/cfi |date=20090129171453 }} |
|||
|автор=Adoghe A., Onasoga K., Dike D., Ajayi O. |
|||
* {{статья |заглавие=Preserving the Fabric of Our Lives: A Survey of Web Preservation Initiatives |издание=Research and Advanced Technology for Digital Libraries: Proceedings of the 7th European Conference (ECDL) |страницы=461—472 |ссылка=http://www.ukoln.ac.uk/metadata/presentations/ecdl2003-day/day-paper.pdf |язык=en |тип=journal |автор=Day, M. |год=2003}} |
|||
|заглавие=Web-Archiving: techniques, challenges, and solutions |
|||
* {{статья |заглавие=Going, going, still there: using the WebCite service to permanently archive cited web pages |ссылка=http://www.jmir.org/2005/5/e60/ |издание={{Нп3|Journal of Medical Internet Research}} |том=7 |номер=5 |doi=10.2196/jmir.7.5.e60 |страницы=e60 |pmid=16403724 |pmc=1550686 |язык=en |тип=journal |автор=Eysenbach, G. and Trudel, M. |год=2005}} |
|||
|год=2013 |
|||
* {{cite conference | first = Kent | last = Fitch | title = Web site archiving — an approach to recording every materially different response produced by a website | booktitle = Ausweb 03 | url = http://ausweb.scu.edu.au/aw03/papers/fitch/ | year = 2003 | deadlink = yes | archiveurl = http://archive.wikiwix.com/cache/20110223164912/http://ausweb.scu.edu.au/aw03/papers/fitch/ | archivedate = 2011-02-23 | accessdate = 2015-01-31 }} {{Wayback|url=http://ausweb.scu.edu.au/aw03/papers/fitch/ |date=20030720111610 }} |
|||
|том=5 |
|||
* {{cite web | last = Jacoby | first = Robert | title = Archiving a Web Page | date = 2010-08-19 | url = http://www.seoq.com/archiving-a-web-page/ | archiveurl = https://web.archive.org/web/20110103095915/http://www.seoq.com/archiving-a-web-page/ | archivedate = 2011-01-03 | accessdate = 2010-10-23 }} |
|||
|выпуск=3 |
|||
* {{статья |заглавие=Archiving the World Wide Web |издание=Building a National Strategy for Preservation: Issues in Digital Media Archiving |ссылка=http://www.clir.org/pubs/reports/pub106/web.html |язык=und |автор=Lyman, P. |год=2002}} |
|||
|страницы=598—603 |
|||
* {{книга |заглавие=Web Archiving |издательство=[[Springer Science+Business Media|Springer-Verlag]] |место=Berlin |год=2006 |isbn=3-540-23338-5 |ref=Masanès |язык=und |автор=Masanès, J. (ed.)}} |
|||
|язык=en |
|||
* {{статья |заглавие=The History of Web Archiving |издание={{Нп3|Proceedings of the IEEE}} |том=100 |номер=special centennial issue |doi=10.1109/JPROC.2012.2189920 |язык=und |автор=Toyoda, M., Kitsuregawa, M. |год=2012}} |
|||
|ref=Adoghe }} |
|||
* {{статья |автор=Алексей Кутовенко |заглавие=Интернет-летописцы. Сервисы кэширования веб-ресурсов |ссылка=http://www.osp.ru/pcworld/2011/06/13009039/ |издание=[[Мир ПК]] |тип=журнал |год=2011 |номер=6 |страницы=58—61 |issn=02353520}} |
|||
* {{статья |
|||
|автор=Alam S. |
|||
== Ссылки == |
|||
|заглавие=Mementomap: a web archive profiling framework for efficient memento routing |
|||
* Нежурбеда Г. Г. [http://www.gpntb.ru/win/inter-events/crimea2002/trud/sec3/Doc19.HTML Создание архивов Интернет-документов как новая задача национальных библиотек] / IX Конференция Крым-2002 «Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества», СЕКЦИЯ 3: СЕТЕВЫЕ ТЕХНОЛОГИИ, МУЛЬТИМЕДИА И ИНТЕРНЕТ В БИБЛИОТЕКАХ |
|||
|год=2020 |
|||
* [http://www.netpreserve.org/ International Internet Preservation Consortium (IIPC)] — International consortium whose mission is to acquire, preserve, and make accessible knowledge and information from the Internet for future generations{{ref-en}} |
|||
|язык=en |
|||
* [https://web.archive.org/web/20080802201629/http://www.iwaw.net/ International Web Archiving Workshop (IWAW)] — Annual workshop that focuses on web archiving, 2001—2010{{ref-en}} |
|||
|ссылка=https://digitalcommons.odu.edu/computerscience_etds/129/ |
|||
* [http://www.nla.gov.au/padi/topics/92.html National Library of Australia, Preserving Access to Digital Information (PADI)]{{ref-en}} |
|||
|ref=Alam}} |
|||
* [http://www.loc.gov/webarchiving/ Library of Congress — Web Archiving]{{ref-en}} |
|||
* {{статья |
|||
* [http://www.ifs.tuwien.ac.at/~aola/links/WebArchiving.html Web archiving bibliography] — Список архиваторов веб-сайтов, 2004{{ref-en}} |
|||
|автор=Ayala B. |
|||
* [http://www.dlib.org/dlib/december02/masanes/12masanes.html Julien Masanès, Bibliothèque Nationale de France — Towards continuous web archiving. First Results and an Agenda for the Future] / D-Lib Magazine, December 2002, Volume 8 Number 12. ISSN 1082-9873{{ref-en}} |
|||
|заглавие=When expectations meet reality: common misconceptions about web archives and challenges for scholars |
|||
* [http://wiki.dandascalescu.com/reviews/online_services/web_page_archiving Сравнение веб-архиваторов] {{Wayback|url=http://wiki.dandascalescu.com/reviews/online_services/web_page_archiving |date=20151012114513 }}{{ref-en}} |
|||
|год=2021 |
|||
|издание=International Journal of Digital Humanities |
|||
|выпуск=2 |
|||
|страницы=89—106 |
|||
|язык=en |
|||
|ref=Ayala}} |
|||
* {{статья |
|||
|автор= Berčič B. |
|||
|заглавие=Protection of Personal Data and Copyrighted Material on the Web: The Cases of Google and Internet Archive |
|||
|издание=Communications Technology Law |
|||
|том=14 |
|||
|год=2005 |
|||
|выпуск=1 |
|||
|страницы=17—24 |
|||
|doi=10.1080/1360083042000325283 |
|||
|язык=en |
|||
|ref=Berčič |
|||
}} |
|||
* {{книга |
|||
|автор=Brown A. |
|||
|заглавие=Archiving websites a practical guide for information management professionals |
|||
|издание=Facet publishing |
|||
|год=2006 |
|||
|isbn=978-1-85604-553-7 |
|||
|страниц=256 |
|||
|язык=en |
|||
|ref=Brown}} |
|||
* {{статья |
|||
|автор=Brügger N., Schroeder R. |
|||
|заглавие=Live versus archive: Comparing a web archive to a population of web pages |
|||
|год=2017 |
|||
|страницы=45—61 |
|||
|doi=10.2307/j.ctt1mtz55k.8 |
|||
|язык=en |
|||
|ref=Brügger}} |
|||
* {{статья |
|||
|автор=Brügger N. |
|||
|заглавие=Digital humanities and web archives: Possible new paths for combining datasets |
|||
|издание=International Journal of Digital Humanities |
|||
|выпуск=2 |
|||
|страницы=145—168 |
|||
|год=2021 |
|||
|язык=en |
|||
|ref=Niels}} |
|||
* {{статья |
|||
|автор= Broussard M. |
|||
|заглавие=Archiving Data Journalism |
|||
|издание=Yhe Data Journalism Handbook |
|||
|страницы=274—278 |
|||
|год=2021 |
|||
|язык=en |
|||
|doi=10.2307/j.ctv1qr6smr.40 |
|||
|ref=Broussard}} |
|||
* {{статья |
|||
|автор=Brunelle J., Nelson M. |
|||
|заглавие=Evaluating the SiteStory Transactional Web Archive With the ApacheBench Tool |
|||
|издание=ArXiv.org |
|||
|год=2012 |
|||
|ref=Brunelle |
|||
|ссылка=https://arxiv.org/abs/1209.1811 |
|||
|язык=en}} |
|||
* {{статья |
|||
|автор=Costa M., Gomes D., Silva M. |
|||
|заглавие=The evolution of web archiving |
|||
|издание=Int J Digit Libr |
|||
|год=2017 |
|||
|выпуск=18 |
|||
|страницы=191—205 |
|||
|doi=10.1007/s00799-016-0171-9 |
|||
|язык=en |
|||
|ref=Costa}} |
|||
* {{статья |
|||
|автор=Dooley J.M., Farrell K., Kim T., Venlet J. |
|||
|заглавие=Developing Web Archiving Metadata Best Practices to Meet User Needs |
|||
|издание=Journal of Western Archives |
|||
|том=8 |
|||
|выпуск=2 |
|||
|год=2017 |
|||
|язык=en |
|||
|страниц=15 |
|||
|ref=Dooley}} |
|||
* {{статья |
|||
|автор=Hakala J. |
|||
|заглавие=The NEWLIB harvester |
|||
|издание=Zeitschrift für Bibliothekswesen und Bibliographie |
|||
|том=48 |
|||
|выпуск=3 |
|||
|страницы=211—216 |
|||
|год=2001 |
|||
|язык=en |
|||
|ref=Hakala}} |
|||
* {{статья |
|||
|автор=Giaretta D. |
|||
|заглавие=Avoiding a Digital Dark Age for data: why publishers shoudl care about digital preservation |
|||
|издание=Learned Publishing |
|||
|год=2011 |
|||
|страницы=1—18 |
|||
|язык=en |
|||
|ref=Giaretta}} |
|||
* {{книга |
|||
|автор=Masanes J. |
|||
|заглавие=Web Archiving |
|||
|издание=Springer |
|||
|год=1998 |
|||
|isbn=3-540-23338-5 |
|||
|страницы=1—234 |
|||
|язык=en |
|||
|ref=Masanes}} |
|||
* {{статья |
|||
|автор=Mohr G., Stack M., Ranitovic I., Avery D., Kimpton M. |
|||
|заглавие=An Introduction to Heritrix. An open source archival quality web crawler |
|||
|издание=4th International Web Archiving Workshop |
|||
|год=2004 |
|||
|страницы=1—15 |
|||
|ref=Mohr}} |
|||
* {{статья |
|||
|автор=Niu J. |
|||
|заглавие=An Overview of Web Archiving |
|||
|издание=School of Information Faculty Publications |
|||
|год=2012 |
|||
|язык=en |
|||
|страницы=1—13 |
|||
|doi=10.1045/march2012‐niu1 |
|||
|ref=Niu}} |
|||
* {{статья |
|||
|автор=Ogden J., Maemura E. |
|||
|заглавие=‘Go fish’: Conceptualising the challenges of engaging national web archives for digital research |
|||
|издание=International Journal of Digital Humanities |
|||
|страницы=43—63 |
|||
|выпуск=2 |
|||
|doi=10.1007/s42803-021-00032-5 |
|||
|язык=en |
|||
|ref=Ogden}} |
|||
* {{статья |
|||
|автор=Olson J. |
|||
|заглавие=Chapter 14 - The Archive Data Store |
|||
|издание=Database Archive |
|||
|год=2009 |
|||
|страницы=181—196 |
|||
|язык=en |
|||
|doi=10.1016/B978-0-12-374720-4.00014-5 |
|||
|ref=Olson}} |
|||
* {{статья |
|||
|автор= Panos P. |
|||
|заглавие=The Internet Archive: An End to the Digital Dark Age |
|||
|ссылка= https://archive.org/details/sim_journal-of-social-work-education_spring-summer-2003_39_2/page/343 |
|||
|издание=Journal of Social Work Education |
|||
|год=2003 |
|||
|том=39 |
|||
|выпуск=2 |
|||
|страницы=343—347 |
|||
|doi=10.1080/10437797.2003.10779139 |
|||
|язык=en |
|||
|ref=Panos}} |
|||
* {{статья |
|||
|автор=Patel K., Phillips M., Caragea C., Fox N. |
|||
|заглавие=Identifying Documents In-Scope of a Collection from Web Archives |
|||
|издание=arXiv |
|||
|год=2020 |
|||
|язык=en |
|||
|ссылка=https://arxiv.org/pdf/2009.00611.pdf |
|||
|ref=Patel}} |
|||
* {{книга |
|||
|автор= Pennock M. |
|||
|заглавие=Web-Archiving |
|||
|издание=DPC Technology Watch Report 13-01 March 2013 |
|||
|год=2013 |
|||
|язык=en |
|||
|doi=10.7207/twr13-01 |
|||
|ref=Pennock}} |
|||
* {{статья |
|||
|автор=Perkel, J. |
|||
|заглавие=The trouble with reference rot. |
|||
|издание=Nature |
|||
|страницы=111—112 |
|||
|выпуск=521 |
|||
|год=2015 |
|||
|doi=10.1038/521111a |
|||
|язык=en |
|||
|ref=Perkel}} |
|||
* {{статья |
|||
|автор=Pretoro E., Geeraert F., Soyez S. |
|||
|заглавие=Behind the scenes of web archiving metadata of harvested websites |
|||
|издание=Trust and Understanding: the value of metadata in a digitally joined-up world |
|||
|год=2013 |
|||
|страницы=63—74 |
|||
|язык=en |
|||
|ref=Pretoro}} |
|||
* {{статья |
|||
|автор=Rhodes S. |
|||
|заглавие=Breaking Down Link Rot: The Chesapeake Project Legal Information Archive's Examination of URL Stability |
|||
|издание=Law Library Journal |
|||
|том=102 |
|||
|выпуск=4 |
|||
|год=2010 |
|||
|страницы=581—597 |
|||
|язык=en |
|||
|ref=Rhodes}} |
|||
* {{статья |
|||
|автор= Rockwell G., Tchoh B. |
|||
|заглавие=Archiving Database Driven Websites for Future Digital Archaeologists: The Archiving of TAPoR |
|||
|издание=CSDH-SCHN 2020 |
|||
|год=2020 |
|||
|doi=10.17613/v412-8896 |
|||
|язык=en |
|||
|ссылка=https://hcommons.org/deposits/item/hc:30169/ |
|||
|ref=Rockwell}}) |
|||
* {{статья |
|||
|автор=Rogers R. |
|||
|заглавие=Periodizing Web Archiving: Biographical, Event-Based, National and Autobiographical Traditions |
|||
|издание=The SAGE Handbook of Web History |
|||
|год=2019 |
|||
|страницы=42—57 |
|||
|язык=en |
|||
|ref=Rogers}} |
|||
* {{статья |
|||
|автор= Rumianek M. |
|||
|заглавие=Archiving and Recovering Database-driven Websites |
|||
|издание=D-Lib Magazine |
|||
|том=19 |
|||
|выпуск=1/2 |
|||
|год=2013 |
|||
|ссылка=https://www.dlib.org/dlib/january13/rumianek/01rumianek.html |
|||
|doi=10.1045/january2013-rumianek |
|||
|язык=en |
|||
|ref=Rumianek}} |
|||
* {{статья |
|||
|автор=Slania H. |
|||
|заглавие=Online Art Ephemera: Web Archiving at the National Museum of Women in the Arts |
|||
|издание=Art Documentation: Journal of the Art Libraries Society of North America |
|||
|год=2013 |
|||
|том=32 |
|||
|выпуск=1 |
|||
|страницы=112—126 |
|||
|язык=en |
|||
|ref=Slania}} |
|||
* {{статья |
|||
|автор=Toyoda M., Kitsuregawa M. |
|||
|заглвие=The History of Web Archiving |
|||
|издание=Invited Paper |
|||
|doi=10.1109/JPROC.2012.2189920 |
|||
|год=2012 |
|||
|язык=en |
|||
|ref=Toyoda}} |
|||
* {{статья |
|||
|автор=Eysenbach G., Trudel M. |
|||
|заглавие=Going, Going, Still There: Using the WebCite Service to Permanently Archive Cited Web Pages |
|||
|издание=J Med Internet Resources |
|||
|год=2005 |
|||
|doi=10.2196/jmir.7.5.e60 |
|||
|ref=Trudel}} |
|||
* {{статья |
|||
|автор=Zittrain J., Bowers J., Stanton C. |
|||
|заглавие=The Paper of Record Meets an Ephemeral Web: An Examination of Linkrot and Content Drift within The New York Times |
|||
|издание=Library Innovation Lab |
|||
|год=2021 |
|||
|ссылка=https://dash.harvard.edu/handle/1/37367405 |
|||
|язык=en |
|||
|ref=Bowers}} |
|||
* {{статья |
|||
|автор=Webb C. |
|||
|заглавие=Because It Belongs to All of Us: National Arrangements for Digital Preservation in Australian Libraries |
|||
|издание=Australian Academic & Research Libraries |
|||
|год=2000 |
|||
|страницы=154—172 |
|||
|язык=en |
|||
|doi=10.1080/00048623.2000.10755132 |
|||
|ref=Webb}} |
|||
* {{статья |
|||
|автор=Vlassenroot E., Chambers S., Mechant P. |
|||
|заглавие=Web archives as a data resource for digital scholars |
|||
|издание=International Journal of Digital Humanities |
|||
|год=2019 |
|||
|том=1 |
|||
|выпуск=85 |
|||
|страницы=85—111 |
|||
|язык=en |
|||
|doi=10.1007/s42803-019-00007-7 |
|||
|ref=Chambers}} |
|||
* {{статья |
|||
|автор=Vlassenroot E.,Chambers S., Lieber S., Michel A., Geeraert F., Pranger J., Birkholz J. |
|||
|заглавие=Web-archiving and social media: an exploratory analysis |
|||
|год=2021 |
|||
|издание=International Journal of Digital Humanities |
|||
|том=2 |
|||
|страницы=107—128 |
|||
|язык=en |
|||
|ref=Michel}} |
|||
* {{статья |
|||
|автор=White J. |
|||
|заглавие=Link Rot, Reference Rot, and Link Resolves |
|||
|издание=New Top Technologies Every Librarian Needs to Know |
|||
|страницы=29—43 |
|||
|год=2019 |
|||
|язык=en |
|||
|ref=White}} |
|||
* {{статья |
|||
|автор=Балацкая Н.М., Мартиросова М. Б. |
|||
|заглавие=Веб-архивирование как задача национальной и краеведческой библиографии |
|||
|издание=Library World |
|||
|год=2021 |
|||
|страницы=12—16 |
|||
|язык=ru |
|||
|ref=Балацкая}} |
|||
* {{статья |
|||
|автор=Поврозник Г.Г. |
|||
|заглавие=Веб-архивы в реконструкции истории виртуальных музеев: потенциал и ограничения |
|||
|издание=Вестник Пермского Университета |
|||
|выпуск=4 |
|||
|том=51 |
|||
|язык=ru |
|||
|год=2020 |
|||
|страницы=95—102 |
|||
|ref=Поврозник}} |
|||
* {{статья |
|||
|автор=Редькина Н.С. |
|||
|заглавие=Мировые тенденции развития библиотек. Оптимизм vs пессимизм (по материалам зарубежной литературы) |
|||
|год=2019 |
|||
|издание=Библиосфера |
|||
|выпуск=1 |
|||
|страницы=49—58 |
|||
|язык=ru |
|||
|ref=Редькина}} |
|||
{{refend|2}} |
|||
[[Категория:Электронные архивы]] |
[[Категория:Электронные архивы]] |
Версия от 18:48, 28 декабря 2021
Эту страницу в данный момент активно редактирует участник Folcvine. |
Архиви́рование веб-сайтов (веб-архиви́рование, англ. web archiving) — процесс сбора и «дублирования» веб-страниц и целых сайтов с целью сохранения информации и доступа к ней в будущем, если источник окажется недоступен. Предпосылками для развития веб-архивирования стали проблемы вымирания ссылок и потенциальное наступление цифрового тёмного века. В 1996 году был создан «Архив Интернета» — первая некоммерческая организация, поставившая перед собой цель создать «снимки» всех страниц в интернете. В 2001 году «Архив» запустил сервис по архивированию сайтов Wayback Machine, через который на 2021-й было сохранено более 600 млрд веб-страниц.
С начала 2000-х годов практики сохранения веб-сайтов активно внедряют во многих странах, в том числе и на государственном уровне. При этом действуют площадки по разработке стандартов и общих практик в сфере веб-архивирования, включая Международный семинар архивирования Интернета (IWAW) (с 2001-го) и Международный консорциум сохранения интернета[англ.] (с 2003-го).
Чаще всего информацию со статических сайтов собирают с помощью поисковых роботов (например, Heritrix[англ.], Webrecorder, HTTrack), которые отправляют HTTP-запросы на веб-сервера и «захватывают» передаваемый контент и все гиперссылки из просканированных веб-страниц. Напротив, скрипты, шаблоны и контент динамических сайтов хранится на веб-серверах как отдельные ресурсы, поэтому архивировать такие порталы гораздо сложнее. Процесс проходит в два основных этапа — сохранение файловых данных из структуры каталогов веб-сайта и последующее архивирование информации из базы данных.
Определение
Термины веб-архивирование и веб-сохранение (англ. web preservation) часто используют как взаимозаменяемые, однако между ними существует важное различие: первый определяет весь процесс сохранения интернет-ресурса, а второй — только один из этапов[1]. Международный Консорциум Сохранения Интернета[англ.] (IIPC) определяет веб-архивирование как:
[...] процесс сбора частей всемирной паутины, сохранение коллекций в архивном формате и последующее обслуживание архивов с целью предоставления к ним доступа и использования.
Предпосылки
С начала 1990-х годов создание, хранение и распространение информации происходит в основном в цифровой среде. Уже к середине 1990-х годов начали устаревать ранее популярные носители информации, такие как магнитные ленты, дискеты, zip-накопители и компакт-диски, а доступ к старым файловым форматам затруднялся[2][3]. Стали исчезать многие крупные базы данных, которые не были скопированы на другие носители или продублированы на бумаге[4]. Так, все данные крупномасштабного проекта BBC Domesday Project, проведённого в 1980-е годы при участии более миллиона человек, были записаны на несколько дисков, которые к началу 2000-х годов были либо сломаны, либо потеряны[5][6].
Повсеместная утеря данных привела к тому, что отдельные исследователи начали обсуждать потенциальное наступление «цифрового тёмного века» (англ. digital dark age) — периода, характеризуемого практически полным отсутствием письменных свидетельств[7][8]. Некоторые исследователи называют XXI век «информационной чёрной дырой» из опасения, что программное обеспечение и компьютеры будущего не смогут воспроизвести созданные ранее данные[9]. В 2003 году ЮНЕСКО выпустила «Хартию о сохранении цифрового наследия»[10], определяющую важность резервации цифровых данных, потеря которых может привести к «обеднению» человеческого наследия[11][12]. В 2015 году с заявлением о том, что человечество движется к «цифровому тёмному веку», выступил американский учёный и вице-президент Google Винтон Серф[13][14][15][16].
Другой предпосылкой для развития веб-архивирования является вымирание ссылок — ситуация, когда страницы становятся недоступны по прежним URL или изменяются их содержание[17][18][19]. Проведённый португальскими исследователями в 2017 году анализ показал, что около 80 % интернет-страниц недоступны в исходном виде уже спустя год после публикации, при этом 13 % ссылок в научных статьях исчезали в среднем через 27 месяцев[11]. В 2021 году учёные юридического факультета Гарвардского университета вместе с журналистами The New York Times (NYT) проанализировали жизнеспособность ссылок в более чем 550 тысячах выпущенных NYT онлайн-публикациях в период за 2000—2017 годы — около четверти используемых URL-адресов «вымерли»[20][21][22][23][24]. Средняя продолжительность жизни веб-страницы составляет 44-100 дней, а на новостных сайтах и в социальных сетях информация может исчезать ещё быстрее[25][26].
Информация в интернете может исчезать и по другим причинам. Так, в 2015 году Государственный департамент США и Агентство США по международному развитию инициировали удаление материалов о войне в Афганистане с целью уберечь сотрудничавших с американскими властями людей от преследования талибами[27]. Другой пример — выдвинутые в декабре 2021 года требования Роскомнадзора удалить из ряда российских СМИ материалы о расследованиях издания «Проект», ранее признанного нежелательной организацией[28][29].
Развитие
Начиная с 1980-х годов отдельные архивы и библиотеки начали сохранять электронные ресурсы с целью задокументировать хронику актуальных событий. Однако отправной точкой веб-архивирования считается создание в 1996 году «Архива Интернета» — некоммерческой организации, поставившей амбициозную цель сохранить все веб-страницы всего интернета, которых в тот момент было относительно немного[30][1]. В конце 1990-х — начале 2000-х годов правительства многих развитых стран стали внедрять практики веб-архивирования, возложив ответственность за их ведение на национальные библиотеки, обладающие необходимым опытом и инструментами для архивации[31][11][12]. К 2000 году национальные веб-архивы появились во многих странах, включая Великобританию, Новую Зеландию, США и Чехию[32][33][19].
С тех пор количество проектов по веб-архивированию растёт с каждым годом[11]. В 2011 году в мире действовало 42 программы, большинство из которых занимались сбором региональных веб-источников[12]. Исследование 2020 года показало экспоненциальный рост числа учреждений, имеющих собственные репозитории, работа которых поддерживается благодаря нанятым специалистам и специализированному оборудованию. Большинство таких репозиториев пополняется по принципу самоархивирования — авторы самостоятельно размещают там свои материалы[34]. К 2019 году веб-архивы на национальном уровне были внедрены практически во всех странах Европейского союза, чаще всего — в рамках работы национальных библиотек[32][35].
Собираемая информация
Веб-сканер призван в первую очередь сохранить текстовое наполнение сайта, но, в зависимости от конфигурации, сканер может сохранять html-разметку, таблицы стилей, динамические скрипты, изображения и видео.
Помимо содержания к архиву записываются метаданные о собранных ресурсах. MIME-типы, длина содержания, время и дата архивирования, доменное имя и адрес страницы, и т. п. Эти данные используются для навигации, а также полезны для установления подлинности и происхождения.
Методы сбора
Существует несколько способов архивирования интернета, ниже описана часть из них.
Удалённый сбор
Метод веб-архивирования отдельных сайтов, автоматизирующий сбор веб-страниц.
Примеры веб-сканеров для персональных компьютеров:
Онлайн-сервисы веб-сканеров:
Метод веб-паука
Метод веб-архивирования, которым пользуются поисковые системы при индексации сайтов. Суть способа в том, что паук сканирует документ на предмет гиперссылок и добавляет каждую в очередь, архивирует сайт и переходит по следующей ссылке в очереди.
Архивирование баз данных
Метод веб-архивирования, который основан на архивированию основного содержания сайта из базы данных.
Таким образом работают системы DeepArc и Xinq, разработанные Национальной библиотекой Франции и Национальной библиотекой Австралии, соответственно. Первая программа позволяет, используя реляционную базу данных, отображать информацию в виде XML-схемы; вторая программа позволяет запомнить оригинальное оформление сайта, соответственно создавая точную копию.
Архивирование транзакциями
Метод архивирования, который сохраняет данные, пересылаемые между веб-сервером и клиентом. Используется, как правило, для доказательств содержания, которое было предоставлено на самом деле в определённую дату. Такое программное обеспечение может потребоваться организациям, которые нуждаются в документировании информации такого типа.
Такое ПО, как правило, просто перехватывает все HTTP-запросы и ответы, фильтруя дубликаты ответов.
Проблемы архивирования
Сканеры
Для веб-архивов, которые полагаются на веб-сканеры, имеются следующие проблемы:
- Сайт может запретить для просмотра часть сайта как для веб-сканера, так и для пользователей.
- Часть сайта может быть скрыта в deep Web.
- Ловушки для сборщиков (Crawler traps), например, генерируемые календари и телефонные списки, могут привести к чрезвычайно большому или бесконечному количеству страниц.
- За время обхода сайта уже обойдённые страницы могут измениться.
Однако, технологии сбора способны выдавать в результате страницы с полностью работоспособными ссылками.
Общие ограничения
Иногда администратор сайта настраивает сервер так, что тот выдает нормальные документы лишь пользователям обычных браузеров, но генерирует иные данные для ботов, архиваторов, пауков и т. п. автоматических программ. Это делается с целью обмана поисковых систем или же для увеличения пропускной способности канала, чтобы веб-сервер выдавал пригодный для просмотра материал для устройства и не скачивал ничего лишнего.
Веб-архив сталкивается и с юридическими проблемами. Сохранённый в нём документ может оказаться объектом интеллектуальной собственности, и правообладатель может потребовать удалить его. В других случаях веб-архив может подвергнуться преследованию со стороны какого-либо государства. Правовой основой (поводом) такого преследования обычно выступает законодательство об охране приватности либо о запрете распространения информации. Если архив находится в другой стране, юридическая процедура, ведущая к блокировке сайта, может пройти без ведома и участия владельца ресурса, и он теряет возможность защищаться и опротестовывать решение (если такая возможность предусмотрена).
Аспекты архивирования
Веб-архивирование, как и любой другой вид деятельности, имеет юридические аспекты, которые необходимо учитывать в работе:
- Сертификация в надёжности и целостности содержания веб-архива.
- Сбор проверяемых веб-активов.
- Предоставление поиска и извлечения из массива данных.
- Сопоставимость содержания коллекции
Ниже представлен набор инструментов, который использует Консорциум по архивированию интернета
- Heretrix — архивация.
- NutchWAX — поиск коллекции.
- Открытый исходный код «Wayback Machine» — поиск и навигация.
- Web Curator Tool — выбор и управление.
Другие инструменты с открытым исходным кодом для манипуляций над веб-архивами:
- WARC-инструменты — для программного создания, чтения, анализа и управления веб-архивами.
Просто бесплатное ПО:
- Инструменты поиска Google — для полнотекстового поиска.
- WSDK — набор утилит, Erlang-модулей для создания WARC-архива.
Компании, архивирующие интернет
Архив Интернета
В 1996 году была основана некоммерческая организация «Internet Archive». Архив собирает копии веб-страниц, графические материалы, видео-, аудиозаписи и программное обеспечение. Архив обеспечивает долгосрочное архивирование собранного материала и бесплатный доступ к своим базам данных для широкой публики. Размер архива на 2019 год — более 45 петабайт; еженедельно добавляется около 20 терабайт[36]. На начало 2009 года он содержал 85 миллиардов веб-страниц.[37], в мае 2014 года — 400 миллиардов[38]. Сервер Архива расположен в Сан-Франциско, зеркала — в Новой Александрийской библиотеке и Амстердаме. С 2007 года Архив имеет юридический статус библиотеки. Основной веб-сервис архива — The Wayback Machine. Содержание веб-страниц фиксируется с временны́м промежутком c помощью бота. Таким образом, можно посмотреть, как выглядела та или иная страница раньше, даже если она больше не существует по старому адресу.
В июне 2015 года сайт был заблокирован на территории России по решению Генпрокуратуры РФ за архивы страниц, признанных содержащими экстремистскую информацию[39], позднее был исключён из реестра.
WebCite
«WebCite» — интернет-сервис, который выполняет архивирование веб-страниц по запросу. Впоследствии на заархивированную страницу можно сослаться через url. Пользователи имеют возможность получить архивную страницу в любой момент и без ограничений, и при этом неважен статус и состояние оригинальной веб-страницы, с которой была сделана архивная копия. В отличие от Архива Интернета, WebCite не использует веб-краулеров для автоматической архивации всех подряд веб-страниц. WebCite архивирует страницы только по прямому запросу пользователя. WebCite архивирует весь контент на странице — HTML, PDF, таблицы стилей, JavaScript и изображения. WebCite также архивирует метаданные о архивируемых ресурсах, такие как время доступа, MIME-тип и длину контента. Эти метаданные полезны для установления аутентичности и происхождения архивированных данных. Пилотный выпуск сервиса был выпущен в 1998 году, возрождён в 2003.
По состоянию на 2013 год проект испытывает финансовые трудности и проводит сбор средств, чтобы избежать вынужденного закрытия.
Peeep.us
Сервис peeep.us позволяет сохранить копию страницы по запросу пользования, в том числе и из авторизованной зоны, которая потом доступна по сокращённому URL. Реализован на Google App Engine.
Сервис peeep.us, в отличие от ряда других аналогичных сервисов, получает данные на клиентской стороне — то есть, не обращается напрямую к сайту, а сохраняет то содержимое сайта, которое видно пользователю. Это может использоваться для того, чтобы можно было поделиться с другими людьми содержимым закрытого для посторонних ресурса.
Таким образом, peeep.us не подтверждает, что по указанному адресу в указанный момент времени действительно было доступно заархивированное содержимое. Он подтверждает лишь то, что у инициировавшего архивацию по указанному адресу в указанный момент времени подгружалось заархивированное содержимое[40]. Таким образом, Peeep.us нельзя использовать для доказательства того, что когда-то на сайте была какая-то информация, которую потом намеренно удалили (и вообще для каких-либо доказательств). Сервис может хранить данные «практически вечно», однако оставляет за собой право удалять контент, к которому никто не обращался в течение месяца[41].
Возможность загрузки произвольных файлов делает сервис привлекальным для хостинга вирусов, из-за чего peeep.us регулярно попадаёт в чёрные списки браузеров[42].
Archive.today
Сервис archive.today (ранее archive.is) позволяет сохранять основной HTML-текст веб-страницы, все изображения, стили, фреймы и используемые шрифты, в том числе страницы с Веб 2.0-сайтов, например с Твиттер.
Веб-гётаку
Японский сервис megalodon.jp действует с 2006 года. Следует указаниям robots.txt[источник не указан 3410 дней].
Поисковые системы
Поисковики собирают страницы интернета для выполнения своего основного предназначения, и многие из них заодно дают доступ к недавно сохранённым копиям, представляя собой поверхностный во временном смысле архив.
Офлайн-браузеры
Для частного архива можно использовать один из офлайн-браузеров, которые специально спроектированы на преимущественную работу в офлайн-режиме — создании локальных копий веб-страниц и сайтов.
Примечания
- ↑ 1 2 Chambers, 2019, pp. 85—111.
- ↑ Veronique Greenwood. The digital Dark Ages (англ.). Yale Alumni Magazine (июнь 2020). Дата обращения: 9 декабря 2021.
- ↑ Dan Greene. The erosion of personal ownership (англ.). Vox (21 апреля 2021). Дата обращения: 9 декабря 2021.
- ↑ Digital Domesday Book lasts 15 years not 1000 (англ.). The Guardian (3 марта 2002). Дата обращения: 11 декабря 2021.
- ↑ Veronique Greenwood. The digital Dark Ages (англ.). Yale Alumni Magazine (июнь 2020). Дата обращения: 27 сентября 2021.
- ↑ Lamont Wood. Fending off the digital dark ages: The archival storage issue (англ.). ComputerWorld (26 августа 2010). Дата обращения: 11 декабря 2021.
- ↑ Giaretta, 2011.
- ↑ Panos, 2003.
- ↑ Adam Wernick. Scientists warn we may be creating a 'digital dark age' (англ.). The World (1 января 2018). Дата обращения: 10 декабря 2021.
- ↑ Хартия о сохранении цифрового наследия (англ.). ООН. Дата обращения: 12 декабря 2021.
- ↑ 1 2 3 4 Costa, 2017, pp. 191—205.
- ↑ 1 2 3 Toyoda, 2012, pp. 1441—1443.
- ↑ To avoid a digital dark age, all stakeholders must put their heads together (англ.). The Times of India (17 сентября 2020). Дата обращения: 27 сентября 2021.
- ↑ Lauren Maffeo. Google's Vint Cerf on how to prevent a digital dark age (англ.). The Guardian (29 мая 2015). Дата обращения: 27 ноября 2021.
- ↑ Dave Smith. Father of the internet: 'If we don’t move now, we risk losing all the data we’ve created in the 21st century' (англ.). Business Insider (20 февраля 2015). Дата обращения: 28 ноября 2021.
- ↑ Николай Удинцев. Цитата дня: почему может начаться «цифровой Тёмный век» (англ.). Look at Me (13 февраля 2015). Дата обращения: 28 ноября 2021.
- ↑ Adoghe, 2013, pp. 598—603.
- ↑ Perkel, 2015, pp. 111—112.
- ↑ 1 2 Brown, 2006, pp. 1—256.
- ↑ Rhodes, 2010, pp. 581—597.
- ↑ White, 2019, pp. 29—43.
- ↑ Исследователи указали на проблему «вымирания» ссылок в Интернете (англ.). Вести (21 мая 2021). Дата обращения: 28 сентября 2021.
- ↑ Bowers, 2021.
- ↑ Mitchell Clark. New research shows how many important links on the web get lost to time (англ.). The Verge (21 мая 2021). Дата обращения: 10 октября 2021.
- ↑ Pennock, 2013.
- ↑ Nick Bilton. The Lifespan of a Link (англ.). The New York Times (7 сентября 2011). Дата обращения: 10 декабря 2021.
- ↑ Matthew Gault. The US Is Removing Records of Its War in Afghanistan From the Internet (англ.). Vice (17 июля 2015). Дата обращения: 11 декабря 2021.
- ↑ Роскомнадзор потребовал от СМИ удалить публикации о расследованиях "Проекта", признанного нежелательной организацией . BBC (18 декабря 2021). Дата обращения: 20 декабря 2021.
- ↑ Тася Елфимова. Роскомнадзор потребовал от The Village, «Медузы» и «Дождя» удалить десятки новостей по расследованиям «Проекта» . The Village (18 декабря 2021). Дата обращения: 19 декабря 2021.
- ↑ Patel, 2020, pp. 1—10.
- ↑ Балацкая, 2021, с. 12—16.
- ↑ 1 2 Pretoro, 2019, pp. 63—67.
- ↑ Single Sites Web Archive - Minerva - Library of Congress Web Archive (англ.). European History Primary Sources. Дата обращения: 13 декабря 2021.
- ↑ Rockwell, 2020, pp. 1—17.
- ↑ Mark Pesce. Archiving the World Wide Web (англ.). Cosmos (29 октября 2021). Дата обращения: 11 декабря 2021.
- ↑ The Wayback Machine FAQ, 2014-12-01: «December 1, 2014 the Internet Archive Wayback Machine contains almost 9 petabytes of data and is currently growing at a rate of ~20 terabytes per week. This eclipses the amount of text contained in the world’s largest libraries, including the Library of Congress.»
- ↑ Крупнейший интернет-архив обзавелся новым дата-центром . Lenta.ru.
- ↑ Wayback Machine Hits 400,000,000,000! // Web Archive blog, May 9, 2014
- ↑ Георгий Перемитин. РБК (25 июня 2015).
- ↑ Алексей Козлов. Сайт дня: Peeep.us — вечная жизнь веб-страниц // ferra.ru 13.06.2012
- ↑ Frequently Asked Questions . peeep.us. Дата обращения: 19 августа 2017. Архивировано из оригинала 11 августа 2017 года.
- ↑ Google Transparency Report
Литература
- Adoghe A., Onasoga K., Dike D., Ajayi O. Web-Archiving: techniques, challenges, and solutions (англ.). — 2013. — Vol. 5, iss. 3. — P. 598—603.
- Alam S. Mementomap: a web archive profiling framework for efficient memento routing (англ.). — 2020.
- Ayala B. When expectations meet reality: common misconceptions about web archives and challenges for scholars (англ.) // International Journal of Digital Humanities. — 2021. — Iss. 2. — P. 89—106.
- Berčič B. Protection of Personal Data and Copyrighted Material on the Web: The Cases of Google and Internet Archive (англ.) // Communications Technology Law. — 2005. — Vol. 14, iss. 1. — P. 17—24. — doi:10.1080/1360083042000325283.
- Brown A. Archiving websites a practical guide for information management professionals (англ.). — Facet publishing. — 2006. — 256 p. — ISBN 978-1-85604-553-7.
- Brügger N., Schroeder R. Live versus archive: Comparing a web archive to a population of web pages (англ.). — 2017. — P. 45—61. — doi:10.2307/j.ctt1mtz55k.8.
- Brügger N. Digital humanities and web archives: Possible new paths for combining datasets (англ.) // International Journal of Digital Humanities. — 2021. — Iss. 2. — P. 145—168.
- Broussard M. Archiving Data Journalism (англ.) // Yhe Data Journalism Handbook. — 2021. — P. 274—278. — doi:10.2307/j.ctv1qr6smr.40.
- Brunelle J., Nelson M. Evaluating the SiteStory Transactional Web Archive With the ApacheBench Tool (англ.) // ArXiv.org. — 2012.
- Costa M., Gomes D., Silva M. The evolution of web archiving (англ.) // Int J Digit Libr. — 2017. — Iss. 18. — P. 191—205. — doi:10.1007/s00799-016-0171-9.
- Dooley J.M., Farrell K., Kim T., Venlet J. Developing Web Archiving Metadata Best Practices to Meet User Needs (англ.) // Journal of Western Archives. — 2017. — Vol. 8, iss. 2.
- Hakala J. The NEWLIB harvester (англ.) // Zeitschrift für Bibliothekswesen und Bibliographie. — 2001. — Vol. 48, iss. 3. — P. 211—216.
- Giaretta D. Avoiding a Digital Dark Age for data: why publishers shoudl care about digital preservation (англ.) // Learned Publishing. — 2011. — P. 1—18.
- Masanes J. Web Archiving (англ.). — Springer. — 1998. — P. 1—234. — ISBN 3-540-23338-5.
- Mohr G., Stack M., Ranitovic I., Avery D., Kimpton M. An Introduction to Heritrix. An open source archival quality web crawler // 4th International Web Archiving Workshop. — 2004. — С. 1—15.
- Niu J. An Overview of Web Archiving (англ.) // School of Information Faculty Publications. — 2012. — P. 1—13. — doi:10.1045/march2012‐niu1.
- Ogden J., Maemura E. ‘Go fish’: Conceptualising the challenges of engaging national web archives for digital research (англ.) // International Journal of Digital Humanities. — Iss. 2. — P. 43—63. — doi:10.1007/s42803-021-00032-5.
- Olson J. Chapter 14 - The Archive Data Store (англ.) // Database Archive. — 2009. — P. 181—196. — doi:10.1016/B978-0-12-374720-4.00014-5.
- Panos P. The Internet Archive: An End to the Digital Dark Age (англ.) // Journal of Social Work Education. — 2003. — Vol. 39, iss. 2. — P. 343—347. — doi:10.1080/10437797.2003.10779139.
- Patel K., Phillips M., Caragea C., Fox N. Identifying Documents In-Scope of a Collection from Web Archives (англ.) // arXiv. — 2020.
- Pennock M. Web-Archiving (англ.). — DPC Technology Watch Report 13-01 March 2013. — 2013. — doi:10.7207/twr13-01.
- Perkel, J. The trouble with reference rot. (англ.) // Nature. — 2015. — Iss. 521. — P. 111—112. — doi:10.1038/521111a.
- Pretoro E., Geeraert F., Soyez S. Behind the scenes of web archiving metadata of harvested websites (англ.) // Trust and Understanding: the value of metadata in a digitally joined-up world. — 2013. — P. 63—74.
- Rhodes S. Breaking Down Link Rot: The Chesapeake Project Legal Information Archive's Examination of URL Stability (англ.) // Law Library Journal. — 2010. — Vol. 102, iss. 4. — P. 581—597.
- Rockwell G., Tchoh B. Archiving Database Driven Websites for Future Digital Archaeologists: The Archiving of TAPoR (англ.) // CSDH-SCHN 2020. — 2020. — doi:10.17613/v412-8896.)
- Rogers R. Periodizing Web Archiving: Biographical, Event-Based, National and Autobiographical Traditions (англ.) // The SAGE Handbook of Web History. — 2019. — P. 42—57.
- Rumianek M. Archiving and Recovering Database-driven Websites (англ.) // D-Lib Magazine. — 2013. — Vol. 19, iss. 1/2. — doi:10.1045/january2013-rumianek.
- Slania H. Online Art Ephemera: Web Archiving at the National Museum of Women in the Arts (англ.) // Art Documentation: Journal of the Art Libraries Society of North America. — 2013. — Vol. 32, iss. 1. — P. 112—126.
- Toyoda M., Kitsuregawa M. {{{заглавие}}} (англ.) // Invited Paper. — 2012. — doi:10.1109/JPROC.2012.2189920.
- Eysenbach G., Trudel M. Going, Going, Still There: Using the WebCite Service to Permanently Archive Cited Web Pages // J Med Internet Resources. — 2005. — doi:10.2196/jmir.7.5.e60.
- Zittrain J., Bowers J., Stanton C. The Paper of Record Meets an Ephemeral Web: An Examination of Linkrot and Content Drift within The New York Times (англ.) // Library Innovation Lab. — 2021.
- Webb C. Because It Belongs to All of Us: National Arrangements for Digital Preservation in Australian Libraries (англ.) // Australian Academic & Research Libraries. — 2000. — P. 154—172. — doi:10.1080/00048623.2000.10755132.
- Vlassenroot E., Chambers S., Mechant P. Web archives as a data resource for digital scholars (англ.) // International Journal of Digital Humanities. — 2019. — Vol. 1, iss. 85. — P. 85—111. — doi:10.1007/s42803-019-00007-7.
- Vlassenroot E.,Chambers S., Lieber S., Michel A., Geeraert F., Pranger J., Birkholz J. Web-archiving and social media: an exploratory analysis (англ.) // International Journal of Digital Humanities. — 2021. — Vol. 2. — P. 107—128.
- White J. Link Rot, Reference Rot, and Link Resolves (англ.) // New Top Technologies Every Librarian Needs to Know. — 2019. — P. 29—43.
- Балацкая Н.М., Мартиросова М. Б. Веб-архивирование как задача национальной и краеведческой библиографииС. 12—16. // Library World. — 2021. —
- Поврозник Г.Г. Веб-архивы в реконструкции истории виртуальных музеев: потенциал и ограниченияТ. 51, вып. 4. — С. 95—102. // Вестник Пермского Университета. — 2020. —
- Редькина Н.С. Мировые тенденции развития библиотек. Оптимизм vs пессимизм (по материалам зарубежной литературы)Вып. 1. — С. 49—58. // Библиосфера. — 2019. —