Электронное архивирование

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Электронное архивирование— хранение электронной информации (электронных документов) в неизменном виде.

Оперативное архивирование[править | править код]

Оперативное архивирование выполняется непосредственно ядром СУБД параллельно с обработкой SQL-запросов клиентских приложений. Эта операция инициируется с помощью соответствующего SQL-запроса, подаваемого клиентским приложением (в том числе и с удаленной сетевой станции).

С помощью SQL-запроса можно запустить процессы как полного, так и инкрементного архивирования и установить желаемый режим архивирования:

  • синхронный. В этом режиме клиентское приложение, подавшее SQL-запрос на запуск процесса архивации, перейдет в ожидание завершения процесса архивирования и получит от ядра СУБД уведомление (код возврата) о завершении процесса архивации только по его окончании. Естественно, в этом режиме необходимо обеспечивать соединение клиентского приложения с СУБД в течение всего процесса архивации;
  • асинхронный. В этом режиме клиентское приложение, подавшее SQL-запрос на запуск процесса архивации, сразу получит от ядра СУБД уведомление (код возврата) об успешном или неуспешном запуске процесса архивирования и при успешном запуске архивирование будет выполняться параллельно с работой клиентского приложения. В случае успешного старта процесс архивации работает с БД по собственному каналу. Соединение клиентского приложения с БД в течение всего времени архивации не требуется.

Создаваемый при оперативном архивировании файл архива полностью совместим с форматом архивных файлов, создаваемых при автономном архивировании, поэтому к такому файлу архива применимы все возможности, предоставляемые сервисной утилитой архивирования, в том числе восстановление БД, тестирование архива и т.п.

При оперативном архивировании сохранение БД осуществляется через определенные кванты времени и не препятствует работе остальных каналов или клиентских приложений. В СУБД ЛИНТЕР возможна одновременная работа нескольких процессов оперативного архивирования. Во время работы процесса архивации файл архива открывается в эксклюзивном режиме, т.е. модификация или удаление этого файла средствами ОС не допускается.

Долговременное (долгосрочное) архивирование[править | править код]

Долгосрочное архивирование было актуальным еще в Древнем Египте. Причем примененная стратегия оказалась настолько эффективной, что выдолбленную в камне информацию люди в состоянии разобрать даже две тысячи лет спустя. В наше время общество столкнулось с тем, что сохраненные сведения вряд ли удастся использовать уже через несколько лет. Как бы то ни было, ширящаяся цифровизация ведет к сохранению все большего объема данных, и выбор стратегии архивирования сегодня важен как никогда

.[править | править код]

Компании должны быть заинтересованы в применении успешных стратегий архивирования, если они хотят обеспечить доступность своих документов и возможность прочитать их через 10, 15 и даже 50 лет.

По примеру предприятий и государственных учреждений, которые хранят и архивируют важные для работы материалы, библиотеки и музеи тоже начали создавать электронные копии своих культурных богатств с целью их долговременного хранения и защиты от катастроф, подобных пожару в Веймарской библиотеке герцогини Анны-Амалии, случившемуся в 2004 г. Постепенно появляется осознание «летучести» цифровых данных и размера опасности стать «обществом без прошлого», поэтому в долгосрочном архивировании особенно заинтересованы библиотеки. В Библиотеке герцогини Анны-Амалии сканируют свои фонды и предлагают их в различной форме для использования в частных и научных целях, а также в качестве оригиналов для переизданий. Цель проекта заключается в том, чтобы сделать крупнейшие произведения доступными пользователям Internet и одновременно оградить ценные оригиналы от чрезмерного использования (см. Рисунок 1).

Долгосрочное архивирование цифрового контента само по себе является наукой. Информацию, хранимую в электронной форме, нельзя отобразить без специального устройства. В отличие от отпечатанных материалов, которые подвержены лишь разрушению с течением времени, в случае цифровых документов необходимо учитывать и развитие технологий.

Появляющиеся приложения или очередные версии программ, а также новации в области носителей информации требуют постоянного внимания. Следовательно, необходима выработка стратегии миграции или хотя бы эмуляции, а также использование открытых форматов. Разработчики приложений и инфраструктуры хранения должны предпринимать совместные усилия по созданию унифицированных технических средств, интерфейсов, методов и способов предоставления данных с целью удовлетворения потребности в долгосрочном архивировании цифрового контента.

НЕОБХОДИМО УПРАВЛЕНИЕ ДОКУМЕНТАМИ[править | править код]

Долговременное хранение цифрового контента — крайне динамичный процесс, который начинается с правильного учета битов и байтов и включает в себя их структуризацию, хранение и распределение — вплоть до архивирования. Поэтому без специализированных систем управления документами, т. е. без систем управления корпоративным контентом (Enterprise Content Management, ЕСМ), не обойтись.

В соответствии с требованиями сегодняшнего дня необходимо консолидировать разнообразные носители информации, имеющиеся на предприятиях, и масштабировать их вместе с развитием перспективных технологий. Открытые системы и стандартные форматы — лишь одно из условий для обеспечения возможности чтения важных сведений на протяжении длительного периода времени. При этом следует, однако, обеспечить, чтобы данные можно было найти и в комплексных средах. Кроме того, следует управлять версиями программ и разными поколениями операционных систем.

Но если нахождение подходящего программного решения крайне редко вызывает затруднения, то при выборе аппаратного обеспечения, в особенности для библиотек, приходится сталкиваться со значительными трудностями. Ограниченный срок службы современных носителей вынуждает лиц, принимающих решения, прибегать к сложным методам, результаты применения которых они и сами ставят под сомнение. Доктор Михаэль Кнохе, директор Библиотеки герцогини Анны-Амалии, рассказывает о том, как организовано архивирование в его учреждении: «Мы переснимаем оцифрованные данные вместе с метаданными на микропленку, обладающую длительным сроком хранения, так что в будущем они смогут быть прочитаны и восстановлены вне зависимости от вида аппаратного обеспечения». В соответствии с Законом о гражданской обороне эти микрофильмы хранятся в Центральном архиве ФРГ в Шварцвальде.

Однако такой метод применим лишь к статичным документам, например книгам. В случае интерактивных приложений, к примеру страниц Web с подключенными базами данных, он помочь не в силах. Поэтому производителям следует разработать универсальные платформы хранилищ данных, которые бы, с одной стороны, обеспечили целостность информации на долгие годы, а с другой — простую миграцию данных на новые технологии хранения.

ВОПРОС ФОРМАТА[править | править код]

Не меньшее значение при архивировании информации имеет вопрос формата, в котором должны храниться оцифрованные данные. В этом случае решающую роль играет независимость от производителя. Лишь таким образом удастся избежать ситуации, когда в какой-то момент документ уже невозможно прочитать из-за того, что производитель перестал поддерживать какой-либо формат.

Процесс архивирования начинается с создания неструктурированных документов самим автором либо путем сканирования текстов, обработки изображений или бланков (см. Рисунок 2). Конечно, имеет смысл сохранять и архивировать все документы в стандартных форматах — XML, TIFF (компрессия CCITT Group 4), Adobe PDF или JPEG. Одновременно следует проверить на многообразие форматов ранее созданные информационные массивы. Если документы и без того должны быть подвергнуты архивации, то нужно как можно раньше произвести своевременное конвертирование в сертифицированный ISO стандарт архивирования PDF/A, ведущий происхождение от широко известного формата PDF компании Adobe Systems.

ИГОЛКА В СТОГЕ СЕНА[править | править код]

Неважно, на предприятии или в библиотечном архиве, весь контент, который ранее был переведен в цифровую форму, необходимо правильно упорядочить, чтобы обеспечить простой поиск информации. Обработанные документы надо классифицировать и распределить по категориям на основе метаданных. Такие сведения, как тип документа, автор, права доступа или длительность хранения, помогают структурировать поток данных и позволяют найти требуемые материалы с помощью соответствующих приложений.

На крупных предприятиях, где ежедневно обрабатываются большие объемы информации, рассматриваемый этап работы может стать затруднительным. Огромную помощь в подобной ситуации способны оказать программные модули, автоматизирующие классификацию данных. В дальнейшем результаты классификации используются при распределении по категориям или рассматриваются как ключевые слова, входящие в метаданные контента.

Вместе с тем, многие пользователи испытывают затруднения с формированием непротиворечивых метаданных при генерации контента. Это в значительной степени ограничивает возможности дальнейшего поиска и программной обработки информации. При поступлении данных соответствующая программа автоматически предлагает метаданные, которые пользователь может принять или отклонить.

МАГНИТНЫЕ ЛЕНТЫ ВСЕ ЕЩЕ ПОПУЛЯРНЫ[править | править код]

Количество носителей должно быть как можно меньшим, чтобы упростить их администрирование и сделать системы пригодными для будущих потребностей. Магнитные ленты все еще пользуются популярностью, а с введением технологии адресации хранения по содержимому (Content Addressed Storage, CAS) на рынок архивирования стали выходить и производители жестких дисков.

Дисковые хранилища на базе технологии CAS позволяют архивировать информацию, предназначенную для длительного хранения и не подлежащую изменениям. В сочетании с системами управления контентом такой способ хранения обеспечивает быстрый интерактивный доступ к архивным данным. Однако по сравнению с классическими ленточными массивами архивы CAS потребляют гораздо больше электроэнергии и из-за своего программного интеллекта требуют более тщательного обслуживания. Разумеется, благодаря таким преимуществам, как защита архивных данных при помощи массивов RAID, автоматическая миграция на новые поколения аппаратного обеспечения, программируемое удаление информации, интегрированное управление правами, а также более высокая производительность, архивы CAS быстро вытесняют ленточные библиотеки. К тому же пользователям, которые располагают незначительным свободным пространством или вообще вынуждены его арендовать, при размещении дисковых архивов придется потратиться самое большее на два 19-дюймовых корпуса, которые устанавливаются в вычислительном центре.

НИЧТО НЕ ЯВЛЯЕТСЯ СТОЛЬ ПОСТОЯННЫМ, КАК ПЕРЕМЕНЫ[править | править код]

Кто собирается долго пользоваться сохраненными документами, должен поддерживать свою систему управления информацией на современном уровне. В противном случае потеря цифровой памяти неизбежна: поиск данных будет слишком продолжительным, или их вообще не удастся отыскать по причине недостаточной индексации.

ЕГИПЕТСКИЙ МЕТОД[править | править код]

Упомянутый в самом начале египетский метод долгосрочного архивирования, к сожалению, не применим для хранения энергозависимой цифровой информации. Поэтому предприятиям следует обращать особое внимание на масштабируемость форматов, приложений и систем, поскольку с регулярным перевооружением и постоянной модернизацией имеющихся носителей и инфраструктуры ни один отдел ИТ не справится собственными силами.

Мика Корто — менеджер по маркетингу компании ЕМС Deutsch

Технологии записи электронных данных[править | править код]

Наиболее распространёнными носителями информации являются ставшими популярными оптические цифровые носители использующие принцип WORM — единожды записав — прочёл многократно.

WORM-носители[править | править код]

  • CD-WORM — компакт-диски ёмкостью 650 мегабайт, стандартизированы ISO 9660
  • DVD-WORM — ёмкостью от 4-х до 12-ти гигабайт
  • 5¼" WORM — 5,25-дюймовый оптический лазерный диск, разработанный специально под нужды электронных архивов, ёмкостью до 500 Гб диск защищён от внешнего воздействия пластиковым картриджем, управление дисками осуществляется с помощью автомата Jukebox, существует несовместимость с ранними моделями дисков.
  • WORM-Tapes — магнитная лента заключенная в кассеты, бобины и специальные дисководы, распространены в вычислительных центрах, где уже существует инфраструктура автоматического управления данными носителями.

Иные системы хранения[править | править код]

  • CAS — контент-адресная память — система жёстких дисков, предотвращающая утрату информации при перезаписи, путём кодирования и специальной адресации.

Элементы обеспечения сохранности данных[править | править код]

Стандартизация[править | править код]

Важным фактором сохранности информации является соблюдение стандартов при записи форматов, метаданных, архитектуры. В качестве примеров можно привести использование стандартизированных форматов XML, TIFF, PDF/A. В архитектуре архива использование стандарта OAIS Open Archival Information System — открытых архивных информационных систем (ISO 14721)

Миграции[править | править код]

Эмуляция[править | править код]

Инкапсуляция[править | править код]

Конвертация[править | править код]

См. также[править | править код]