Файловая сеть

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Файловая сеть (File Area Network) определяет способ совместного использования файлов через сеть, например, хранилищ данных, подключенных к файловому серверу или сетевому хранилищу (NAS).

Основы[править | править вики-текст]

Технология хранения данных за прошедшее время развилась от модели прямого подключения (DAS) к двум другим способам соединения приложений с хранилищами — к сетевым хранилищам NAS и сетям хранения данных (SAN). Поскольку все три технологии существенно отличаются лишь за уровнем прикладного интерфейса файловой системы, возможна миграция между этими различными моделями хранения с минимальным влиянием на приложение и без необходимости модификации приложения, пока приложение не имеет прямого взаимодействия с оборудованием хранилища и не переходит интерфейс, поддерживаемый стандартной операционной системой.

DAS[править | править вики-текст]

При прямом соединении хранилища с рабочими станциями и серверами приложений управление данными в нем становится неразрешимой проблемой, связанной с администрированием, соответствием и обслуживанием. При необходимости добавления хранилищ изменения непосредственно затрагивают оборудование, на котором работают приложения, вызывая простои. Этот способ также вводит ответственность за данные для администраторов приложений, что не является оптимальным. Кроме того, карманы (острова) таких прямосвязанных хранилищ не могут использоваться оптимальным образом глобально, когда пространство хранения собирается из меньших единиц хранилищ. Наконец, DAS требует гораздо больших затрат на управление, включая задачи резервного копирования.

Программное и аппаратное обеспечение резервного копирования должно иметь полный доступ к инфраструктуре приложений и рабочих станций для выполнения своих задач, что обычно требует пересечения границ ИТ предприятия, а также вносит сложности из-за отсутствия консолидации для этих задач.

SAN[править | править вики-текст]

В сети хранения данных отделение серверов приложений и рабочих станций от среды хранения данных выполняется на самом нижнем уровне стека протоколов, а именно на уровне блочного ввода-вывода. Здесь команды хранилища на хранение и извлечение атомов хранения (например, блоков диска) расширяются от доступа по локальной шине до доступа по Fibre Channel или сети IP (например, через iSCSI). Кроме того, технологии SAN предлагают уровень виртуализации, на котором реальное физическое местоположение и параметры диска виртуализируются относительно реальной логики файловой системы, работающей на серверах приложений и рабочих станциях. Однако, реальная логика файловой системы остается на серверах приложений и рабочих станциях, то есть файловая система управляется ими.

SAN позволяет администраторам хранилищ объединять их и управлять данными централизованно, осуществляя такие задачи администрирования, как соответствие, безопасность, резервное копирование и расширение емкости с одного места. Однако, объединение обычно осуществляется единицами томов. Каждый том затем непосредственно управляется клиентом хранилища. Хотя тома могут быть виртуальными, разные тома остаются независимыми и некоторым образом ограничивают гибкость добавления, перемещения и изменения для администратора хранилища, не влияя на серверы приложений и рабочие станции. Одной из причин использования SAN является необходимость непосредственного контроля файловой системы приложением для управляемости и производительности.

NAS[править | править вики-текст]

Обычно NAS ассоциируется с хранением неструктурированного содержимого типа файлов. Клиенты хранилища (серверы приложений и рабочие станции) обычно используют сетевые протоколы на базе IP, например CIFS и NFS для сохранения, извлечения и модификации файлов в NAS. Единицей обмена здесь является файл, а не том, как в SAN. Многие приложения используют NAS. Серверы приложений и рабочие станции не управляют реальной файловой системой, а работают в модели брокера, запрашивая файловые операции (например, создание, чтение, запись, удаление, модификация и перемотка) у файлового сервера.

Устройства NAS обычно представляют собой массивы хранилищ с непосредственно подключенным хранилищем, взаимодействующим с серверами приложений на уровне файловых протоколов типа CIFS или NFS. Существуют бездисковые устройства NAS, транслирующие сообщения между CIFS и NFS со стороны сервера приложений и блочным хранилищем (например iSCSI) в сообщения оборудования хранилища. CIFS и NFS являются цепочечными протоколами, что означает, что устройство NAS может взаимодействовать по CIFS или NFS с уровнем приложений и использовать CIFS и NFS вновь в другой сети хранения (с другим устройством NAS). Как указано ниже, эта возможность является ключевой для построения файловых сетей.

Модель многоуровневого хранения[править | править вики-текст]

Как и при решении любой сложной задачи, разбиение архитектуры хранилища на подзадачи и рассмотрение хранилища послойно является ценным при реализации абстракции, оптимизации, управления, изменений и мастштабирования. В крупных реализациях архитектура хранилища разбивается на различные слои. Каждый слой отличается типом используемого оборудования, его производительностью, фактором масштабируемости слоя (объемом доступного хранилища), доступностью слоя и политикой его использования.

Общей моделью является наличие основного слоя с затратным, высокопроизводительным и ограниченным хранилищем. Следующие слои обычно содержат менее дорогую среду хранения и диски и могут либо перемещать данные средствами ILM до первого уровня, либо отдавать данные непосредственно серверам приложений и рабочим станциям, если их клиенты хранилища не требуют доступа к первому уровню. Оба уровня обычно обслуживаются уровнем резервного копирования, на котором данные копируются на длительный срок для хранения вне хранилища.

HSM и ILM[править | править вики-текст]

Параллельно с многоуровневой моделью хранения архитекторы хранилищ начали адаптировать технологию, известную как иерархическое управление носителями (или Hierarchical storage management — HSM), в которой перемещение данных с одного уровня на другой основано на политиках (например, возраст или важность) и заканчивается их архивированием или удалением. Постепенно HSM расширилось и переименовалось в управление жизненным циклом информации (Information Lifecycle Management — ILM).

Уровень приема хранилища (Storage Admission Tier — SAT)[править | править вики-текст]

Многоуровневая архитектура хранилища обеспечивает базовую платформу для интеллектуального управления хранилищем из приложения. Она предоставляет инфраструктуру, в которой могут быть реализованы политики управления данными. Однако, способ их реализации может повлиять на эффективность архитектуры хранилища. В большинстве установленных хранилищ многоуровневая архитектура является плоской, когда она доходит до уровня интеллектуального управления. Каждый слой имеет ограниченные возможности по интеллектуальному обращению с данными, и чем дальше слой от реального уровня приложения, тем меньше информации доступно этому слою для интеллектуального управления файлами данных. Хорошим примером является приложение HSM или ILM, обычно расположенное ортгонально многоуровневой модели, как показано на диаграмме ниже.

Программное обеспечение ILM, например, основывается на поступающей извне интеллектуальной информации для миграции файлов с одного уровня на другой, оставляя метаданные (например, ссылки или специальные шаблоны файлов) на первом слое, и перемещая файлы на вторичные слои, чтобы управлять потреблением места на первичном слое, обеспечивая уменьшение стоимости. Хотя такие методы действительно способствуют экономии средств, они имеют накладные расходы при реализации и свои причуды (такие, например, как управление самими шаблонами файлов). Кроме того, изменение инфраструктуры приложений, например, добавление новых услуг в приложение, может повлечь изменения в стратегии ILM относительно расположения данных (выделенные разделы или тома для данного приложения) и политики в области миграции и управления файлами. Также при выполнении таких операций хранилища, как восстановление из резервной копии (например, во время восстановления после сбоев), программное обеспечение HSM и ILM также должно участвовать в процессе.

Учитывая связный (цепочечный) характер протоколов сетевого хранения, таких как CIFS, NFS или iSCSI, можно увидеть, что введение уровня, посвященного управлению хранилищем является правильным с точки зрения архитектуры для управления информацией, хранящейся в сети хранения данных. Такой слой предшествует уровню служб хранилища, например, предлагаемых NAS.

Виртуализация, оптимизация и управление в SAT[править | править вики-текст]

Уровень SAT вводит в архитектуру хранилища три основных возможности:

  • Виртуализация — Виртуализация хранилища может осуществляться на различных уровнях. На уровне SAN слияние множества устройств хранения в общее хранилище существенно упрощает управление выделением аппаратных ресурсов хранилища. На уровне NAS необходима та же степень виртуализации для создания множества гетерогенных разделов файлового сервера на логическом уровне, абстрагируясь от реализации хранилища файлов на уровне приложения. Другим аспектом, которому способствует виртуализация первичного уровня, является консолидация ресурсов для хранения, что является приоритетной задачей для любой организации. Первичный уровень всегда будет подвержен изменениям из-за новых технологий для этого уровня, а также расширения емкости и миграции на другое аппаратное обеспечение. Уровень SAT вводит виртуализацию в архитектуру хранилища, отделяя уровень приложений от реальной реализации первичного уровня NAS. Разделяемый ресурс \\filer01\share01 можно отобразить в более осмысленное имя, например \\marketing\presentations. Введение другого файлового хранилища с расширенной емкостью, например \\filer02\share02, может легко быть добавлено к \\marketing\presentations посредством технологий SAT.
  • Оптимизация — неструктурированное содержимое файлов является причиной роста хранилищ большинства предприятий. Хотя стоимость дисков продолжает падать, простое увеличение количества дисков не является масштабируемым решением и не работает в большинстве организаций, особенно если данные на первичном уровне многих больших предприятий уже поступают в объемах сотен терабайт и до петабайт. Технологии оптимизации хранилищ включают в себя следующие:
  1. Первичное сжатие хранилища в реальном времени
  2. Удаление дубликатов (обобщение данных), хранилище единичных экземпляров (single-instance storage — SIS) и контентно-адресуемое хранилище данных (content addressed storage — CAS)
  3. Технологии классификации и размещения файлов (на этом уровне может применяться HSM и место размещения файла может определяться в момент поступления файла в сеть на основе технологий идентификации по отпечатку, критичности файла или метаданных, например возраста и востребованности файла).
  4. HSM и ILM. HSM и ILM используются для классификации файлов. Это непрерывный процесс и слой приема хранилища полностью отвечает за жизненный цикл данных, помещенных в хранилище. SAT постоянно оптимизирует данные, основываясь на метаданных, таких как временные отметки и частота доступа, возраст данных, информация о принадлжености и т. д.
Как указано выше, важно отметить, что SAT — это не только процесс, применяемый при поступлении данных на уровень хранения. SAT постоянно оптиизирует и реструктурирует размещение данных для максимальной эффективности в соответствии с политикой отдела и ИТ инфраструктуры. Поскольку SAT расположен между уровнем приложения и платформой хранилища, он использует интеллектуальные возможности и уровня приложений, например, бизнес-потоки, правила соответствия, правила доступа B2B, так и стоимость хранения, чтобы постоянно обеспечивать сокращение затрат и соответствие требованиям организации.
  • Управление — Управление данными в хранилище очевидно менее оптимально, чем применение глобальной стратегии управления для данных всего предприятия. По мере увеличения регулирующих требований отдел ИТ должен контролировать политики, безопасность и контроль доступа (включая управление правами) для точек входа и выхода данных в и из сети хранения данных. Поскольку весь доступ к данных осуществляется через SAT, данными можно управлять на этом уровне, выполняя здесь задачи аудита, инспекции документов, классификации файлов и шифрования.

Включение SAT происходит в первую очередь для управления и оптимизации данных, даже прежде чем они войдут в основной уровень системы хранения. Размещенный между сервером приложений (или рабочей станцией) и основным хранилищем, этот уровень имеет максимальную видимость интеллектуальных возможностей уровня приложений и максимальный контроль над управлением, политиками, оптимизацией и размещением данных. Оперируя с данными на входе в сеть хранения, он реализует функциональность сети хранения (например, резервные копии и восстановление) независимо от оптимизации данных. Перечисленные свойства уровня SAT способствуют реализации хорошо известных технологий хранения, таких как:

  1. Распределенные и кластерные файловые системы
  2. Управление файлами через сеть и виртуализация (Общие унифицированные пространства имен)
  3. Оптимизация и сжатие хранилищ
  4. Безопасность хранилищ, контроль доступа и шифрование
  5. Управление цифровыми правами
  6. Миграция данных файла, репликация и контроль размещения (без введения шаблонов файла)
  7. Классификация и проверка соответствия файлов

Хотя многие из упомянутых технологий уже присутствовали в различных частях архитектуры хранилищ, они были реализованы вне соответствующей модели, и управляли данными и их размещением физически в отрыве от уровня приложения, который вводил информацию в хранилище. Отсутствие формального многоуровневого подхода к управлению данными привело к появлению различных компонентов технологий и продуктов, конкурирующих за управление данными, препятствуя различным методам хранения, перечисленным выше, сосуществовать в оптимальном режиме. В такой перекрывающейся архитектуре трудно выполнять все задачи по хранению всех данных в глобальном масштабе, и вместо этого ИТ-отделы реализовали подмножества этих методов.

SAT вводит формальную модель, в которой могут быть реализованы вышеперечисленные функции хранения. Она гарантирует, что эти возможности сети хранения данных применяются глобально ко всей иерархии хранения в едином, централизованно управляемом и хорошо спланированном порядке.

Файловые сети (File Area Networking — FAN)[править | править вики-текст]

Файловая сеть представляет систематизированный подход к организации различных технологий, относящихся к файлам, в современной организации. Реализация файловой сети предоставляет ИТ-отделу масштабируемый и гибкий подход к интеллектуальному администрированию процессов управления данными в файлах. Согласно Brad O’Neill, старшему аналитику в Taneja Group, возможности файловой сети включают:

  • Повсеместный контроль всех сведений о файле и управление атрибутами файлов на основе метаданных и их содержания, независимо от платформы в масштабах предприятия;
  • Возможность установки пользователем видимости файлов и прав доступа к ним на основе бизнес-величин (например, отделов, проектов, географического положения), независимо от физического устройства;
  • Прозрачное перемещение информации файла независимо от географических границ без прерывания работы;
  • Создание служб управления файлами, развертываемых как истинные «службы» для всей инфраструктуры (например, не развернутые в хранилище для конкретных приложений);
  • Измеряемая отдача от инвестиций (ROI) для управления файлами за счет оптимизации содержимого файла технологиями сжатия и устранения дублирования избыточного содержания.

Элементы файловой сети[править | править вики-текст]

Ниже представлен список основных элементов файловой сети, сформированный по результатам исследований Taneja Group:

  1. Устройства хранения — Основой построения файловой сети является инфраструктура хранилища. Это может быть SAN или NAS среда. Основным требованием является то, что файловая сеть использует сетевую среду хранения позволяет совместное использование данных и ресурсов.
  2. Устройства/интерфейсы обслуживания файлов — Все файловые сети должны иметь устройства, способные обслуживать информацию на уровне файлов посредством стандартных протоколов, таких как CIFS и/или NFS, либо непосредственно как составную часть инфраструктуры хранения данных (например, NAS) или в качестве интерфейса шлюза (например, SAN).
  3. Пространства имен — Файловая сеть основана на файловой системе с возможностью организации, представления и хранения содержимого файлов для авторизованных клиентов. Эта возможность называется «пространством имен» файловой системы, я является центральным понятием в архитектуре файловой сети. Как обсуждалось выше, присущей SAT является способность к абстракции и виртуализации фактической архитектуры файловой системы серверов приложений. Связь сервера приложений или рабочей станции непосредственно с разделяемым пространством вводит расходы на управление, когда, например, выполняются задачи обслуживания самих устройств хранения, такие как обновление аппаратного обеспечения. Такая тесная связь между уровнем приложений и уровнем данных требует знания основ NAS серверами приложений, чего следует избегать. SAT может абстрагировать этот интерфейс, и подобно распределенной файловой системе с рефералами (DFS) методы SAT будут отображать запросы доступа к разделяемым сетевым файловым ресурсам на реальную аппаратуру NAS, обеспечивая администраторам хранлища централизованный контроль над конечным размещением данных файла в любой точке инфраструктуры хранения. Такое пространство имен известно как глобальное гдиное пространство имен (Globally Unified Namespace — GUN) и обеспечивает гетерогенную абстракцию в масштабе предприятия всей информации на уровне файла.
  4. Службы оптимизации файлов — Методы оптимизации данных файла варьируются от исключения дубликатов данных использованием контентно-адресуемых хранилищ данных и до сложных встроенных методов сжатия, обеспечивающих достижение максимальной эффективности хранения. Контроль размера хранилища до помещения файла данных на первичный цровень имеет мультипликативный эффект по борьбе с издержками. Предприятия будут покупать меньше аппаратных средств и услуг, а также управлять намного меньшим объемом данных. Окна резервного копирования и восстановления резко сокращаются и менее частой становится модернизация инфраструктуры хранения. С точки зрения управления хранением данных, простое уменьшение объема данных для обработки приведет к резкому сокращению расходов, вызванных расширением данных, и SAT является местом, где такие методы сокращения хранения могут быть реализованы точно и в глобальном масштабе, охватывая все содержимое файлов.
  5. Безопасность файлов и службы DRM — Технологии для шифрования данных и управления правами и контролем доступа должны использоваться централизованно при входе и выходе данных на первичном уровне. Это опять-таки является ключевой особенностью SAT, расположенного между приложением (рабочей станцией) и точкой доступа к основной системе хранения. Также обеспечивается централизованное хранилище для администрирования и мониторинга политик безопасности — вопрос, который становится все более важным в свете соблюдения нормативных требований и в работе с конфиденциальной информацией.
  6. Службы управления файлами — Управление квотами, расширение хранилища, услуги миграции и репликации являются важной составляющей любой инфраструктурой хранения данных. Вместо того, чтобы пользоваться услугами в хранилищах разного уровня, SAT позволяет администраторам систем хранения управлять этими задачами на нужном уровне.
  7. Клиенты — Все файловые сети имеют клиентские станции, обращающиеся к пространствам имен, созданным файловыми системами. Клиенты представляют собой любой тип платформы или вычислительного устройства.
  8. Связность — Существует множество способов соединения клиентов файловых сетей с пространствами имен. Обычно они соединяются через стандартные компьютерные сети с использованием CIFS или NFS, но могут одновременно использовать технологии глобального доступа.

См. также[править | править вики-текст]

Ссылки[править | править вики-текст]