Система хранения данных (СХД)
Каждый день появляется все больше данных в электронном виде, которые нужно где то хранить. Системы, обеспечивающие сохранность электронных данных применяются уже повсеместно. Такие системы становятся все сложнее по мере увеличения требований, предъявляемых к ним.
Система хранения данных (СХД) — комплекс аппаратных и программных средств для хранения и оперативной обработки информации большого объема. Информация — это файлы, в том числе медиа, структурированные (СУБД) и неструктурированные данные (big data), резервные копии, архивы.
СХД можно условно разделить на две группы, в зависимости от того, какие в качестве носителей информации используются жесткие диски:
- Решения на основе флэш-памяти или системы All Flash Array где в основном используют SSD
- гибридные решения, сочетающие SSD - и HDD -накопители в одной СХД.
От пользовательского жесткого диска СХД отличаются сложной архитектурой, возможностью объединять хранилища в сеть передачи данных, наличием отдельного ПО для управления системой хранения, продвинутыми технологиями резервного копирования, сжатия и виртуализации.
Надежное хранение данных и быстродействие доступа к ним требуют организации средств хранения, как отдельной подсистемы вычислительных комплексов. Эта подсистема должна быть грамотно спроектирована и внедрена, чтобы обеспечить возможность восстановления утраченных данных.
Основные требования к СХД
- Надёжность и отказоустойчивость. В СХД предусмотрено полное или частичное резервирование всех компонент — блоков питания, путей доступа, процессорных модулей, дисков, кэша и т.д. Обязательно наличие системы мониторинга и оповещения о возможных и существующих проблемах.
- Доступность данных. Обеспечивается продуманными функциями сохранения целостности данных (использование технологии RAID, создание полных и мгновенных копий данных внутри дисковой стойки, реплицирование данных на удаленную СХД и т.д.) и возможностью добавления (обновления) аппаратуры и программного обеспечения в горячем режиме без остановки комплекса;
- Средства управления и контроля. Управление СХД осуществляется через web-интерфейс или командную строку, есть функции мониторинга и несколько вариантов оповещения администратора о неполадках. Доступны аппаратные технологии диагностики производительности.
- Производительность. Определяется числом и типом накопителей, объёмом кэш-памяти, вычислительной мощностью процессорной подсистемы, числом и типом внутренних и внешних интерфейсов, а также возможностями гибкой настройки и конфигурирования.
- Масштабируемость. В СХД обычно присутствует возможность наращивания числа жёстких дисков, объёма кэш-памяти, аппаратной модернизации и расширения функционала с помощью специального ПО. Все перечисленные операции производят без значительного переконфигурирования и потерь функциональности, что позволяет экономить и гибко подходить к проектированию ИТ-инфраструктуры.
Уровни хранения
Существуют три способа хранения данных:
- блочный
- файловый
- объектный
Они организуют и предоставляют данные различными способами, каждый из которых имеет свои возможности и ограничения.
Блочное хранилище
СХД используется как обычный диск, который можно форматировать, устанавливать на него ОС, создавать логические диски. Данные хранятся не файлами, а блоками, что ускоряет операции ввода-вывода. Чаще используется в сетях типа SAN (Storage Attached Network). Подходит для высокопроизводительных вычислений, СУБД, хранения больших объемов данных, в качестве сред разработки (Dev/Test). Из недостатков: а) сложность настройки и обслуживания, которые требуют соответствующей квалификации; б) высокая стоимость.Файловое хранилище
Данные хранятся в виде файлов, которые размещаются в каталогах. Такая СХД используется для хранения «холодной» информации, которая не требуется для операционных вычислений. На файловых хранилищах, как правило, строятся NAS (Network Attached Storage). Недостатки: при накоплении больших объемов данных усложняется иерархия папок, и скорость работы СХД постепенно снижается. Не подходит для нагрузок, которые требуют высокой скорости отклика.Объектное хранилище
Тип СХД, который ориентирован на работу с большими неструктурированными данными объемом до петабайтов. Информация хранится не в виде файлов, а в виде «объектов» с уникальными идентификатором и метаданными. Поэтому объектное хранилище похоже по структуре на БД. Используется в аналитике, big data, машинном обучении, для хранения «тяжелых» медиа-файлов и резервных копий, разработки и эксплуатации приложений в облаке, хостинга веб-сайтов. По скорости уступает блочному хранилищу в задачах, связанных с транзакционными нагрузками.Топологии СХД
DAS (Direct Attached Storage) — архитектурное решение когда устройство для хранения данных подключено непосредственно к серверу, или к рабочей станции, как правило, через интерфейс по протоколу SAS.
Минусы
- Низкая надежность — при возникновении проблем в сети или аварии сервера данные становятся недоступны всем сразу.
- Высокая латентность, обусловленная обработкой всех запросов одним сервером и использующимся транспортом (чаще всего — IP).
- Высокая загрузка сети, часто определяющая пределы масштабируемости путём добавления клиентов.
- Плохая управляемость — вся ёмкость доступна одному серверу, что снижает гибкость распределения данных.
- Низкая утилизация ресурсов — трудно предсказать требуемые объёмы данных, у одних устройств DAS в организации может быть избыток ёмкости (дисков), у других её может не хватать — перераспределение часто невозможно или трудоёмко.
Недостатком прямого способа подключения является небольшое расстояние между сервером и устройством хранения. Типичный интерфейс DAS — SAS 12Gbit. Системы хранения данных такого типа стали терять свою популярность и замещаться оборудованием с SAN подключением
NAS (Network Attached Storage) — отдельно стоящая интегрированная дисковая система. NAS-cервер, со своей специализированной ОС и набором полезных функций быстрого запуска системы и обеспечения доступа к файлам. Система подключается к обычной компьютерной сети (ЛВС), и является быстрым решением проблемы нехватки свободного дискового пространства. В простейшем варианте устройством NAS является обычный сетевой сервер, предоставляющий файловые ресурсы.
NAS-устройства очень хороши в гетерогенной среде, где необходим быстрый файловый доступ к данным одновременно для многих клиентов, включая протоколы TCP/IP, CIFS, NFS, FTP, TFTP и др.
Минусы
- Доступ к информации через протоколы `сетевых файловых систем` зачастую медленнее, чем как к локальному диску.
- Большинство недорогих NAS-серверов не позволяют обеспечить скоростной и гибкий метод доступа к данным на уровне блоков, присущих SAN системам, а не на уровне файлов.
- Главный недостаток NAS заключается в повышенной нагрузке на сеть.
SAN — отдельная сеть хранения данных, которая обладает высокой производительностью и масштабируемостью, может расширяться как вертикально (путем добавления дополнительных дисков и полок расширения к единому дисковому хранилищу), так и горизонтально (с добавлением новых хранилищ в инфраструктуру сети). В этом случае серверы получают доступ к дисковым накопителям посредством сети SAN, и не нагружают локальную сеть.
В простейшем случае SAN состоит из СХД, коммутаторов и серверов, объединённых оптическими каналами связи. Основное различие между SAN и NAS состоит в способе организации обмена данными между устройствами хранения и серверами.