Главная
map контакты карьера обратная связь
о компании услуги компетенции решения

Простые решения
Планирование виртуализации
Внедрение виртуализации
Снижение информационных рисков компании
Управление конкурентоспособностью компании
Истории успеха
Внедрение облачных технологий
Модернизация сети хранения данных
Интеграция информационных систем
Масштабируемая платформа для АБС
Непрерывный мониторинг активного оборудования
Создание ядра ИТ-инфраструктуры завода
Внедрение отказоустойчивой вычислительной системы
Обеспечение непрерывности работы АБС
Обеспечение непрерывности бизнеса банка
Решения
Система сбора и обработки информации
Катастрофоустойчивое решение
Распределенное решение хранения данных
Аварийное восстановление систем. Кластеризация
Бизнес по требованию
Интеграция Банковских систем
Интеграция ИС в госсекторе
Коннектор для обмена информацией
Медицинская информационная система
Система управления Смарт-картами
Система межведомственного информационного обмена
ПО ЦСОН
Мобильный переезд сервисов

  главная » решения » Аварийное восстановление систем. Кластеризация
Аварийное восстановление систем. Кластеризация
   1 Центры обработки и сети хранения данных
   2 Обеспечение непрерывности бизнеса
   3 Повышение эффективности ИТ-инфраструктуры
   4 Строительство ЦОД
   5 Управление ИТ-инфраструктурой
   6 Разработка и сопровождение информационных систем

Аварийное восстановление систем. Кластеризация.

Как обеспечить функционирование систем даже во время катастрофы

Почему так важна готовность
В предыдущей статье нашей серии об аварийном восстановлении мы объяснили, почему репликация - это ключевой элемент обеспечения круглосуточной защиты данных, гарантирующей их сохранность даже в случае катастрофы. Репликация - следующий логичный шаг к повышению уровня сервиса после внедрения продуманного плана резервного копирования. Но если резервное копирование - это элемент стратегии аварийного восстановления и репликация - следующий шаг к защите данных в реальном времени, то какая роль отводится готовности систем?

"Если останавливается сервис-центр, мы не можем обслужить клиентов, а это означает, что полностью прекращается выпуск газет. Иными словами, сбой у нас парализует 30 процентов норвежской прессы".
Гюнстин Лёкен (Gunstein Loken), менеджер по операциям и развитию, Orkla Media Service Senter IT

Как резервное копирование, так и репликация сводят к минимуму потерю данных, но обе технологии неспособны обеспечить поддержание работы систем при авариях. Для достижения максимальной готовности систем нужны другие подходы. Если для защиты систем по традиции используется только резервное копирование, то единственный способ возобновить их работу - это восстановить данные с ленты на диски. Эта процедура может занять пару часов, а может и растянуться на несколько дней и даже недель. О важности поддержания работы систем говорит такой пример: несколько лет назад в крупной онлайновой брокерской компании за 2 месяца произошло 4 сбоя системы и в результате потери доверия клиентов ее акции потеряли 22% стоимости.

 


 

 

 

 

 

 

Для сведения к минимуму простоев и потери данных необходимо сочетать использование кластеров и репликации. Кластеризация - это просто процесс перевода приложения, которое выполнялось на вышедшей из строя системе, на работоспособную систему, которая может находиться в том же центре обработки данных или на другой площадке. Этот процесс занимает несколько секунд или минут.

Что такое кластер?
Прежде чем кластеризация стала реальным решением для поддержания работоспособности систем, пользователи просто подключались к системе, а если происходил сбой системы, - прекращали работу и вынуждены были ждать устранения аварии. При этом ИТ-администратору надо было как можно быстрее восстановить нормальную работу системы, выслушивая при этом жалобы пользователей.

 

 

 

 

 

 

 

 

 

 

Рисунок 2. При выходе из строя сервера вся ИТ-инфраструктура прекратит работу и будет недоступна.

Хотя концепция кластеризации давно использовалась в мэйнфреймах, только в 1990-е годы она стала широко применяться для открытых систем (Windows, Unix и Linux). Кластеризация позволяет ИТ-администраторам гарантировать доступность системы и свести к минимуму простои добавлением резервных систем, которые начинают работать в случае сбоя основной.

 

 

 

 

 

 

 

 

 

Рисунок 3. Простои сокращаются до минимума, если установить резервную систему, на которую приложения будут переводиться при сбое основной.

Как работает кластеризация?
Кластеризация - это вовсе не колдовство, а автоматизация процесса восстановления системы и запуска приложения на резервной системе. Если не использовать кластеризацию, то восстановление системы займет много времени - сначала нужно инсталлировать операционную систему, затем приложения, затем загрузить <заплатки> и установить их, затем сконфигурировать системы и т.д. Все это время система будет недоступна. Не имеет значения, идет ли речь о внешнем сервере обработки Web-транзакций или внутреннем сервере электронной почты - любой простой системы может привести к значительным потерям для бизнеса.

Поскольку сегодня большинство ИТ-сред очень сложны, необходимо учитывать все уровни центра обработки данных. Если мы рассмотрим традиционный пример трехуровневой среды с фронтальным Web-приложением, ERP-приложением на среднем уровне и базой данных - на внутреннем, то при сбое любой из этих трех систем доступ ко всем остальным также прекратится. Из этого примера видно, что необходимо обеспечить защиту всех уровней центра обработки данных, поскольку, где бы в ИТ-среде не произошел сбой, он приведет к прекращению работы конечных пользователей.

 

 

 

 

 

 

 

 

 

 

 

Рисунок 4. Если одна система выйдет из строя, то все остальные будут недоступны.

Внедрение стратегии высокой готовности напоминает построение домика из игральных карт - домик может рухнуть в одно мгновение из-за единственной незначительной ошибки, и вам придется выслушивать жалобы недовольных пользователей, которые лишились доступа к системе. Хорошо известен случай с компанией Ebay: после того, как в 1999 году ее сайт не работал 22 часа, ей пришлось выплатить штрафы на сумму около $5 млн. за нарушение правил проведения аукционов. Стоит отметить, что теперь Ebay использует весь пакет решений VERITAS Disaster Recovery, включая продукты для резервного копирования, репликации и кластеризации для поддержания готовности систем и данных.

Другой пример, иллюстрирующий важность каждого аспекта работы центра обработки данных - крупный американский туристический Web-сайт Orbitz в июле 2003 года дважды за 8 дней был недоступен из-за сбоев в работе внутренней базы данных.

Новые методы кластеризации улучшают готовность
Теперь, когда мы разобрались, почему так важна кластеризация, перейдем к новым методам кластеризации, которые уменьшают расходы и улучшают готовность, обеспечивая максимальную эффективность работы центров обработки данных.

Когда кластеры стали впервые использоваться для улучшения готовности, обычно применялась технология кластеризации активный/пассивный (другое название - асимметричная кластеризация) - просто соединялись две системы, одна из которых была активной, а другая пассивной, но готовой в случае сбоя первой системы или приложений взять на себя ее нагрузку.

Вскоре компании поняли, что слишком дорого держать в центре обработки данных резервный сервер, который большую часть времени не выполняет никакой работы, поэтому популярной стала кластеризация по принципу активный/активный.

Кластеризация активный/активный (симметричная) похожа на кластеризацию активный/пассивный, но отличается от нее тем, что обе системы активны и готовы подстраховать одна другую в случае сбоя. Этот метод кластеризации сокращает расходы - обе системы работают постоянно. Недостаток этого метода заключается в том, что если одна система <упадет>, то нагрузка другой удвоится, что может привести к снижению производительности ее приложений и даже к их недоступности. При использовании такой кластеризации также нужно обеспечить отсутствие конфликтов между приложениями, которые будут выполняться на одной системе, что очень сложно гарантировать, например, для SQL Server и Exchange.

 

 

 

 

 

 

 

 

Рисунок 5. Слева кластер активный/пассивный, справа - активный/активный.

Из-за высоких расходов и проблем с готовностью обоих перечисленных методов кластеризации был разработан третий метод, лишенный этих недостатков. Это так называемая кластеризация N+1 - кластер из трех и более систем (VERITAS поддерживает кластеры, содержащие до 32 систем), подключенных к одной системе хранения и готовых переключить нагрузку при сбое на любой другой сервер.

 

 

 

 

 

Рисунок 6. Кластеризация N+1 объединяет лучшие стороны технологий кластеризации активный/пассивный и активный/активный и обеспечивает максимум готовности при низких затратах без ущерба для производительности и усложнения.

В показанном примере кластер состоит из 5 систем, из которых 4 активны, а пятый пассивен и в случае отказа любого из активных готов взять его нагрузку. У этого метода несколько преимуществ:
 Низкие затраты: В традиционном кластере активный/пассивный для обеспечения этого уровня готовности потребовалось бы 8 серверов. Используя кластер N+1, мы уменьшим число серверов до 5 при том же уровне готовности.
o В реальных ценах это выражается следующим образом - если каждый сервер стоит 5000 евро (без учета обслуживания), то, купив на 3 сервера меньше, вы сэкономите 15000 евро.
 Нет ухудшения производительности: В кластере N+1 всегда есть выделенный сервер, готовый взять на себя нагрузку вышедшей из строя системы. Это означает, что на каждом сервере выполняется только одно приложение и при переключении нагрузки производительность приложений не уменьшается.
 Нет проблем из-за усложнения: Риск отказа из-за несовместимости программного обеспечения, выполняемого на одной системе, уменьшается, поскольку есть выделенный сервер.
 Экономия времени: Вместо управления четырьмя 2-узловыми кластерами надо управлять одним кластером из 5 узлов, что экономит время и силы администратора.

При кластеризации N+1 всегда есть выделенный резервный сервер. При сбое одной из систем он берет на себя ее нагрузку, а после восстановления работоспособности отказавшего сервера тот становится резервным.

Как готовность влияет на аварийное восстановление
Говоря о готовности, необходимо помнить, что аварии бывают разного масштаба. Выход из строя одного сервера, нарушающий доступ ко всему центру обработки данных, очевидно является аварией, для которой необходимо предусмотреть меры защиты. Также важно планировать защиту от широкомасштабных аварий (пожара, наводнения, перебоев электроснабжения, терактов и т.п.), от которых может пострадать вся площадка.

Надежная стратегия поддержания готовности должна обеспечить готовность систем независимо от физического местоположения. В нее надо включить решения как для обеспечения локальной готовности, так и для восстановления в масштабе города или разных географических регионов при крупных авариях.

 

 

 

 

 

 

 

 

 

Рисунок 7. Хорошее решение по обеспечению готовности должно как защищать системы на локальном уровне, так и обеспечивать восстановление в масштабе города или разных географических регионов при крупных авариях.

Основные типы архитектур кластеризации:
 Локальная кластеризация: Один кластер в одном здании, при сбое системы ее нагрузка переводится на резервную локально.
 Аварийное восстановление в масштабе города:
o Использование удаленного зеркалирования: Один кластер из двух соединенных по Fibre Channel или SAN площадок на расстоянии обычно не более 100 км. При сбое системы ее нагрузка переводится на локальную или удаленную площадку.
o Использование репликации: Один кластер из двух соединенных по IP-сети систем. Расстояние может быть больше, чем при зеркалировании, но обычно не превышает нескольких сотен километров. При сбое системы ее нагрузка переводится на локальную или удаленную площадку.
 Восстановление в масштабе разных географических регионов: На каждой площадке разные сети. При выходе из строя одной площадки весь трафик перенаправляется на вторую. При такой архитектуре нет ограничений на расстояние.

Выводы
В современных условиях для успеха бизнеса требуется обеспечить круглосуточную доступность систем, поэтому необходима готовность не только на уровне данных, но и на уровне серверов и приложений. Только 5% компаний используют решения готовности для критически важных приложений, а остальные рискуют потерять транзакции, доходы, уважение к торговой марке и уйти с рынка (источник: исследование VERITAS по аварийному восстановлению, сентябрь 2004 года). Спросите себя: сколько вы потеряете с учетом внешних и внутренних затрат из-за одного часа простоя? Ответ на этот вопрос позволит вам обосновать внедрение решений для готовности приложений.

"Однажды в понедельник мы пришли в офис - все системы работали в нормальном режиме. Только потом мы поняли, что один из серверов сломался и VERITAS Cluster Server сделал автоматическое переключение его нагрузки."
Билл Аугуштадт (Bill Augustadt), директор по архитектуре и технологиям компании BlueStar Solutions

 

 
 
© 1999-2006, Компания ХОСТ
620075 г. Екатеринбург, ул. Кузнечная, 92
Тел.: +7 (343) 216-16-30,
Факс: +7 (343) 216-16-31

625000 г. Тюмень, ул. Мельникайте, 112/3, офис 306, 307
Тел./Факс: +7 (3452) 565-720
196158 г. Санкт-Петербург, Дунайский проспект, д.13, корп. 1, офис 318
Тел./Факс : +7 (812) 449-65-75

614000 г. Пермь, ул. Советская, 67
Тел./Факс: +7 (342) 257-02-12

123100 г. Москва, Пресненская наб. 12, ММДЦ "Москва-сити", башня "Федерация",45 этаж.
Тел./Факс: +7 (495) 792-50-70