Как Zabbix 3.0 снимает лишнюю нагрузку с ИТ-аутсорсеров?

Статьи 8 июня 2021 Шпаргалка по выбору ИТ-аутсорсера часть 3

Критерий, на который часто не обращают внимания. И напрасно! 

Сегодня речь пойдет о доверии и безопасности, без которых в ИТ-аутсорсинге не обойтись. Как только вы заключаете контракт, ИТ-аутсорсер получает доступ к «сердцу» вашего бизнеса:  финансовой информации, базам данных, личным данным персонала и контрагентов. Однако собственники бизнеса недооценивают фактор безопасности и больше смотрят на стоимость, количество выездов специалистов и т.д.  На основе практики
ALP GROUP расскажем, что можно предпринять уже на старте сотрудничества, чтобы обезопасить свой бизнес.

Статьи 25 мая 2021 Шпаргалка по выбору ИТ-аутсорсера часть 2

Как правильно оценить стоимость услуг и не обжечься на «скрытых» платежах

При выборе поставщика услуг стоимость – важный параметр. Это объяснимо с точки зрения менеджмента, который считает деньги. Но при оценке предложений на ИТ-аутсорсинг важно знать о подводных камнях низких цен. Потому что иногда, соглашаясь на низкий ценник, вы можете получить противоположный эффект -  переплатить за ИТ-поддержку. Всему виной скрытые и дополнительные платежи. В этом посте наглядно покажем, как это происходит, и дадим ценовые ориентиры по выбору ИТ-аутсорсера.

Статьи 20 мая 2021 Шпаргалка по выбору ИТ-аутсорсера часть 1 Почему не у всех получается найти надежного поставщика с первого раза?  

Идея такой шпаргалки возникла после анализа отзывов более 200 наших клиентов за несколько последних лет. Многие руководители говорили, что они поменяли нескольких поставщиков ИТ-услуг, прежде чем стать партнерами ALP Group. Что может пойти не так при взаимодействии с ИТ-аутсорсером, и как этого не допустить? Разбираемся и даем полезные рекомендации.

ПО со свободным исходным кодом Zabbix заслуженно считается одной из лучших альтернатив коммерческим решениям для мониторинга ИТ-сервисов и инфраструктуры.

Вместе с тем, мы как как сервис-провайдер ИТ-услуг, опирающийся на это ПО как на существенную часть своей технической платформы, все–таки ощущали недостаточную степень проработки некоторых ее функций.

Дело в том, что при построении и использовании комплексной системы мониторинга, где единый экземпляр Zabbix, работающий на нашем сервере, обслуживает множество организаций-клиентов (модель multi-tenant) мы постоянно сталкиваемся со множеством вызовов.

Это: значительный масштаб системы (тысячи объектов мониторинга); огромное разнообразие решений у клиентов (различные ОС и приложения, отдельные сервисы или многозвенные приложения, собственное оборудование или IaaS, гибридные инфраструктуры и т.д.); естественная децентрализация (у многих клиентов — десятки офисов, географически-разнесенных по всем регионам России).

Однако с подобными проблемами сталкиваются не только сервис-провайдеры, но и обычные (в основном, крупные) предприятия. И им тоже полезно знать, какие из наиболее сложных задач можно теперь решить проще и эффективнее.

Поэтому неудивительно, что сообщество пользователей с таким трепетом ожидало новую версию Zabbix. С момента ее выхода в феврале 2016 нам удалось протестировать, а затем и проверить в реальной жизни практически все обновления, в том числе и позволяющие снять наши самые острые проблемы и серьезно облегчающие работу с заказчиками.

Этим опытом я и хочу поделиться.

Проблема №1. Слишком много объектов мониторинга, слишком мало рук и голов

Начнем с вопроса, который неизбежно всплывает в любом крупном проекте и напрямую влияет на издержки и сроки выполнения. Сегодня провайдеру ИТ-аутсорсинга приходится контролировать тысячи объектов, при этом счет наблюдаемых показателей идет уже на сотни тысяч.

При этом все эти объекты далеко не статичны: одни появляются, другие меняют конфигурацию, третьи выводятся из состава системы! Постоянная актуализация набора объектов для мониторинга требует от специалистов ИТ-компании выполнения множества рутинных операций.

И все это накладывается на нехватку квалифицированных кадров и резкое ужесточение конкуренции (теперь интеграторы борются даже за контракты на ИТ-поддержку в 2-4 млн в год).

Решение от Zabbix: автоматизированное обнаружение объектов мониторинга

В новых рыночных условиях ИТ-аутсорсер вынужден более жестко и рационально планировать ресурсные затраты — не только на каждый проект, но и на последующую поддержку и мониторинг инфраструктуры каждого предприятия-заказчика.

Имеющиеся в Zabbix функции, уже позволяли автоматизировать обнаружение объектов, их фильтрацию и интеграцию в остальную инфраструктуру, упрощать повседневную работу с системой мониторинга, снижать влияние человеческого фактора и высвобождать такие драгоценные для аутсорсинговой компании человеческие ресурсы.

Однако, до выхода последней версии эти функции имели ограниченные возможности по сравнению с ручной настройкой. Проще было, пожалуй, даже не применять их... В новой версии системы стало возможным автоматическое создание групп элементов (applications), добавление обнаруженных элементов на комплексные экраны (screens), определение зависимостей между триггерами.

Функция автоматической регистрации узлов также обзавелась полезным дополнением — возможностью активировать автоматический режим инвентаризации.

Благодаря всем этим нововведениям, 95% элементов мониторинга в нашем сервисе на базе Zabbix теперь регистрируются и настраиваются полностью автоматически. Что позволяет перенаправлять освободившиеся ресурсы на решение других, гораздо более сложных задач.

Проблема №2. Ложные срабатывания и их проверки

Крайне большая и больная проблема для любого поставщика ИТ-услуг, головой и кошельком отвечающего за здоровье инфраструктур заказчиков, — нахождение оптимального баланса между ложными и ложно-позитивными предупреждениями (обработка которых «крадет» крайне ценные ресурсы и увеличивает издержки) и реальными рисками пропустить действительно важное событие в ИТ-инфраструктуре клиента.

Основной источник неприятностей здесь — краткосрочные всплески, происходящие несколько раз в сутки и показывающие, что где-то превышен нормальный уровень установленных показателей. Использовавшийся в предыдущих версия Zabbix подход к выдаче предупреждений (срабатыванию триггеров) основывался в основном на анализе мгновенных, усредненных, максимальных и минимальных значений.

Но все они просто не позволяли учесть возможность кратковременных всплесков. Что было намного более сложной проблемой, чем кажется на первый взгляд!

Для иллюстрации возьмем такой показатель как дисковая очередь, а в качестве порогового значения для выдачи предупреждения установим, что среднее значение длины очереди не должно превышать 2.

Теперь предположим, что за некоторый промежуток времени мы 99 раз получили значение размера дисковой очереди равное 0,5 (что нормально) и один раз значение 1000. В этом случае среднее значение превысит установленный нами порог и приведет к выдаче предупреждения.

Хотя само по себе событие было кратковременным и не могло привести к деградации качества сервиса или к его недоступности. При использовании мгновенных, максимальных и минимальных значений получаем аналогичную ситуацию и аналогичные результаты.

Другая часть проблемы — использование одинаковых пороговых значений для всех систем. Хотя требования к характеристикам той же дисковой подсистемы для сервера БД и сервера резервного копирования совершенно разные.

Соответственно, попытки использовать единые условия для различных сервисов так же приводят к выдаче ложных предупреждений.

Поток ложно-позитивных сообщений об ошибках может просто парализовать работу службы поддержки. Ведь появившееся сообщение о том, что на сервере баз данных перегружена дисковая подсистема, администраторы не могут не проверить.

Как и сотни других сообщений, после проверки которых оказывается, что запустилось регламентное задание, выполнилось резервное копирование, скрипт или экспорт данных. При том, что на работоспособность системы все это никак не повлияло.

Решение от Zabbix: перцентиль и улучшенная поддержка макросов. Экономия сил и рост проактивности в отслеживании проблем заказчиков

Новая функция в выражениях триггеров — «percentile» (перцентиль) — дала нам возможность корректно обрабатывать кратковременные всплески, эффективно отсекая их по заданной границе. При этом искусственно не «заглубляя» условия выдачи предупреждений, а значит не теряя действительно важные события.

И что не менее важно, данная функция хорошо соотносится с показателями, закрепленными в SLA («сервер должен обеспечивать комфортную работу пользователей 95% времени» или «отклик Web-сервера не должен превышать установленного значения 97% времени»).

Свой вклад в дело снижения количества ложных предупреждений внесла и улучшенная поддержка макросов, которая позволяет адаптировать параметры системы мониторинга к каждому клиенту, серверу и сервису.

Не подгонять их под единый стандарт, а учесть их особенности.

На практике эти нововведения позволили нам снизить трудозатраты на мониторинг на 30-40% и значительно сократить время реакции на действительно важные проблемы. Удобно и полезно? Безусловно!

Проблема №3. Место на дисках

Контроль достаточности свободного места на СХД у компаний-заказчиков — еще одна из самых критичных рабочих задач для поставщика ИТ-аутсорсинговых услуг, т.к. ошибка тут может привести к недоступности сервисов, а в некоторых случаях и к повреждению данных.

А это, в свою очередь, — прямые убытки для клиента и густая черная тень на репутации аутсорсинговой компании.

Поэтому понятно, что контроль на этом участке должен вестись с упреждением. Аусорсеру нужно понимать сразу несколько важных моментов:

а) может ли он освободить дисковое пространство, если там кончилось место

б) когда начинать длительный и непростой процесс закупки, если освободить место на диске невозможно.

Решение от Zabbix: улучшение прогнозных функций триггеров

Появление прогнозных функций в третьей версии Zabbix позволяет заранее определять объем свободного места, причем делать это, без использования громоздких формул, вычисляемых полей, лишних ручных настроек и проверок — т.е.

без дополнительных трудозатрат, на которые нам все время приходилось идти раньше.

Тот же триггер с использованием прогнозирующей функции timeleft теперь дает нам окно (час, день, месяц) чтобы очистить или расширить диск. И это корректно работает для всех дисков, какими бы ни были их размеры и степень заполнения.

Кроме того, прогнозирующие функции триггеров Zabbix позволяют нам намного лучше, чем раньше выявлять тенденции, связанные с загрузкой каналов связи у клиентов в регионах (т.е. проводить массовые проверки большого кол-ва элементов без ресурсных затрат).

Да и планирование ресурсов ЦП и ОЗУ (в системах с глубоким проникновением виртуализации, в частных облаках) тоже проходит без прежних мучений и сомнений.

Отмечу, что в целом функции прогнозирования в Zabbix помогают сервисам заказчиков работать с минимальным количеством сбоев. Мы же можем строго выдерживать оговоренные условия SLA и делать работу по поддержке инфраструктуры заказчиков более проактивной в целом.

Проблема №4. Безопасность

И, наконец, давайте поговорим о проблеме, которая, по понятным причинам, доставляла пользователям Zabbix больше всего неприятностей. О безопасности. До появления столь ожидаемых функций шифрования данных и аутентификации для сервера и клиентов в Zabbix передача данных осуществлялась в открытом виде, а злоумышленник имел возможность фальсифицировать данные мониторинга.

Что постоянно вызывало вопросы со стороны служб безопасности заказчиков. И серьезно ограничивало сферу применения Zabbix, особенно в крупных компаниях.

В этих условиях для мониторинга состояния территориально-распределенных инфраструктур заказчиков нам приходилось использовать комплекс дополнительных компонент и сторонних средств, обеспечивающий защиту или туннелирование трафика (TLS, IPSec).

Да, мы добились здесь хороших результатов: получалось надежно, причем большая часть задач по настройке была автоматизирована. Но нам, безусловно, хотелось, чтобы решение столь важного вопроса исходило от разработчика системы.

Хотя бы потому, что это снижает себестоимость сопровождения решения.

Решение от Zabbix: шифрование и аутентификация

Встроенные средства шифрования и аутентификации сделали все общение между серверами, прокси и агентами хорошо защищенным от постороннего вмешательства. Упростилась и реализация активной реакции сервера мониторинга на события — например, на то, что перестала работать какая-то служба.

Теперь ее перезапуск уже совершенно не страшно отдавать системе мониторинга, как и многие другие простейшие операции по автоматическому восстановлению работоспособности или качества сервиса.

Потому что это перестало порождать слишком большие риски в плане безопасности.

Подведем итоги

Новая версия Zabbix действительно удалась. Вобрав в себя как множество новых функций, так и улучшений для уже имевшихся возможностей, она позволила в очередной раз поднять планку качества, возможностей и эффективности систем мониторинга.

И сейчас, спустя 4 месяца после миграции на новую версию, мы в очередной раз убедились в правильности выбора этого продукта в качестве технической основы для основополагающих для нашей компании информационных систем, в частности, — централизованного сервиса мониторинга и контроля (СЦМК).

И конечно, мы рекомендуем всем компаниям, работающим в нашем сегменте рынка или просто применяющим Zabbix для мониторинга своих ИС, переходить на использование новой версии системы и осваивать ее новые возможности.

Уверяю, они не разочаруют!


PCMagazine

Свежие новости и статьи

Статьи 25 мая 2021 Шпаргалка по выбору ИТ-аутсорсера часть 2

Как правильно оценить стоимость услуг и не обжечься на «скрытых» платежах

При выборе поставщика услуг стоимость – важный параметр. Это объяснимо с точки зрения менеджмента, который считает деньги. Но при оценке предложений на ИТ-аутсорсинг важно знать о подводных камнях низких цен. Потому что иногда, соглашаясь на низкий ценник, вы можете получить противоположный эффект -  переплатить за ИТ-поддержку. Всему виной скрытые и дополнительные платежи. В этом посте наглядно покажем, как это происходит, и дадим ценовые ориентиры по выбору ИТ-аутсорсера.

Статьи 20 мая 2021 Шпаргалка по выбору ИТ-аутсорсера часть 1 Почему не у всех получается найти надежного поставщика с первого раза?  

Идея такой шпаргалки возникла после анализа отзывов более 200 наших клиентов за несколько последних лет. Многие руководители говорили, что они поменяли нескольких поставщиков ИТ-услуг, прежде чем стать партнерами ALP Group. Что может пойти не так при взаимодействии с ИТ-аутсорсером, и как этого не допустить? Разбираемся и даем полезные рекомендации.
Статьи 12 мая 2021 Как повысить стабильность работы 1С? Как повысить стабильность работы 1С?

Редко можно встретить организацию, где не используется хотя бы один модуль  программы 1С. Она настолько важна, что любой сбой в ее работе может повлечь серьезные последствия.  Поэтому сегодня поговорим о том, как заранее обезопасить себя от возможных проблем с 1С.
Статьи 26 апреля 2021 Правила безопасной работы в Интернете

Мой бизнес – моя киберкрепость! 


5 правил безопасной работы в Интернете для владельца компании


Как только вы поднимаете крышку ноутбука и подключаетесь к интернету – вы перестаете быть боссом, который принимает решения и контролирует ситуацию. Теперь ваша роль – сапер, который должен пройти из точки А в точку Б, не подорвавшись на «мине» вируса-шифровальщика или фишингового сайта. И речь совсем не о паранойе: чем больше подозрительности и осмотрительности вы проявите при работе в Интернете, тем целее будут ваши данные. А данные в наше время – это деньги! За которыми охота идет 24 часа в сутки!