Мониторинг развертывания ClickHouse Cloud
Обзор
Это руководство содержит для корпоративных команд информацию о возможностях мониторинга и обсервабилити для развертываний ClickHouse Cloud в промышленной эксплуатации. Корпоративные заказчики часто спрашивают о встроенных возможностях мониторинга, интеграции с существующими стеками обсервабилити, включая такие инструменты, как Datadog и AWS CloudWatch, а также о том, как мониторинг ClickHouse сопоставим с самостоятельно размещаемыми развертываниями.
Пользователи могут использовать следующие методы для мониторинга своего развертывания ClickHouse:
| Раздел | Описание | Выводит бездействующие сервисы из режима простоя? | Требуется настройка |
|---|---|---|---|
| Панели мониторинга Cloud Console | Повседневный мониторинг со встроенными панелями мониторинга для контроля состояния сервиса, использования ресурсов и производительности запросов | Нет | Нет |
| Уведомления | Оповещения о событиях масштабирования, ошибках, мутациях и биллинге | Нет | Нет (можно настроить) |
| Конечная точка Prometheus | Экспорт metrics в Grafana, Datadog или другие инструменты, совместимые с Prometheus | Нет | API key + config сборщика |
| Запросы к системным таблицам | Глубокая отладка и пользовательский анализ с помощью прямых SQL-запросов к таблицам system | Да | SQL-запросы |
| Интеграции сообщества и партнеров | Интеграция с agent Datadog, инструменты мониторинга сообщества и Billing & Usage API | По-разному | Зависит от инструмента |
| Справочник по расширенной панели мониторинга | Подробный справочник по каждой визуализации в расширенной панели мониторинга, включая примеры troubleshooting | Нет | Нет |
Быстрый старт
Откройте консоль ClickHouse Cloud и перейдите на вкладку Monitoring. В этом блоге описаны распространённые проблемы, на которые стоит обратить внимание на старте.
Для большинства пользователей панели мониторинга Cloud Console предоставляют всё необходимое для мониторинга состояния сервиса, использования ресурсов и производительности запросов без какой-либо настройки. Если вам нужна интеграция с внешним стеком мониторинга, начните с совместимой с Prometheus конечной точки metrics.
Особенности влияния на систему
В описанных выше подходах используется сочетание таких вариантов, как обращение к конечным точкам Prometheus, управление со стороны ClickHouse Cloud или прямое выполнение запросов к системным таблицам. Последний вариант предполагает выполнение запросов к сервису ClickHouse в промышленной эксплуатации, что создаёт дополнительную нагрузку запросами на наблюдаемую систему и не позволяет экземплярам ClickHouse Cloud переходить в бездействующее состояние, а это может влиять на затраты. Кроме того, если система в промышленной эксплуатации выйдет из строя, мониторинг тоже может пострадать, поскольку они тесно связаны.
Прямое выполнение запросов к системным таблицам хорошо подходит для глубокого анализа внутреннего состояния системы и отладки, но хуже подходит для мониторинга в реальном времени в промышленной эксплуатации. И панели мониторинга Cloud Console, и конечная точка Prometheus используют предварительно собранные метрики, которые не выводят бездействующие сервисы из состояния простоя, поэтому они лучше подходят для постоянного мониторинга в промышленной эксплуатации. Учитывайте этот компромисс между возможностями детального анализа системы и операционными накладными расходами.