Мониторинг развертывания ClickHouse Cloud

Обзор

Это руководство содержит для корпоративных команд информацию о возможностях мониторинга и обсервабилити для развертываний ClickHouse Cloud в промышленной эксплуатации. Корпоративные заказчики часто спрашивают о встроенных возможностях мониторинга, интеграции с существующими стеками обсервабилити, включая такие инструменты, как Datadog и AWS CloudWatch, а также о том, как мониторинг ClickHouse сопоставим с самостоятельно размещаемыми развертываниями.

Пользователи могут использовать следующие методы для мониторинга своего развертывания ClickHouse:

Раздел	Описание	Выводит бездействующие сервисы из режима простоя?	Требуется настройка
Панели мониторинга Cloud Console	Повседневный мониторинг со встроенными панелями мониторинга для контроля состояния сервиса, использования ресурсов и производительности запросов	Нет	Нет
Уведомления	Оповещения о событиях масштабирования, ошибках, мутациях и биллинге	Нет	Нет (можно настроить)
Конечная точка Prometheus	Экспорт metrics в Grafana, Datadog или другие инструменты, совместимые с Prometheus	Нет	API key + config сборщика
Запросы к системным таблицам	Глубокая отладка и пользовательский анализ с помощью прямых SQL-запросов к таблицам `system`	Да	SQL-запросы
Интеграции сообщества и партнеров	Интеграция с agent Datadog, инструменты мониторинга сообщества и Billing & Usage API	По-разному	Зависит от инструмента
Справочник по расширенной панели мониторинга	Подробный справочник по каждой визуализации в расширенной панели мониторинга, включая примеры troubleshooting	Нет	Нет

Быстрый старт

Откройте консоль ClickHouse Cloud и перейдите на вкладку Monitoring. В этом блоге описаны распространённые проблемы, на которые стоит обратить внимание на старте.

Для большинства пользователей панели мониторинга Cloud Console предоставляют всё необходимое для мониторинга состояния сервиса, использования ресурсов и производительности запросов без какой-либо настройки. Если вам нужна интеграция с внешним стеком мониторинга, начните с совместимой с Prometheus конечной точки metrics.

Особенности влияния на систему

В описанных выше подходах используется сочетание таких вариантов, как обращение к конечным точкам Prometheus, управление со стороны ClickHouse Cloud или прямое выполнение запросов к системным таблицам. Последний вариант предполагает выполнение запросов к сервису ClickHouse в промышленной эксплуатации, что создаёт дополнительную нагрузку запросами на наблюдаемую систему и не позволяет экземплярам ClickHouse Cloud переходить в бездействующее состояние, а это может влиять на затраты. Кроме того, если система в промышленной эксплуатации выйдет из строя, мониторинг тоже может пострадать, поскольку они тесно связаны.

Прямое выполнение запросов к системным таблицам хорошо подходит для глубокого анализа внутреннего состояния системы и отладки, но хуже подходит для мониторинга в реальном времени в промышленной эксплуатации. И панели мониторинга Cloud Console, и конечная точка Prometheus используют предварительно собранные метрики, которые не выводят бездействующие сервисы из состояния простоя, поэтому они лучше подходят для постоянного мониторинга в промышленной эксплуатации. Учитывайте этот компромисс между возможностями детального анализа системы и операционными накладными расходами.

Обзор​

Быстрый старт​

Особенности влияния на систему​

Обзор

Быстрый старт

Особенности влияния на систему